统计学习导论
1 前言
本书《统计学习导论:基于Python的实践与应用》是一部专门为商学院和经济院系学生量身定制的统计学习教材,结合了中国本土的商业和金融实践,旨在帮助学生从仅仅只满足于“运行代码”的初学者,成长为能够理解统计模型内在原理、并能熟练解决中国市场实际问题的专业数据分析人才。
1.1 目标读者
- 商学院、经济学院等相关专业的高年级本科生(作为计量经济学、机器学习或商业数据分析的进阶教材)。
- 需要应用统计学习方法进行实证经济、金融学术研究的研究生。
- 金融业界(如券商量化研究、基金公司、银行风控等)的数据分析师和数据科学家。
1.2 先修知识
- 数学基础: 掌握微积分、线性代数、概率论与数理统计的基本概念即可。本书注重直觉解释,无需复杂的测度论及高级实变函数基础。
- 编程能力: 具备Python编程基础,了解如何使用
pandas进行基础的数据整理与清洗,以及numpy数组操作和matplotlib绘图。 - 补充建议: 对于数学推导较为薄弱的读者,建议重点关注各章节中模型背后的商业直觉解释和图形化展示,将代码作为验证理论的有效工具。
1.3 本书结构
本书共分为13个核心章节,内容排布循序渐进,涵盖了从基础的线性模型到前沿的深度学习等统计学习主要领域,所有均在金融与商业数据的语境下展开:
- 第1章:导论。从什么是统计学习开始,辨析监督学习和无监督学习的区别及其在宏观经济预测与客户市场分群中的不同应用。
- 第2章:统计学习理论基础。直击模型评估的核心——探究损失函数与偏差-方差权衡,探讨如何在模型的复杂度和泛化能力之间找到最佳平衡点。
- 第3章:线性回归。涵盖简单与多元线性回归、假设检验以及多重共线性等,这是所有计量经济学和金融实证分析的基石。
- 第4章:分类方法。介绍逻辑回归、判别分析和朴素贝叶斯等模型,常用于企业信用违约预测和市场涨跌方向判断。
- 第5章:重采样方法。讲解交叉验证(Cross-Validation)和自助法(Bootstrap),这对于在有限的财务数据样本下稳健评估模型性能至关重要。
- 第6章:线性模型选择与正则化。包括特征子集选择、岭回归(Ridge)和Lasso回归,探讨如何在众多财务指标中筛选出最具预测能力的因子。
- 第7章:超越线性关系。放松线性假设,深入多项式回归、样条光滑技术以及广义加性模型,捕捉金融异象中非线性的复杂规律。
- 第8章:基于树的方法。从基础决策树到先进的Bagging、随机森林(Random Forests)与Boosting技术,这些是目前工业界处理表格型金融数据最强大的武器。
- 第9章:支持向量机。剖析最大间隔分类器与核方法(Kernel Methods)在处理高维复杂边界时的独特优势。
- 第10章:深度学习。引入多层感知机网络、卷积神经网络(CNN)与处理时间序列财务报表及行情利器的循环神经网络(RNN)和长短期记忆网络(LSTM)。
- 第11章:生存分析与删失数据。利用Kaplan-Meier估计和Cox比例风险模型研究企业破产退市时间和客户流失风险。
- 第12章:无监督学习。通过主成分分析(PCA)进行高维降维和宏观经济指数构建,利用聚类分析挖掘潜在的股票板块轮动模式。
- 第13章:多重检验。在量化投资中控制多重假设检验带来的错误发现率(FDR),防止开发出“伪量化策略”。
1.4 使用说明
1.4.1 python 版本
本书所有代码示例都使用Python 3.10 编写。在linux(ubuntu)和windows(win10、win11)平台运行通过。
1.4.2 数据获取
读者可以从教材的数据网站获取这些本地数据,将本机数据的文件名前添加 https://assets.qiufei.site/data/ 这串字符串,就可以获取数据的下载链接。比如,想获取stock/stock_basic_data.h5 这一数据,其网址就是:https://assets.qiufei.site/data/stock/dupont_analysis_data.h5