本书以大数据时代为背景,将机器学习与资产定价相结合,在风险解释、收益预测以及经济机制等方面进行了探索研究。首先,针对中国A股市场存在的收益与风险不对称问题,使用机器学习重新对系统性风险进行测度,缓解了异象;其次,将研究拓展到样本外的可预测性上,对比了各类机器学习算法,创新性地构建了动态深度学习模型,提升了市场有效性;最后,从机器学习的可解释性出发,从微观和宏观两个视角对机器学习背后的经济机制进行了讨论。
第一节研究背景
对收益与风险的解释和预测是资产定价领域的核心议题。无论是横截面上的个股收益比较还是市场或指数的时序收益预测,核心问题在于确定合适的资产定价模型。传统的资本资产定价模型CAPM基于Markowitz的均值-方差组合理论设定,认为股票或组合的超额收益来源于其包含的系统风险。后续的套利定价模型APT和经典的Fama-French因子模型指出影响收益的因素不只市场因子,还应包括其他诸如企业基本面和宏观环境等因子变量,即多因子模型。多因子模型的提出极大地丰富了资产定价领域的探索度,众多传统模型无法解释的异象被发现并构造成为定价因子,形成了因子动物园(FactorZoo)。
目前,学术界对于资产定价研究缺乏高维视角的探索。到目前为止,我们已经发现了大量具备预测能力的企业特征,而很多研究文献仍然只使用了少量的因子数。相当一部分横截面股票收益预测的研究工作将重点放在少量的公司特征的挖掘和回归上,如公司规模、盈利能力或公司账面市值比等。鉴于大量因子变量与收益预测和构建基于因子的投资组合的潜在相关性,关注如此少的变量实际上意味着研究者采用了非常高程度的稀疏性模型。即在成百上千的潜在因子中,通过正则化将绝大多数特征的影响都降低为零。
但上述变量选择过程具有相当的主观性,且我们无法获知在引入息优势。与此同时,近年来可以充分捕捉预期股票收益的有效因子数量一直呈上升趋势。从最早的FamaandFrench(1993)三因子模型,到Fama-French五因子模型,以及后续更多异象因子的发现(图1-1),资产定价正在走入大数据时代。新的时代背景带来新的研究挑战,如对于众多特征异象有效性的联合检验,异象之间的冗余关系,新异象对于定价模型的边际贡献度以及异象的重要度排序等,这些问题无法通过传统计量模型进行解释,而需要以高维视角结合机器学习进行探讨研究。
不只是学术研究,现实世界中的投资者在进行资产配置决策时同样面临高维数据问题。理性的投资者基于资产价格进行投资,资产价格反映了投资者对未来资产收益的预期。近年来,随着新媒体的快速发展,投资者面临着如何从大量潜在预测变量中获取有效信息进行预测的困扰。现有的研究框架将投资者认知简单地设定为只包含少量参数的低维模型,并不能充分地反映当下的高维数据环境。
面对金融大数据带来的挑战,机器学习算法的改进和应用已成为近年来学术研究的热点。机器学习将训练数据输入计算机进行学习,并利用训练后的模型进行预测研究。例如,在图像识别中,通过将食物图像分为包含水果和不包含水果两类,算法在训练集中学习各图像像素与食物分类之间的关系。在完成训练后该算法就可以用来预测尚未进行分类的图像中是否包含水果。机器学习模型在训练过程中可以有效处理高维数据,避免传统回归模型如最小二乘回归(OLS)等统计工具的过拟合问题。虽然机器学习在诸多工程领域中表现优异,但其在金融市场的应用并不能通过简单的移植来完成。其主要原因在于金融数据自身特有的性质。首先是信噪比问题,由于存在巨大的市场噪声,金融数据的信噪比往往较低,此外有效市场假说理论表明一个完全有效的市场是无法利用过往信息获取超额收益的,虽然现实中并不存在这样一个完美市场,但市场交易者套利行为的存在的确会消化大部分有效信息,降低历史数据的有效性。由此带来的另一个问题是市场结构的周期变化,新信息的不断构建和消化带来了定价模型的动态变化,正如一张随时变化的“脸”使得面部识别不再有效一样,这种波动使得模型预测变得复杂和困难。
金融数据的第二个特点在于其较短的样本量。现代化股票市场成立不过百年,相比其他人工智能项目,更多新金融数据的获取只能依靠时间的推移产生。而相比结构化面板数据,非结构化的新兴媒体数据诞生的时间更晚,受限的数据量约束了模型的估计和验证过程。
机器学习的可解释性研究同样十分必要。一些机器学习模型为典型的“黑箱”结构,虽然拥有优异的预测和分类能力,但理论解释却十分匮乏。而对于金融市场的参与者来说,了解模型的传递机理是非常重要的。其意义在于:第一,可以了解模型定价机理;第二,在模型发生失效时可以及时做出调整。传统资产定价模型如Fama-French三因子模型认为超额回报可由市场资产组合、市值因子和账面市值比因子来解释,