统一视角下的因子投资

宽客精选数据策略 2020-9-8 19:38 586152人围观

本文选自川总写量化石川作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。

摘要

一本写给你的因子投资，请查收。

00引言

到底什么是因子投资？

因子投资涵盖的内容包罗万象。有人用因子来获取收益，也有人用因子来控制风险；有人用因子进行被动的资产配置，也有人用因子博取主动的套利收益；有人用因子研究预期收益率，也有人用因子研究收益率的波动……这些差异性的使用方式足以把刚接触因子投资的人搞得晕头转向。

如果将“什么是因子投资”这个问题抛给从事因子投资的人，一千个人也可能给出一千种答案。因子投资涉及的内容虽然看似纷繁，但它们其实非常协调地构成了一个有机的整体。

如何站在一个统一视角下探讨因子投资的方方面面呢？

一个公式

20 世纪 60 年代，资本资产定价模型（Capital Asset Pricing Model，即 CAPM）问世，首次清晰地描绘出风险和收益率之间的关系。根据 CAPM 理论，资产的预期超额收益由下面这个一元线性模型决定：

其中 E[.] 是期望符号，E[R_i] 为某资产 i 的预期收益率，R_f 为无风险收益率，E[R_M] 为市场组合的预期收益率。式中 β_i = cov(R_i, R_M)/var(R_M) 刻画了该资产收益对市场收益的敏感程度，它也被称为资产 i 对市场风险的暴露程度。CAPM 正是最简单的线性因子模型，它指出资产的预期超额收益率由市场组合的预期超额收益率和资产对市场风险的暴露大小决定，而市场组合也被称为市场因子。

公式 (1) 这个简单的关系为后续大量线性多因子定价模型的研究拉开了序幕。人们发现不同资产的收益率并非由单一的市场因子决定，而是同时受到其他因子的影响。以此为契机，Ross (1976) 提出了著名的套利定价理论（Arbitrage Pricing Theory，简称 APT），在 CAPM 的基础上做了进一步延伸，构建了线性多因子定价模型（简称多因子模型）。多因子模型假设资产 i 的预期超额收益由以下多元线性模型决定：

其中 E[R_i^e] 表示资产 i 的预期超额收益，β_i 是资产 i 的因子暴露（factor exposure）或称因子载荷（factor loading），λ是因子预期收益（factor expected return）、也常被称为因子溢价（factor risk premium）。式 (2) 中引入符号 E[R_i^e] 代表预期超额收益而舍弃了 E[R_i] - R_f，原因如下。对于个股或者由若干支股票组成的纯多头投资组合这类资产，它的预期超额收益是 E[R_i] 和无风险收益率 R_f 之差，即 E[R_i] - R_f。在实证资产定价中，另一类常见的资产是通过多空对冲构建的资金中性投资组合，例如做多一定金额的股票、同时做空同样金额的股票。依照定义，这类资产的预期超额收益率就是多头和空头预期收益之差，无需额外减去无风险收益率。因此，使用 E[R_i^e] 代表资产的预期超额收益更具一般性。

和 CAPM 类似，多因子模型假设 E[R_i^e] 由 (2) 式右侧的一系列因子的预期收益率和资产在这些因子上的暴露决定。它表明多因子模型研究的是不同资产预期收益率之间的差异，而非单一资产收益率在时序上的变化。在多因子模型研究的术语中，不同资产预期收益率的差异通常被称为（横）截面（cross-sectional）差异，资产预期收益率的高低由它在这些因子上的暴露 β_i 大小决定。

多因子模型在数学上简单、优雅，它允许人们在公式 (2) 的右侧加上任何可能影响资产预期收益率的因子。然而，实际的金融市场十分复杂，影响资产收益率的原因层出不穷又千变万化。因此，虽然 (2) 给出了市场均衡状态下资产的预期收益率，但在实际中其左、右两侧往往并不相等，而是存在一个定价误差（pricing error）：

上式中 α_i 是资产 i 的实际预期收益率和多因子模型隐含的预期收益率之间的定价误差。该误差背后的原因可以从以下两方面来考虑：

1. 模型设定偏误，即公式 (2) 右侧遗漏了重要的因子。当被遗漏的因子被加入后，即可消除误差。

2. 模型本身没有问题，但由于资产收益率的实际数据仅仅是总体的一个样本，因此误差总是存在的。这时需要通过统计方法检验误差 α_i 是否显著不为零：

2.1 如果 α_i 并非显著的偏离零，那么可以认为它的出现仅仅是因为运气的原因；

2.2 如果 α_i 显著偏离零，它则代表了某个可以通过套利而获得超额收益的机会；它也同时说明由于某些原因，市场对该资产出现错误定价（mispricing），从而导致其实际预期收益率和模型下的预期收益率出现了偏离。

如何选择因子来构建多因子模型，如何计算资产在因子上的暴露以及因子的收益率，如何使用统计学的方法对定价误差 α_i 进行正式检验就成为了使用多因子模型研究资产定价时必须回答的问题。而多因子模型一经提出，用来回答上述问题的相关理论也得到了迅速的发展。如今多因子模型早已成为实证资产定价（empirical asset pricing）研究的最主要方法，也由此在投资实务中催生了一个全新的类别 —— 因子投资（factor investing）。

作为当今一个重要的投资类别，因子投资中涉及的内容非常丰富，但所有的方面都可以围绕公式 (3) 来展开和讨论，形成关于因子投资的统一视角

因子、多因子模型、异象

下图展示了 (3) 中的三个成分。在多因子模型中，β'_iλ 中包含了多个影响 (3) 左侧资产收益率的解释变量，每个解释变量代表了一个因子。多个因子的预期收益率以及资产在它们上的暴露放在一起构成的 β'_iλ 就是多因子模型。对于某个给定的资产 i，如果它的实际预期收益率和多因子模型隐含的预期收益率之间的误差 α_i 显著不为零，则称这个资产为一个异象（anomaly）。

因子投资中最重要自然是因子。那么，因子到底是什么？如何选择因子？由 (3) 可知，它左侧不同资产的收益率均可以归结到有限个因子的收益率上，而不同资产预期收益率的高低由它们对因子的暴露大小决定。由此可以得出因子的定义：

因子描述了众多资产共同暴露于的某种系统性风险，该风险是资产收益率背后的驱动力；因子收益率正是这种系统性风险的风险溢价或风险补偿，它是这些资产的共性收益。

下面通过一个来自 Ang (2014) 的类比加深对上述定义的理解。Ang (2014) 将因子之于资产类比于营养之于食物。人们的日常生活离不开摄入各种食物，比如米饭、谷物、肉类和乳制品等。这些食物之所以对人体重要是因为它们所包含的营养成分，例如水，碳水化合物，蛋白质，纤维和脂肪等。这些营养成分就是食物的“因子”。

每种食物对人体的价值体现在两方面：（1）它包含哪些营养成分以及包含了多少（类比多因子模型中的 β_i）；（2）该食品包含的每种营养成分对人体健康的重要性（类比多因子模型中的λ）。因此，虽然食物种类五花八门，但归根结底它们都可以归结为不同营养成分的组合；同理，虽然股票资产成百上千，但归根结底它们都可以归结为不同因子的组合。这就是因子的作用和多因子模型的价值。

从上述定义可以总结出因子需要满足的两个必要条件：（1）因子驱动了资产收益率的共同运动（co-movement），因此因子一定和资产收益率的协方差矩阵有关；（2）长期来看因子是可以获得正收益的，这意味着因子必须是被定价的。明确了因子的定义，下面再来看看什么是多因子模型。

把若干个因子放在一起使用就构成了一个多因子模型。通常来说，人们总可以找到非常多的能够解释资产预期收益率截面差异的因子，但无论是学术理论还是投资实践都表明并不应该把所有的因子都放到一个多因子模型里。如何确定一个多因子模型中到底有几个以及哪些因子，可以从以下两点考虑。

首先，很多因子之间都存在一定的相关性，高度相关的因子代表的是资产收益率所暴露的同一类风险。在选择模型包括的因子时，必须要考虑相关性的影响，人们希望加入模型的因子是相互独立的、每个因子都能对解释资产预期收益率截面差异有显著的增量贡献。第二个考虑是简约法则。从定义出发，每个因子代表的是资产暴露的某种共性风险。因此从常识来说，多因子模型中因子的个数一定是有限的。学术界的主流多因子模型通常包括 3 到 5 个因子。

最后来看异象。在选定了多因子模型后，如果某个资产的预期收益率中存在一部分无法被多因子模型解释，且这部分显著大于零，那么该资产就是一个异象。举个例子，在股票市场中，人们经常根据某个公司财务指标或者量价指标来把股票排序，并按照排序高低构建一个多、空对冲投资组合。将该投资组合作为一个资产放在多因子模型中，如果其 α_i 显著大于零，那么就称该投资组合就是一个异象，而构建该组合的指标就被称为异象变量（anomaly variable）。

因子投资包含的内容

因子投资的内容可以因研究的对象是公式 (3) 右侧的 β'_iλ 或 α_i 而分成两大类。每一大类下又可以因站在学术界和业界的不同立场再进一步划分。按照重要性的先后顺序，首先来看 β'_iλ 这部分。

1. 关注 β'_iλ 的研究

在这方面，学术界关注的是找到“最好的”多因子模型 ——“最好的”通常意味着在该模型下资产的 α_i 尽可能接近零，即该模型无法解释的异象越少越好。以此为目标，学术界在过去 30 年针对股票市场推出了很多经典的多因子模型

在提出每个多因子模型的同时，学术界也格外关注每个因子背后的原因。即便到了今天，因子背后的原因也仍然是研究的热点之一。经过几十年的发展，学术界也发明出很多计量经济学的方法，它们可以计算因子暴露、因子收益率并对多因子模型进行假设检验。除此之外，学术界研究 β'_iλ 的另一个重点是对主动基金管理人的业绩进行归因。大量的实证数据研究表明，在选择了适当的多因子模型后，美股市场上绝大多数主动基金管理人并不能获得超额收益。

与学术界不同，业界进行因子投资最重要的目标是使用因子来获取超过基准的收益。因此业界从资产配置的角度聚焦于找到长期来看有风险溢价的因子，并以尽可能高的暴露配置在这些因子上。仍然以 Ang (2014) 中食物和营养的类比做解释。人们每天摄入不同的食品，其本质是为了吸收食品背后的营养成分，这些食品只是获得营养的渠道。人们想要保持健康则需要这些营养成分均衡的搭配。

回到因子投资中，业界关心如何以资产为媒介配置在不同的因子上，并在分散化的前提下最大化在不同因子上的暴露，从而获得稳健的（超额）收益。除此之外，随着因子投资的发展，很多 Smart Beta ETF 金融产品相继问世，极大丰富了资产配置的工具。

2. 关注 α_i 的研究

再来看 α_i 部分。α_i 代表了可以通过套利获得的超额收益。出于截然不同的原因，学术界和业界都对它非常感兴趣。先说学术界，从有效市场假说（Efficient-Market Hypothesis，出自 Fama 1970）的观点出发，如果多因子模型不存在模型设定偏误，那么市场中不应该存在太多异象。因此，一旦一个异象被发现，就会被拿来评判市场并非有效，或用来描述市场均衡状态的因子模型有误，这是学术界研究异象的主要动机。另一方面，解释异象的能力是评价多因子模型优劣的重要标准之一。比如两个多因子模型 A 和 B，如果使用模型 A 时异象的个数少于模型 B 时异象的个数，就会认为模型 A 比模型 B 更好。模型之间的对比也从侧面推动了对异象的研究。

相比之下，业界对异象的研究动机则“单纯”的多，且业界并不严格区分因子和异象。在业界看来，一个因子是否被纳入某个定价模型（从而从异象转变为定价因子）并不重要，而更关心在考虑了交易成本之后，使用该因子是否仍然能够获得超额收益。

12 / 2 页下一页