【量化研报】海通证券:选股因子的正交

0
回复
3191
查看
[复制链接]

209

主题

26

回帖

1424

积分

超级版主

积分
1424
来源: 2019-7-29 21:35:20 显示全部楼层 |阅读模式
研报名称:《选股因子系列研究(十七)——选股因子的正交》
研报作者:海通证券 冯佳睿 袁林青
近年来,随着投资者对于因子选股体系研究的深入,选股因子值的处理也在逐渐细化。本文主要对于选股因子的正交进行了讨论。之所以讨论因子的正交是因为在传统的多因子模型中,选取的因子之间往往存在着相关性,而这种相关性并不稳定。 因此相关性的存在会复杂因子权重的分配。对于等权分配因子权重的多因子模型,由于因子之间相关性的存在,模型可能实际上对于某一因子有更高的暴露(例如,市值因子)。 对于权重优化的模型,相关性的影响可能会更大。因此,本文考虑在构建因子的时候就对于相关性进行剔除从而达到更为可控的因子暴露。
选股因子截面相关性波动较大
以市值因子与反转因子为例, 虽然两因子截面相关性长期来看均值较低,仅为 0.02, T 统计量为 1.64,但是在不同时间段上因子截面相关性差别极大, 若使用这两个因子构建等权多因子选股组合,即使模型对于两因子分配权重相同,组合对于市值因子的暴露也会因为两因子之间相关性的变动而难以控制。对于因子权重优化的多因子模型,因子相关性带来的问题就会变得更加复杂。基于上述原因, 我们认为选股因子的正交还是有必要的。
可通过线性回归对于因子间的线性相关性进行剔除
本报告主要通过线性回归对于因子之间的线性相关性进行剔除。例如,在某一时点 t,投资者需要将选股因子 m 相对于现有的 k个选股因子做正交。选股因子 m 的正交因子值可通过以下回归方程得到。
f_m为各个股票在 t 时刻因子 m 的因子值, ξ_m为各个股票在 t 时刻正交因子 m 的因子值。 对于多个选股因子的集合,可通过“逐步添加变量,逐步正交”的方式进行处理并得到两两之间相互正交的因子集合。
逐步正交多因子模型在不同因子集合下相比于原始多因子模型皆能产生提升
正交组合相比于原始组合在复合因子 IC、 复合因子 ICIR、多头组合超额收益、 组合信息比率以及相对月度胜率上皆有提升。在等权多因子模型下,正交处理对于原始组合的提升会随着因子数量的增多而逐渐减弱,在最大化收益预期模型中,该现象得到了较好的缓解。
借鉴逐步回归法,可使用收益预测模型 R 方为标准确定因子正交顺序
整体上来看,该方法有一定提升效果,但有待改进。 使用上述方法确认正交顺序后所得到的动态正交组合相比于原始组合确实有一定的提升但是提升效果弱于前文中给出的固定正交顺序下的组合表现。此外,动态正交组合相比于原始组合的提升在强势选股因子集合下更为明显,在“弱有效” 的选股因子加入后动态正交的提升效果明显减弱。
风险提示
市场系统性风险、资产流动性风险以及政策变动风险会对策略表现产生较大影响。
本文主要分为三部分。第一部分对于因子正交的必要性以及正交过程中的相关处理方式进行了说明。 第二部分回测对比了正交多因子模型与原始多因子模型的历史表现。第三部分对于正交顺序的确定进行了讨论。
1.选股因子的正交
在讨论选股因子的正交之前,有一个问题更值得各位投资者思考:选股因子需要正交吗? 我们认为是有必要的, 核心原因在于选股因子间的截面相关性较不稳定。 选股因子截面相关性在本文中具体指在某一时点上,某两个选股因子截面因子值之间的线性相关性。 下图统计了市值因子与反转因子在 2006 年至 2016 年间在不同时点上的因子截面相关性。
虽然两因子截面相关性长期来看其均值较低,仅为 0.02, 且不显著(T 统计量为1.64), 但是在不同时间段上因子截面相关性差别极大,有的时候能够达到 0.50 的正相关, 有的时候也能够达到-0.40 的负相关。 若使用这两个因子构建等权多因子选股组合,即使对于两因子分配相同权重, 组合对于市值因子(反转因子) 的暴露也会因为两因子之间相关性的变动而难以控制。 对于因子权重优化的多因子模型, 因子相关性带来的问题就会变得更加复杂。 基于上述原因, 我们认为选股因子的正交还是十分必要的。
本报告主要通过线性回归的方式对于因子之间的线性相关性进行剔除。例如,在某一时点 t,投资者需要将选股因子 m 相对于现有的 k 个选股因子做正交。 选股因子 m 的正交因子值可通过以下回归方程得到。
f_m为各个股票在 t 时刻因子 m 的因子值, ξ_m为各个股票在 t 时刻正交因子 m 的因子值。
当然,在实际应用的过程中, 对于 K 个因子的多因子模型,投资者最终希望得到的是一个两两之间相互正交的多因子集合。 本报告主要通过“逐步添加变量, 逐步正交”的方式来对于多因子集合进行处理。 该方法与 Gram-Schmit 方法较为类似, 投资者在实际使用过程中也可根据自身需求对于正交的处理流程进行调整。
对于前文提到的逐步正交的处理方法, 投资者需要预先给定一个选股因子正交的顺序。 在此处我们不妨先假定已经有了一个因子正交的顺序, 因子正交顺序的确定会在报告第三部分进行讨论。 对于某一给定的正交顺序,可按以下步骤进行逐步正交处理:
1) 对于正交顺序第一的因子, 其正交因子值就等于其原始因子值;
2) 对于正交顺序第 k(k>1)的因子,将其原始因子值作为回归的因变量,现有的
已经正交过的因子作为回归的自变量,取回归残差为正交因子 k 的因子值;
3) 将正交因子 k 放入已经正交过的因子集合并对于正交顺序为 k+1 的因子进行步骤(2)、(3)的处理。
2.正交因子历史表现回顾
本节主要通过历史回测的方式对比正交多因子模型与原始多因子模型的不同。 我们一共选取了 8 个不同类别的因子并在这 8 个因子中选择了不同的因子子集合构建多因子模型并对比正交模型与原始模型表现的不同。 下表给出了这 8 个因子的详细信息。
此外,在进行回测时本报告按照以下方式进行处理:
1) 使用 2010 年至 2016 年之间的数据进行回测;
2) 每月月末调整组合, 按照双边千三的费率计算交易成本;
3) 所有的因子值都按照去极值以及标准化的方式进行处理。
另外, 本节在构建正交因子时按照固定的顺序进行构建,下表给出了具体顺序。
接下来, 本报告将分别在等权多因子模型以及最大化收益预期模型下对于正交多因子组合以及原始多因子组合的表现进行对比。
2.1 等权多因子模型
等权多因子模型对于不同的因子赋予相同的权重,权重前面的正负号取决于因子历史 IC 均值的正负。 该模型的打分公式可表达为下式:
其中, Ri 为股票 i 最终的因子打分值, fij 为股票 i 在因子 j 上的暴露值, K 为选股因子的数量。
以较为经典的三因子模型(市值因子+反转因子+换手率因子) 为例, 可对原始等权多因子模型选股效果以及正交等权多因子模型选股效果进行对比。
若将多因子模型看作是一个复合因子的话,可计算复合因子的 IC 以及 ICIR。 对于原始三因子模型, IC 为 0.09, ICIR 为 2.29, 而对于正交三因子模型, IC 为 0.10, ICIR为 3.30。 从 IC 上来看, 两复合因子之间并未有十分明显的区别,但从 ICIR 上可以看到正交模型明显优于原始模型。 由于 ICIR 实际上是 IC 的均值除以 IC 的标准差。 在两复合因子 IC 相差无几的情况下, 更高的 ICIR 实际上意味着更低的 IC 标准差, 也即更高的 IC
稳定性。 当然,也可以构建中证 500 行业中性多头组合对比两模型的选股效果。 下图对比了两多因子模型的多头组合净值走势。
观察两组合的相对强弱指数走势可知, 正交组合在大部分时间上跑赢原始组合。 但值得注意的是, 正交组合在 2015 年 7 月至 10 月之间相对于原始组合出现了约 3%的相对回撤。 在对于该段时间进行回溯后, 我们发现反转因子在此段时间上的表现尤为强势,原始模型中的换手率因子与反转因子相关性较强,而正交模型中的换手率因子已经剔除了反转因子故而使得原始模型在该段时间上对于反转的暴露更高从而有着更高的收益。当然这种情况在整个回测区间段上出现的次数并不多。 下表对于两个组合在整个回测时间段上的表现进行了统计。
在组合的绝对收益、超额收益、 相对最大回撤、收益回撤比、信息比率以及月度胜率上,正交组合相比于原始组合皆有一定提升。 为了进一步对比两个组合的不同,下表对比了两个组合分年度的表现情况。
重点对比两组合分年度的超额收益以及信息比率后可发现,正交组合的信息比率在不同年份相比于原始组合都有所提升。 于此同时, 正交组合的收益相比于原始组合在绝大多数年份中也略有提升。 这种提升在我们看来较为有效。 因为在对于组合稳定性进行提升时,一种较为简单的做法就是控制组合风险,通过牺牲收益来对于组合表现稳定性进行提升, 然而此处组合稳定性的提升并不是以组合收益的降低为代价的, 所以我们认为正交处理在此处的提升是较为有效的。
下表分别统计对比了不同因子数量下原始组合与正交组合的表现情况。
通过对比可以发现,不同因子组合下正交组合相比于原始组合都有所提升。 此外,正交处理对于组合的提升会随着因子数量的增多而逐渐减弱。 对于这一现象,我们认为这是后加入的因子以及等权模型本身的特性所共同造成的。 通过前文介绍可知, 后加入的因子都是一些“弱有效” 的选股因子(即, 具有一定选股效果但不稳定)。 而这些因子的选股能力往往来源于它们和传统强势选股因子之间的相关性,在通过正交处理以后这些因子本身的选股能力就会更弱从而会在等权模型中对于最终打分产生干扰。 为了能够避免等权因子权重分配带来的影响, 我们在下一节中对于正交因子在因子权重优化模型中的表现也进行了统计与对比。
2.2 最大化收益预期多因子模型
在最大化收益预期模型中,我们首先使用给定因子使用历史数据构建收益预期模型,然后基于收益预期模型回归系数以及选股时点上股票对于各因子的暴露可计算得到各股票下一期的收益预期。 基于股票收益预期,可得到最终选股组合。
下表给出了原始组合与正交组合在不同因子集合下的表现。
可以看到,正交处理在最大化收益预期模型中的效果更加稳定。随着因子数量的增多,正交组合相比于原始组合的提升也并未出现明显减弱。 对于“弱有效” 的选股因子,在正交后若选股效果较弱,那么在收益预测模型中的回归系数也就会相应地较低, 从而使得模型最终分配到该因子上的权重变低。 所以可以看到, 正交处理带来的提升并未随着因子数量的增多而出现明显减弱。
3. 正交顺序的确定
前文所提到的“逐步添加变量,逐步正交”的方法需要在正交前确定正交的顺序。本节将对于正交顺序的确定进行初步讨论。 由于海外文献对于正交顺序的确定并未有一致的结论, 我们在本篇报告中借鉴逐步回归法构建了正交顺序的确定方法, 详细步骤如下:(假设现有 K 个选股因子需要进行逐步正交)
若需确认第一个正交的选股因子,
1) 对于每一个备选因子 fi, 使用历史 24 个月的数据构建收益预测模型, 并计算收益预测模型的 R 方;
2) 选择具有最大 R 方的收益预测模型所对应的备选因子作为第一个正交的因子;
若存在正交因子 of1…ofm,
1) 将每一个备选因子 fi 相对于已有的正交因子正交,并得到正交后的备选因子 ofi;
2) 使用已存在的正交因子以及正交后的备选因子构建收益预测模型并计算收益预测模型的 R 方;
3) 选择具有最大 R 方的收益预测模型所对应的备选因子作为下一个正交的因子。
基于上述框架投资者可根据自身需要对于正交顺序的确认方法进行构建。 例如, 可将历史数据时间窗口进行变化,或者使用 R方以外的指标为标准对于备选因子进行选取。
下表展示了等权模型中不同因子集合下原始组合与正交组合的表现情况。 观察下表可知, 使用上述方法确认正交顺序后所得到的动态正交组合相比于原始组合确实有一定的提升但是提升效果弱于前文中给出的固定正交顺序下的组合表现。此外,动态正交组合相比于原始组合的提升在强势选股因子集合下更为明显,在弱有效的选股因子加入后动态正交的提升效果明显减弱。
下表展示了最大化收益预期模型中不同因子集合下原始组合与正交组合的表现情况。 对于最大化收益预期模型,我们同样可以得到类似的结论。即, 动态正交组合相比于原始组合在收益以及信息比方面的确有一定的提升,但是提升效果弱于固定正交顺序组合。 此外, 动态正交处理带来的提升更多集中在强势选股因子集合中。
对于动态正交组合提升效果的不稳定这一问题,我们认为正交顺序在这里有着较大的影响。 动态正交组合的因子正交顺序取决于因子对于股票收益波动的解释度。 然而对于某些因子组合,它们虽然对于股票收益波动的解释度较高,但是对于股票收益预测的稳定性较低(即, 风险因子)。 这种因子的出现会在以 R 方为判定标准的动态正交模型下对于因子的正交顺序产生影响, 从而对于正交因子的计算带来影响。 考虑到这一问题,我们认为正交顺序的确认方法在实际应用中还有待提升, 可以保留整体的框架但是在挑选正交因子时使用其他条件进行筛选。
4.总结
本文对于选股因子的正交进行了讨论, 希望通过使用正交选股因子来得到更加可控的因子暴露。 通过实际组合的构建以及初步回测, 我们发现正交因子组合相比于原始组合在稳定性上的确有着明显改善,此外这种稳定性的提升并未牺牲组合收益。 在等权多因子模型下,正交处理对于组合的提升会随着因子数量的增多而减弱,而在最大化收益预期多因子模型下,正交处理对于组合的提升效果更为稳定。
此外,本文还对于选股因子正交顺序的确定进行了探讨, 我们使用收益预测模型 R方作为正交顺序的判定标准。 总的来说,该方法还有待进一步提升。 通过实际回测可知,该方法计算得到的动态正交多因子组合确实能够在强势选股因子集合内相对于原始组合产生提升。 但是随着因子集合的扩大以及“弱有效” 选股因子的加入,动态正交处理带来的提升基本消失。
5.风险提示
市场系统性风险、资产流动性风险以及政策变动风险会对策略表现产生较大影响。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册
关注微信