• QQ空间
  • 回复
  • 收藏

【宽客策略】阿尔法多因子模型系列之三:模型拟合答案

KUO 数据策略 2020-4-10 07:14 266124人围观


下面是阿尔法多因子模型系列之一:专业水平测试题的模型拟合的参考答案(网上大神的答案汇总),大家共同学习。


1.拟合多因子模型的综合目标是什么?
l  增强模型的解释能力,提高模型对风险的预测。
l  通过拟合多因子模型,来筛选显著、有逻辑的因子达到解释股票的价格变动,预测其未来的变化情况,最后目标是赚大钱。

2.如何选择样本空间?例如对初上市股票、ST股票、指数成分股变动、停牌股票等异常情况的处理方法。
l  每一期进行回归时的样本空间都需要动态处理,对于明显不合理且没有代表性的股票可以直接剔除,比如初上市的股票,ST股票、停牌股票等,保证最终所选出来的股票是最具有代表性的。同时需要注意,剔除时需要考虑行业问题,不能剔除不合理之后某个行业下面就没有代表股了,比如A股的保险业,对于这种情况就需要综合考虑。
l  连续的、无缺失值的足够分析精度的频率样本是最好的,如果不满足其中的一项或者几项,可以采用插值、舍去等方法进行处理,这都是数据清洗的内容。对于初上市的股票、ST股票由于没有足够的历史数据进行回测,或者适用的模型和一般的不同,我个人的建议是能不碰就不碰,承认量化的局限性。指数成分股变动、停牌等,应对应修正我们在对冲系统风险时的头寸,避免不必要的风险暴露。

3.如何选取因子组?有什么可以参考的经典理论【宽客之家】?
l  所选取的因子要保证合乎投资逻辑且经过长期市场检验,参考理论多来自于经济金融教科书、论文期刊等,比如Fama-French三因子模型。
l  可以通过阅读研报、内部讨论等方式进行因子选取检验;最经典的应该就是三因子以及三因子扩展模型了吧。


4.从选择因子到多因子策略回测,一般有哪几个环节?哪些可以省去,哪些不能?
l  单因子测试,多因子合成,预测个股**益率、交易成本估算、组合构建
l  (1)、有一个大致的可能性思路;(2)、根据这个思路去查阅文献,检索哪些因子是可能被加入模型的;(3)、根据现有数据集,确定可以被量化加入的因子数;(4)、预估计,并检验各因子有效性;(5)、共线性、异方差、自相关、显著性检验和修正;(6)、残差检验,是否存在遗漏变量;(7)、完成并归档。


5.每一期的因子暴露度,如果不进行离群值、缺失值以及标准化处理,会有什么后果?如果选择进行处理,又会带来哪些需要注意的模型扭曲?
l  极值在回归中会影响整体的情况,若不进行标准化处理会导致因子间的量纲相差甚远,缺失值过多也回影响模型整体情况;对于极值的处理要考虑合理性,特别异常的极值可以直接去掉,缺失值剔除太多也不行,标准化要考虑行业之间在某些因子上固有的差异。
l  不处理的话可能会造成模型的预测**益虚高/虚低、模型的时间频度不一致导致被估计参数错误/不稳健等后果。进行处理主要是插值、取对数、拉回n倍标准差等等,可能会存在过拟合等问题。

6.离群值处理方法有那几种?一种比较常用的办法是将离开均值N倍标准差距离以外的离群值拉回N倍标准差的位置上,这时候N一般取值多少?
l  离群值处理有分位数去极值、标准正态分布去极值;若用标准正态分布,常见的N取3。
l  无论是拉回2倍Std(95%置信区间)、3倍Std(99%置信区间)或者其他位置,这无一个公允的定论,我认为,在处理的过程中,我们要明确这样处理的目标是什么。如果是避免一些离群的过高**益来误导我们高估了模型的**益率,那我们应该选择较小的倍数。但这样做的同时,也增大了我们低估模型**益率的可能。反之亦然。因此根据基金自身所设立的风险偏好、**益预期来选择各自的处理准则,我认为是比较合适的。

7.缺失值的处理方法有哪几种?现**三种参考方式:一是把空置设为NaN,回归涉及NaN项时用程序自动忽略;二是把所有含NaN项的个股从当期票池中剔除;三是把所有NaN(在标准化后)设为零(或中位数)。它们有什么区别?哪种好?或者有没有更好的?
l  回归时有NaN的项,程序也会自动忽略,和剔除所达到的效果一样;直接将NaN设置为0或者中位数也是一个可选方案,但这种替代是否合理还要具体情况具体分析;个人经验是,若因为某些原因缺失值不能直接去掉则建议用某个值替换,反之没有这个限制则可以剔除。
l  剔除各股是最稳健、保守的处理方法,缺点是排除了可能存在alpha的股票;一般的做法是标准化后做技术处理,这样可能导致模型过拟合;自动忽略不太建议使用,因为数据的连续性上会出现问题。如果可行的话,可以采用和缺失值因子相关度较高的、数据质量较好的另外一个或者一组因子来代替含油缺失值的因子,可以避免以上问题。但现实不一定满足,满足不一定能获取。

8.标准化的方法有哪些?标准化后数据近似呈现何种分布规律?各种标准化方法的利弊?
l  常用的是假设因子值服从正态分布,用(x-u)/sigma来进行标准化;在因子值明显不服从正态分布时,可以采用中位数标准化方法。
l  一般就是将因子减去均值除以方差,标准化后呈现N(0,1)分布。我仅知这一种标准化方法。另外,根据我计量经济学上的知识,标准化在模型的处理中不一定是必要的,在未标准化时,也可以直接采用回归方法进行处理。

 

9.带权重的标准化,权重怎么设置?是否需要和回归时的个股权重保持一致?
l  可以选用流通市值作为权重,回归时个股设置的权重是为了剔除异方差的影响,没有必要和带全标准化这时的一样。
l  可以根据具体的经济学意义设置权重,应和回归时的个股权重保持一致。

10.标准化、离群值处理、缺失值处理,三个环节如何确立先后顺序?
l  一般来说,处理顺序为极值处理、缺失值处理、标准化。
l  先处理离群值、再标准化、最后处理缺失值。

11.因子之间或多或少具有一些相关性,若把所有因子进行正交化处理,会发生什么情况?这样做或不这样做的理由是什么?
l  类似于主成分分析法,若把所有因子进行正交化则会失去因子的投资逻辑,会使得模型的解释性不够强也没有原始因子那么直观。
l  我们必须要处理相关性是因为,若模型的几个因子之间存在线性相关,则这些因子的被估计参数不稳健,容易导致错误的被估计参数。那么,一般来说,多少相关度以下的因子相关性是可以被接受的呢?一般认为是0.7。对于高相关性的因子,我们可以采用主成份分析法或者正交化处理。但都会丧失一部分因子在逻辑上的解释性,应慎重应用。


12.如何选择截面回归的频率?依据是什么?
l  截面回归的频率决定了对风险预测的horizon,这也对应了后续构建组合的调仓频率,需要联系起来考虑;常用的计算截面回归的一般是日频。
l  应至少不低于每次调整仓位的频率。依据是根据该量化策略的策略时效性、基金的风险控制要求、数据的精细程度等。


13.回归模型涉及的个股**益率怎么计算?最简单的(又能保证一定精确度的)方法是什么?
l  可以用复权**盘价,精确结果应该是利用市场价格和分红、配股等影响**益的因素结合计算。
l  可以根据复盘价格进行计算。

14.回归模型是否需要加入截距项(即常数项)?在什么情况下可以取,什么情况下不能取?
l  有行业因子时不能加入截距项,因为行业因子之和为全1向量,再加截距项就会导致回归系数不唯一确定
l  根据模型,截距项是否有具体的经济意义,有需要即可加入,一般如市场无风险**益率等即可作为常数加入。

15.回归时用OLS和WLS的区别在哪里?使用WLS的依据是什么?
l  WLS主要是消除异方差的影响,得到的factor return更有效,在现实中确实存在不同市值股票的波动表现差异很大,大市值蓝筹股波动明显小于小市值股票,WLS有其合理的意义。
l  当残差序列存在异方差性时,用OLS估计的估计参数不稳健,此时应采用WLS对各项参数进行加权,以保证残差序列的无偏、一致、有效性。加权的一般方法是采用OLS估计下的残差、残差平方来做加权。


16.如何评估或衡量多因子模型的效果?
l  常见的有两种方式,一个是进行典型的bias test,构建组合计算BS统计量,看其波动率是否为1;另一个是直接绘图,xy轴分别为组合实际波动率和组合预测波动率。
l  各因子具有明显的经济学意义、因子前被估计参数的显著性良好、方程整体F检验显著性良好、残差序列满足独立同分布。

17.如何判断现有因子是否足够解释**益率?
l  R^2值的绝对水平以及稳定性,最直观的标准当然是R^2;但是R^2的缺点在于没有考虑因子的数量,因此可以使用Adjusted R^2,也可以使用RSME。当然对于Alpha模型来说,更重要的是预测能力,可以通过factor return的t值和IC来判断。
l  一是可以通过经济学解释来判断是否存在遗漏变量,另外也可以通过对残差分析来检验是否有遗漏因子。若残差项存在异方差性,也有可能是遗漏变量引起的。


18.中国股票市场多因子模型的R^2通常在什么量级?
l  BARRA CNE5 Model的R^2在0.4左右
l  不清楚。但就单因子来说,如果因子的R2低于0.3,该因子可能就通不过T分布的显著性检验。

19. 为了提高R^2,尽可能多地加入各种因子,会导致什么问题?
l  加入更多的因子一定会提升R^2,但是会导致过拟合的问题
l  因子不具备经济学意义、显著性无法通过、模型过拟合,回测很美,预测很烂。
 
20. 如果一个因子与现有因子组均低相关,而且能够显著提高R^2,那么什么样的理由可能会使我们选择不加入这个因子?
l  因子**益率不稳定,即在统计上因子**益率均值不显著。
l  在逻辑上不具备经济学意义。

21. 对于回归法因子测试,能否直接用不同截面的数据叠加在一起进行回归(即面板回归)?可能产生的后果是什么?
l  不能。因为市场可能会产生结构性调整,牛市和熊市中因子**益率会产生巨大变化。
l  可以。但应注意各因子在时间序列上的自相关性,截面相关和自相关会导致被估计参数的不稳定,而且目前在数学上没有很好的解决办法。可能导致的后果即被估计参数不稳健,导致模型预测能力差。
 
22. 进行多元回归时,如何检验共线性、异方差问题?如何解决?
l  用VIF来判断是否存在多重共线性;异方差和自相关可以用white-robust或者Newey-West-robust解决
l  可以观察各变量之间的相关系数来判断是否尊在共线性;异方差可以采用white检验来判断;在发现共线性后,可以通过减少变量、主成份分析法、正交变换等方法解决;异方差可以通过WLS回归来解决。
 
23. 无风险资产在各个市场应该如何选择?中国市场有哪些选择?各自的利弊(例如历史长度、数据完整性、代表性等)?
l  无风险资产是指具有确定的**益率,并且不存在违约风险的资产。在中国,可以用中国固定利率国债作为无风险资产。
l  具体有哪些选择不知道。但猜测有国债、定期、活期存款利率等。【宽客之家】

24. 计算beta值的基准(benchmark)如何选择?不同选择对整个模型影响有哪些方面?
l  根据投资目标和投资股票池来选择。
l  应根据“希望对冲的风险和暴露的因子”来选择beta。举例而言,若研究某股票在该行业中是否存在alpha,那beta就是该行业的股票价格。

25. 似乎研究者已经惯于用线性模型来解释**益率,为什么不用更复杂的模型?(或者已经存在什么非线性的结果?)
l  线性模型的可解释性较好
l  采用非线性模型无法保证被估计参数和残差的良好性质(无偏一致有效),或许随机微分方程的求解是一种可能的方法。

26. 拟合多因子模型时,数据挖掘问题有多严重?怎样降低过拟合的程度?
l  选取不同大类的因子、因子构建需要有经济学逻辑、控制因子的数量等等
l  数据挖掘应当是在数据探索,也就是挑选可能的因子时采用的技术手段。在真正建立多因子量化模型时,一定要确认因子的经济学意义。

免责申明:本文内容(包括但不限于文字,图片等内容)来自网络或者宽客之家社区用户发布,仅代表作者本人观点,与本网站无关。本网站不对所包含内容的准确性、可靠性或完整性**任何明示或暗示的保证,并读者理性阅读,并自行承担全部责任!如内容不慎侵犯了您的权益,请联系告知,核实情况后我们将尽快更正或删除处理!


路过

雷人

握手

鲜花

鸡蛋
关注微信