【量化研报】成交量占比高频因子解析

3
回复
5616
查看
[复制链接]

209

主题

26

回帖

1424

积分

超级版主

积分
1424
来源: 2019-8-1 17:10:34 显示全部楼层 |阅读模式
本帖最后由 gyshssl 于 2019-8-1 17:17 编辑

研报名称:光大证券“见微知著:成交量占比高频因子解析”


研报作者:光大证券刘均伟


随着定价模型的深入研究,因子的覆盖范围也不断拓宽。技术引领金融数据不断创新,市场的有效性逐渐增强,承载着更多信息的高频数据因子应运而生。在金融市场中,由于交易的连续性,信息对股票价格的影响是连续的,数据采集的频率越高,更能全面真实地刻画市场微观结构。本文从市场微观结构出发,构造了有别于低频因子的有效选股因子 - 集合竞价成交量占比。


集合竞价阶段是反映投资者行为信息的重要时点。我国股票的日内交易分为集合竞价阶段和连续竞价阶段,累计交易时长4小时。开盘和收盘是一天中股市交易的最重要的阶段,开盘集合竞价阶段是隔夜信息释放的第一时点,而收盘集合竞价阶段则是日内交易信息反映的最后时点。集合竞价阶段遵从价格优先,时间优先的原则,投资者根据股票前日收盘价及其对当日股价的心理预期输入申报价格。一般而言,集合竞价阶段成交量反映了多空双方对个股开盘价格的认同度。


价走量先行,集合竞价成交量占比因子选股能力突出。集合竞价阶段的交易数据是日内高频数据的特有部分,我们以成交量为切入点,以相对指标个股集合竞价成交量占比为日内高频指标,采用技术分析中最常用指标构造方式-简单移动平均(MA)构造开盘集合竞价成交量占比因子OCVP同时考虑信息的时间衰减效用,引入具有时变效用的权重修正OCVP因子。经过检验OCVP因子具备良好的预测能力和单调性,其IC均值为-5.6%,IR绝对值为0.83。


叠加尾盘效应的复合因子选股能力显着提升。考虑到收盘前阶段为日内信息传递到当日交易的最后时点,我们纳入收盘前5分钟成交量占比因子,通过加权方式构造复合因子OBCVP。最优权重组合下,复合因子的预测性和单调性显着提升,IC均值为-7%,IR绝对值大于1.根据因子值将股票等分5组的多空对冲组合8年年化收益为15.10%,夏普比率达3.03,最大回撤为10.2%。


中性化后的集合竞价成交量因子仍有选股能力。经过VSTD,市值,动量,行业中性化后的成交量占比复合因子OBCVP依旧表现出了不俗的预测能力和选股能力。 IC平均值为-3.7%,IR绝对值达0.79。证明集合竞价成交量占比一定程度上可以反应市场对于股票的关注程度和投资者观点的一致程度,因而该因子具有其独有的选股能力。


如图1所示,高频数据中探寻选股因子


1.1,高频数据窥见市场微观结构


高频数据承载更丰富的市场信息。随着定价模型的深入研究,因子的覆盖范围也不断拓宽。技术引领金融数据不断创新,市场的有效性也逐渐增强,承载着更多信息的高频因子应运而生。在金融市场中,由于交易的连续性,信息对股票价格的影响是连续的,数据采集的频率越高,其蕴含的信息量越丰富,则能更加全面真实的刻画市场微观结构。以2017年7月上证综指的走势为例,同时期的日线与15分钟线整体走势一致,而细观价格与成交量的波动,则15分钟线更能反映交易者日内行为信息。


file:///D:/其他软件/有道资料/gyshssl@126.com/74fc30b792784d99b65d84ff0295c690/36f25ec0090.jpeg

一般而言的金融高频数据指日内交易数据,分为以下两类:(1)高频数据:以小时,分钟甚至秒为采样频率的成交量,成交额,最高价,最低价,开盘价和收盘价等;(2)超高频数据:交易过程的分笔成交数据。


本篇报告主要基于市场微观结构理论:尝试从高频数据中过滤有价值的信息,从而斩获有别于低频数据的有效选股因子 - 集合竞价成交量占比(注:本文用于回测的高频数据均来源于通联数据)


1.2,日内交易重要时段:集合竞价阶段


沪深交易所日内交易制度差异细微。根据沪深交易所最新交易规则,每个交易日9:15-9:25为开盘集合竞价阶段,9:30-11:30和13:00-15: 00为连续竞价阶段;深交所交易制度略有差异。,14:57-15:00为尾盘集合竞价阶段自2006年7月1日起我国股市的集合竞价模式已由封闭式转为开放式,此时段的市场有效性和信息透明度均不同程度改变。


file:///D:/其他软件/有道资料/gyshssl@126.com/3d309f9996a046f4b233f4b3f8aa0a41/8d71b174961.jpeg

集合竞价阶段,反映投资者行为信息的重要时点。我国股票的日内交易分为集合竞价阶段和连续竞价阶段,累计交易时长4小时,但并非所有时间的交易信息都具备参考价值。开盘和收盘是一天中股市交易的最重要的阶段,开盘集合竞价阶段是隔夜信息释放的第一时点,而收盘集合竞价阶段则是日内交易信息反映的最后时点。


集合竞价制度可以防止市场操纵,更能反映投资者对股价的认同度。集合竞价阶段遵从价格优先,时间优先的原则,投资者根据股票前日收盘价及其对当日股价的心理预期输入申报价格。一般而言,集合竞价阶段成交量反映了多空双方对个股开盘价格的认同度。


2,成交量占比高频因子构造


2.1,因子具体构造方式


价走量先行,关注集合竞价成交量占比。市场价格的有效变动必须有成交量的配合,其可谓测量证券市场活跃程度的温度计,对投资者分析主力行为提供了重要依据。下面我们将具体阐述在日内交易中重要的集合竞价阶段,如何通过高频信号加工构造适应低频调仓的成交量占比因子。


信号变频:高频数据转为低频信号:集合竞价阶段的交易数据是日内高频数据的特有部分,我们以成交量为切入点,以相对指标个股集合竞价成交量占比(集合竞价阶段成交量/日内总成交量)为日内高频指标,采用技术分析中最常用指标构造方式 - 简单移动平均(MA)构造开盘集合竞价成交量占比因子OCVP(开通电话拍卖量百分比),作为月初选股的指标。


file:///D:/其他软件/有道资料/gyshssl@126.com/b710640f679344dc96a51fcf58a7f91e/f6988e34cd0.jpeg

高频信息的时间效用:引入具有时变效用的权重因子集合竞价成交量属于日内高频数据,根据信息传递过程中的衰减规律,距离指标因子计算日的时间越长其信息的时效性也会随之递减,因此我们进一步考虑引入具有时变效用的权重因子w ^一世修正原始的OCVP因子。


指数移动平均(EMA)也是理想的趋势抓取工具,相比于简单移动平均,它赋予最近期信息的权重最大,也不摒弃远期信息,只是赋予呈指数式衰减的权重。


file:///D:/其他软件/有道资料/gyshssl@126.com/f46575e5f9e743da9b554899162796b1/075f74b88cb.jpeg

尾盘效应代理变量:收盘前5分钟成交量占比:由于沪深两市交易制度的细微差异,深圳证券交易收盘前3分钟属于收盘集合竞价阶段,而上海证券交易所仍处于连续竞价阶段。如果开盘集合竞价阶段是每日夜间休市阶段累积情绪的第一释放时间,那么收盘前几分钟则是白天交易期间累积情绪的最后释放时间,其中的交易者行为同样蕴含着额外的信息量。为了统一沪深两市,我们选择收盘前5分钟的交易信息作为尾盘效应时段,以与OCVP同样的方式构造收盘前成交量占比因子BCVP(收盘前的百分比)。




3,OCVP因子具备较理想的选股能力


3.1,因子特征分析


OCVP因子呈“尖峰,厚尾”。我们以前10个交易日计算的OCVP因子为例,可以看到该因子呈现出金融数据常见的“右偏,尖峰,厚尾”分布特征。在因子测试阶段这种与正态分布偏离度较大的情况下不适用3-Σ原则去极值,我们采用稳健的MAD(绝对中位数法)去除极值更加合适。


OCVP因子与次月收益负相关性较强。对初始OCVP因子与股票次月收益率相关性进行研究,从2010年至今90个月的相关系数均值为-0.03,相关系数小于零的比例超过65 %据此可得初步结论:集合竞价成交量占比越低,股票次月的收益率越高,月初调仓时更倾向于配置OCVP因子值小的组合。




OCVP因子存在一定的行业和市值差异性。为了排除股票所属行业,市值等外部因素的影响,需要考察因子在不同行业和市值的分布情况。我们分别以沪深300成分股,中证500成分股中市值最小的作为大市值,中市值和小市值的分界点,OCVP因子的中位数和平均数均存在差异,小市值的股票对应的因子值一般较小。按照中信一级行业划分,金融行业的OCVP因子中位数较大。综上结论我们在随后的因子有效性检验时对其做行业中性和市值中性处理。




3.2,OCVP因子有效性优于BCVP


对于因子数据的标准化处理和有效性检验我们仍沿用多因子系列报告中的方法。


有效性及稳定性检验:采用多期截面RLM回归后我们可以得到因子收益序列,以及每一期回归假设检验Ť检验的吨统计量序列,针对这两个序列我们通过以下几个指标来判断该因子的有效性和稳定性:


(1)因子收益序列的假设检验吨统计量值

(2)因子收益序列大于0的概率

(3)T统计量绝对值的均值

(4)T统计量绝对值大于等于2的概率


有效性及预测能力检验:我们计算行业中性与市值中性处理后的RankIC(因子值与股票次月收益率的秩相关系数),通过以下几个与IC值相关的指标来判断因子的有效性和预测能力:


(1)IC值的均值

(2)IC值的标准差

(3)IC大于0的比例

(4)IC绝对值大于0.02的比例

(5)IR(IR = IC均值/ IC标准差)


因子分组回测框架:通过因子值的排序对股票分组,根据每组股票的历史收益情况判断因子的单调性。




3.2.1,因子数据清洗与标准化


时间轴上,个股存在停牌情形,对于包含停牌日缺失数据的移动平均需做一些限制性处理以得到更为合理的因子数据。横截面上,不同的股票之间存在个体差异性,原始的OCVP因子在股票间的横向可比性较低,因此我们对截面因子数据做标准化处理,获得因子的相对值。


(1)缺失值处理:d个交易日的移动平均至少有5个交易日为非缺失值;

(2)极值处理:因子的分布与正态分布偏离度较大的,不适用3-sigma原则去极值,我们采用稳健的MAD(绝对中位数法)去除极值更加合适。采取与3σ法等价的方法,用将原始因子值调整到3倍绝对偏离中位数的范围内。

(3)标准化处理:通过横截面z得分方法,以每个时间截面吨上的所有股票的为样本,分别计算其均值和标准差得到如下所示的站(OCVP)此标准化方式属于因子的线性变换,并不会改变原始OCVP因子的分布特征。




3.2.2,因子有效性检验


OCVP因子的有效性,稳定性及预测能力表现良好。因子IC大于零的比例仅为14.1%,说明因子与未来收益呈现较显着的负相关性;此外IC均值为-5.6%,IR绝对值为0.83,该因子的预测能力较突出。


BCVP因子的有效性,稳定性及预测能力稍逊于OCVP。因子IC大于零的比例为36%,因子与未来收益呈现较强的负相关性;此外IC均值为-2.8%,IR绝对值为0.36,该因子的预测能力相对OCVP较弱一筹。




OCVP因子具备良好的单调性,分层效应显着。我们对比因子分组回测净值及多空对冲净值,从下图可以看到,OCVP因子的分组效果很好,随着因子值的上升,分组收益逐渐下降,分组收益区分度明显;多空组合(第一组对冲第五组)年化收益约11.50%,夏普比率为1.98,最大回撤达19.5%。




BCVP因子单调性较差,因子值最大组显着跑输其余组别。从下图可以发现,BCVP因子的分组效果较一般,第五组显着跑输其余组别;多空组合(第一组对冲第五组)年化收益约12.40%,夏普比率1.12,最大回撤为14.5%。




3.3,成交量占比因子最优参数选择


在前文我们已阐明了成交量占比因子OCVP和BCVP的具体构造方式,其中涉及到参数d(前d个交易日移动平均)的选择和是否进行时间加权(TW = 1:表示是,0代表否)下面我们将从组合的年化收益率,累积收益率,年化波动率,夏普比率和最大回撤五个维度对比参数的选择对于组合表现的影响(注:优参回测过程暂不考虑交易成本)。


3.3.1,回测框架建立


通过对因子的分布特征及有效性检验,我们发现OCVP因子和BCVP因子均与股票未来收益存在较强的负相关性,下面将以此为依据建立回测体系。后文的策略回测分析均基于此框架。




3。3。2,10日简单移动平均OCVP表现突出


10日简单移动平均OCVP回测效果较好。当d = 10时,即取前十个交易日的集合竞价成交量占比计算因子值时,组合的回测效果最佳,年化收益率可达19.6%,夏普比率为1.01,最大回撤为39.6%,在d的所有选择中最小。




引入时间效用权重,5日指数移动平均OCVP因子表现较好。当d = 5时,通过指数移动平均计算的集合竞价成交量占比因子,选股组合的回测效果最佳,年化收益率可达18.3%,夏普比率为0.95,最大回撤为42.0%;时间加权因子的最优效果略差于原始OCVP因子。




时间效用加权的OCVP因子随d变化单调性较好。对比不同参数d的组合年化收益,当d> 15个交易日时,时间加权因子选股整体的收益率有所提升,且随d逐渐增大,收益率呈现平稳的单调递减趋势。




3.3.3,一个自然月简单移动平均BCVP表现较好


。一个自然月简单移动平均BCVP表现突出即取一个月收盘前5分钟成交量占比计算因子值时,组合的回测效果最佳,年化收益率可达20.0%,夏普比率为0.93,最大回撤为47.1%。与同样不加权重的OCVP因子相比,尽管组合的年化收益率有小幅提升,但年化波动率,最大回撤等均显着增加,进而导致夏普比率有所降低,组合风险提升。




引入时间加权因子后,5日指数移动平均BCVP因子表现较好。当d = 5时,通过指数移动平均计算收盘前5分钟成交量占比计算因子值时,组合的回测效果最佳,年化收益率可达19.6%,夏普比率为0.93,最大回撤为46.9%;时间加权因子的最优效果略差于OCVP因子。




时间效用加权的BCVP因子整体提升了组合的收益率。对比不同参数d时的组合年化收益,时间加权因子选股整体的收益率有所提升,且随d逐渐增大,收益率呈现显着的单调递减趋势。而原始的BCVP因子收益率随d改变呈抛物线趋势,在一个自然月时年化收益达到峰值。




。OCVP和BCVP月度因子选股的多头收益尚可从2010年至2017年年7月的回测结果来看,不考虑交易成本时策略相对表现:OCVP因子选股相对于中证500的超额收益为10.6%,相对波动率为11%,信息比率达0.97,相对回撤达22.2%.BCVP因子选股相对于中证500的超额收益为11.6%,相对波动率为11.1%,信息比率达1.04,相对回撤为13.5%.BCVP因子的历史回测效果略胜于OCVP因子。




4,日内交易首尾因子效应叠加


4.1,复合因子OBCVP选股能力显着提升


4.1.1,成交量占比复合因子构建


尽管成交量占比因子OCVP和BCVP的有效性测试各项指标均较显着,且最优参数下具有相对稳定的年化收益,但单个因子的选股年化收益率依然不够理想.OCVP代表了日内交易行为反映的第一时点,而BCVP代表了日内交易信息及投资者情绪反映到交易行为的最后时点。如何将两个特殊时点的因子组合,提升选股能力将是本节探讨的核心问题




复合多个因子最直观的方法是给因子赋予不同的权重,从OCVP因子和BCVP因子的有效性检测指标和回测结果分析:OCVP因子的单调性,IC指标和IR指标等均优于BCVP,直观的感觉应赋予OCVP因子相对更高的权重。初步确定了组合方法后,选择哪些参数下的因子组合也尤为关键。


由于停牌的影响,不同参数下因子值缺失值的数量和位置不尽相同,因此基于因子加权的各个单因子计算方式和参数应尽量保持一致,以最大化降低缺失值的影响。结合单因子回溯的年化收益率及因子计算方式等,我们最终选定下图中星号标记的两个因子OCVP(d = 5,TW = 1)和BCVP(d = 5,TW = 1)作为组合因子的基础构成。




4.1.2,寻找复合因子最优权重配比


为了寻找复合因子中单因子的最优权重,我们设OCVP的权重为W,则BCVP的权重即为1-W,在[0,1]之间以0.01为间隔取W,遍历所有的瓦特计算OBCVP因子选股组合的回测指标。


复合因子存在最优权重区间。从下图可看出,OCVP的权重瓦特的变化与复合因子选股组合的收益率变动呈现较强的非线性性,当瓦特在[0.85,0.93]之间时,组合的年化收益率稳定于23%以上。我们选择年化收益和夏普比率都相对最高的复合因子作为最终的高频数据成交量占比代表因子。




复合后的OBCVP因子仍旧呈现“尖峰,厚尾”的分布特征,但由于引入BCVP因子,其峰度较初始的OCVP因子有所下降,因此我们仍沿用前文的MAD方法处理极值。




复合后的OBCVP因子的有效性和预测能力较单因子显着提升。因子IC大于零的比例仅为15.73%,说明因子与未来收益的负相关性显着;此外IC均值为-7%,IR绝对值大于1,该因子的预测能力突出。




复合因子OBCVP分组效果进一步提升。我们同样根据因子值从小到大排序将股票后等分为5组,分别计算其净值曲线。从下图可以看到,OBCVP因子的分组效果很好,分组收益区分度明显;多空组合即第一组对冲第五组年化收益约15.10%,夏普比率达3.03,最大回撤为10.2%。




4.2,OBCVP因子选股组合收益可观


OBCVP因子选股策略对费率变化较敏感。因子性能检验阶段的回测结果均未考虑交易成本,对比不同费用比率下的因子选股策略回测指标,我们发现由于成交量占比因子的月度换手率较高,平均换手率高达60%,因此该因子的选股策略对费率的敏感度较高。依照前文回测框架月度调仓,每月等权配置100只股票,随着费率从0.0%上升到单边0.3%时,组合年化收益率从23.6%下降到16.3%。





OBCVP因子月度选股的多头策略收益可观。从2010年至2017年年近8年的回测结果来看(不考虑交易成本):


(1)策略绝对表现:年化收益率可达23.6%,年化波动率为20.8%,夏普比率1.13;

(2)策略相对表现:相对于中证500的超额收益为14.7%,相对波动率为10.9%,信息比率达1.35,相对回退为13.3%,平均月胜率为65.9%;

(3)策略分年度表现:策略在2015年时经历了较大的回选,八年中有两年跑输基准,年胜率为75%,跑赢的六年平均超额收益为20.4%,跑输的两年平均超额收益为-4.8%。





5,剔除相关因子后依然具备选股能力


成交量占比复合因子OBCVP是有别于传统低频因子的新因子,我们前文已经对因子进行了有效性,稳定性及单调性测试,证明其具备良好的选股能力;也分年度分析了因子的回测效果。要完善的分析因子的选股能力是来自其内生因素,还需将其与其他常见的基于价量的技术类型因子做相关性测试。


OBCVP因子与低频的VSTD因子相关性较高。分别计算规模因子,动量因子,技术因子,波动因子及流动性因子中单因子测试显着性较高的几个因子与OBCVP因子与之间历史IC值的相关性,从下图的结果发现:OBCVP因子与流动性因子VSTD(成交额/收益波动率)之间具有较高的正相关性由于VSTD单因子测试效果突出,为了进一步证明OBCVP因子自身具备选股能力,我们将通过横截面回归取残差的方式,剔除了VSTD的影响,同时剔除了市值,一个月动量,和行业因素。





剔除VSTD效应OBCVP选股效果依然显着。对OBCVP因子做行业,市值中性处理并剔除VSTD,动量影响后,因子的有效性检验等结果仍然显着,IC平均值为-3.7%,IC大于零的比例为13.5%,IR绝对值达0.79。此外因子的分组效果略有减弱,多空组合年化收益为8.71%,夏普比率达2.21。




中性化处理后OBCVP因子的选股效果有所下降,2010年至今的年化收益为14.6%,组合依旧有两年跑输基准,跑输的两年相对收益率为-2.41%,中性化处理后的OBCVP因子选股组合波动性有了显着下降。





由此可见,经过VSTD,市值,动量,行业中性化后的成交量占比复合因子OBCVP依旧表现出了不俗的预测能力和选股能力。也可以证明集合竞价成交量占比一定程度上可以反应市场对于股票的关注程度和投资者观点的一致程度,因而该因子具有其独有的选股能力。



来自:宽客之家   

波兰货币.jpg

回复

使用道具 举报

196

主题

140

回帖

1444

积分

管理员

积分
1444
2019-8-1 17:17:32 显示全部楼层
学习了
回复

使用道具 举报

196

主题

140

回帖

1444

积分

管理员

积分
1444
2019-8-1 17:17:49 显示全部楼层
回复

使用道具 举报

63

主题

36

回帖

1915

积分

管理员

积分
1915
2019-8-2 06:16:05 来自手机 显示全部楼层
OBCVP因子与低频的VSTD因子相关性较高。分别计算规模因子,动量因子,技术因子,波动因子及流动性因子中单因子测试显着性较高的几个因子与OBCVP因子与之间历史IC值的相关性,从下图的结果发现:OBCVP因子与流动性因子VSTD(成交额/收益波动率)之间具有较高的正相关性由于VSTD单因子测试效果突出,为了进一步证明OBCVP因子自身具备选股能力,我们将通过横截面回归取残差的方式,剔除了VSTD的影响,同时剔除了市值,一个月动量,和行业因素。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册
关注微信