田大伟:我眼中的A股量化20年(下)
目前我们的量化系统定期跟踪1000多个因子,逐日跟踪500多个因子,用于构造超额收益策略的基准有30多个。在我们的系统中,每个阿尔法因子和每个基准都会组合产生一个超额收益策略。换句话说,每个基准都有上百个超额收益策略每日计算和跟踪。
因为每家量化投资机构因子入库的标准不同。有些机器挖出的因子我们是不作为阿尔法因子看待的,效果不好的因子我们也不会跟踪。所以相对于因子的数量,我更建议关注因子的质量和评价体系,例如如何将一个差因子一步一步研发成好因子,并把这个过程流程化,用于其他因子研发。
为了维护产品超额收益的稳定性,也为了应对产品规模的增长,会根据实际情况选择不同的策略进行交易。策略多了,交易的股票也就多了。所以量化产品调仓时通常都会同时买卖上百只股票,这时就需要算法交易来帮助我们了。
随着量化产品规模的增加,算法交易的重要性更加明显。在算法交易和嵌入算法交易的交易系统的加持下,量化投资才能释放出更大的能力,这也是现阶段量化投资的一个重要特征。
而且,除了精准和节约,算法交易还可以进一步利用“逐笔成交数据”来进一步挖掘因子。我们普通投资者每天接触的,大多是日频数据,也就是每天的情况。但下单的数据是逐笔委托数据,但单子可能会被不同的对手盘单子吃掉,每次撮合成交的数据就是逐笔成交数据。这种数据交易所也是最近几年才完整提供的,称之为L2数据。
L2数据可以说包含了大量详实的量价信息。如果市场上5000多只股票每天的逐笔成交和逐笔委托等L2数据都获得并存放成CSV文件,那么每天有几十G的量,这些数据是量化投资寻找阿尔法因子的宝库。
有了L2数据,我们可以构建每天特定时间段的因子,例如收盘前30分钟的因子,也可以从L2数据中筛选出“大额”资金成交或者委托的信息,或者是主动买入、卖出等信息等,这样构建的因子信息是非常丰富的。
算法交易、机器学习,感觉现在的量化投资方法越来越复杂,财务数据之外,量化方法还会使用很多其他数据。数据多但与股票涨跌无关也是无用的,方法越复杂也越难以有效把控。
财务数据、事件数据、一致预期数据、简单的日频量价数据都是量化研究的重点,机器学习等方法我们也在不断学习,融入到整个量化体系当中,以提高我们因子库的质量,提高策略业绩和产品业绩的稳定性。量化投资就是团队成员彼此分工构建和迭代生产策略的流水线
未来的量化投资方法已经在孕育中了,只是目前还没有特别好的成果。例如强化学习方法就像在虚拟的市场环境中进行“交易”,根据交易结果的好坏得到“奖励”或者“惩罚”来修正交易过程,直接给出“最优”的买卖信号。那时可能就步入了人工智能和金融工业化阶段。
总体而言,股票市场是个复杂市场,量化投资还很年轻,主动量化产品的总规模和单个产品规模都相对较小,量化产品的业绩波动也很大,需要更长时间的检验。
-CIS-