首页 > 基金·ETF>基民学苑

田大伟：我眼中的A股量化20年（下）

中国证券报·中证网 2024-11-06 07:23

　　目前我们的量化系统定期跟踪1000多个因子，逐日跟踪500多个因子，用于构造超额收益策略的基准有30多个。在我们的系统中，每个阿尔法因子和每个基准都会组合产生一个超额收益策略。换句话说，每个基准都有上百个超额收益策略每日计算和跟踪。

　　因为每家量化投资机构因子入库的标准不同。有些机器挖出的因子我们是不作为阿尔法因子看待的，效果不好的因子我们也不会跟踪。所以相对于因子的数量，我更建议关注因子的质量和评价体系，例如如何将一个差因子一步一步研发成好因子，并把这个过程流程化，用于其他因子研发。

　　为了维护产品超额收益的稳定性，也为了应对产品规模的增长，会根据实际情况选择不同的策略进行交易。策略多了，交易的股票也就多了。所以量化产品调仓时通常都会同时买卖上百只股票，这时就需要算法交易来帮助我们了。

　　随着量化产品规模的增加，算法交易的重要性更加明显。在算法交易和嵌入算法交易的交易系统的加持下，量化投资才能释放出更大的能力，这也是现阶段量化投资的一个重要特征。

　　而且，除了精准和节约，算法交易还可以进一步利用“逐笔成交数据”来进一步挖掘因子。我们普通投资者每天接触的，大多是日频数据，也就是每天的情况。但下单的数据是逐笔委托数据，但单子可能会被不同的对手盘单子吃掉，每次撮合成交的数据就是逐笔成交数据。这种数据交易所也是最近几年才完整提供的，称之为L2数据。

　　L2数据可以说包含了大量详实的量价信息。如果市场上5000多只股票每天的逐笔成交和逐笔委托等L2数据都获得并存放成CSV文件，那么每天有几十G的量，这些数据是量化投资寻找阿尔法因子的宝库。

　　有了L2数据，我们可以构建每天特定时间段的因子，例如收盘前30分钟的因子，也可以从L2数据中筛选出“大额”资金成交或者委托的信息，或者是主动买入、卖出等信息等，这样构建的因子信息是非常丰富的。

　　算法交易、机器学习，感觉现在的量化投资方法越来越复杂，财务数据之外，量化方法还会使用很多其他数据。数据多但与股票涨跌无关也是无用的，方法越复杂也越难以有效把控。

　　财务数据、事件数据、一致预期数据、简单的日频量价数据都是量化研究的重点，机器学习等方法我们也在不断学习，融入到整个量化体系当中，以提高我们因子库的质量，提高策略业绩和产品业绩的稳定性。量化投资就是团队成员彼此分工构建和迭代生产策略的流水线

　　未来的量化投资方法已经在孕育中了，只是目前还没有特别好的成果。例如强化学习方法就像在虚拟的市场环境中进行“交易”，根据交易结果的好坏得到“奖励”或者“惩罚”来修正交易过程，直接给出“最优”的买卖信号。那时可能就步入了人工智能和金融工业化阶段。

　　总体而言，股票市场是个复杂市场，量化投资还很年轻，主动量化产品的总规模和单个产品规模都相对较小，量化产品的业绩波动也很大，需要更长时间的检验。

　　-CIS-