返回首页

投资中对于数据处理的重要性

微信公众号汇丰晋信基金

  导读

  前几天看了一篇文章“这个著名的统计学驳论,第一次听说的人很可能怀疑人生”。里面讲到了一个非常有趣的观点,就是许多人仅仅看到数字的表现,但忽视了数据背后的真相。这一点其实给我们的启发很大,无论投资还是生活,只有经过正确处理过的数字,才有价值。

  被忽视的“辛普森悖论”

  这篇文章中讲了著名的“辛普森悖论”,用同一个数据集能证明相反观点。

  用一个之前在网上看到的例子,假设你和朋友要去吃饭,然后大家都去点评网站上看评分。最终你和你朋友分别看中了Sophia餐厅和Carlo餐厅。你们两个各有各的道理。朋友推荐去吃Sophia餐厅,因为这家餐厅的好评比例62.5%,比Carolo的54%高。但是你推荐去吃Carlo,因为这家餐厅无论是男性还是女性用户的好评比例都比Sophia餐厅高。

  大家看下面这张图,就明白了其中的矛盾。

  这里的问题在于,只查看单独各组数据的百分比会忽略掉样本的大小,也就是评论者的人数。每个百分比都由推荐用户数与相对应的评论人数计算得到。Carlo's 有更多的男性评论者,而Sophia's 有更多的女性评论者,因此导致了矛盾的结果。

  由于Carlo餐厅男性用户的评论占比很高,Sophia餐厅女性用户评论占比很高,从而得到了两个不同的结果。这时候,你和你朋友的讨论要么站在统一的数据分析观点上,要么两者合并。如果一个人看总评论中的好评占比,那么就应该选Sophia餐厅。如果一个人单看性别,那么就应该选Carlo餐厅。或者可以将两家餐厅评论数量中,性别差异放进去。由于Sophia的女性用户评论数比较多,那么可能作为女性用户用餐,这家店会更好。而Carlo餐厅男性用户评论数比较多,那么作为男性用户去这家餐厅会更好。

  数据处理的重要性

  无论是投资还是研究,比挖掘数据更重要的是,正确的去处理数据。过去一段时间,关于消费升级还是降级的讨论很多。有人可以用一些数据,加上案例来证明消费处于一个降级的趋势。还有一些人可以用另一组数据加上不同案例来证明,消费处于升级的状态。每个人似乎都是正确的,大家可以争论的不可开交。

  这个问题的背后,就是两方必须基于同一种语言来讨论。数据仅仅是一个表象,我们更需要知道数据背后的因果关系。这些数据是如何产生的,这个产生因素的驱动力是什么。到底有什么在影响数据的结果?

  一个常见的误区,就是基金经理的收益率。许多人会单纯去做一个今年以来收益率的排名,收益率越高似乎这个基金产品越好,基金经理的水平也越高。然而事实真的如此吗?可能未必。首先,市场上有许多不同类型的产品。有些是主题基金,有些是混合类基金,有些甚至是海外市场基金。需要将不同类型的基金做一些区别,这样大家才是在同一个赛道中进行比较。否则,如同将一个路边摊餐厅和一个五星级酒店餐厅的味道相比,两者的价格,对应的用户完全不同的,并不具备可比性。

  我们经常强调,投资是一个风险和收益的游戏。有些基金虽然收益很高,但是同时承担了很多风险。那些每年买排名前十基金的投资者,最终往往无法赚钱。因为有些基金可能承担了较高的风险。那么稍微资深一些的人,会去看夏普比例。认为夏普比例是很好的风险收益比指标。

  事实真的如此吗?其实也未必。此前访谈杰克。施瓦格的时候,他在新书《市场真相》中就提到过,夏普比例未必是一个最好衡量风险和收益比的工具。回到前面说的,我们需要看到数据背后的因果关系。

  举一个夸张的例子,所有的“庞氏骗局”在破灭前,都有非常漂亮的夏普比例。但是这个数据背后却是一场骗局,最终把投资者当做感恩节的火鸡。2017年全球市场出现了难得的低波动高收益。甚至在A股,你可以满仓一批大白马,依然取得很高的收益,同时很低的波动率。夏普比例的表象是风险很低,但实际上投资者持有的资产越来越“拥挤”,其实隐含了很高风险。

  骗子,该死的骗子,统计学家

  华尔街有一句话:there is liar, there is damn liar, there is statistician。(骗子,该死的骗子,统计学家)。无论哪个观点,都一定会有数据得到支撑。比如前面说的消费升级还是降级,每一方都有一大堆数据来支持。很多我们在公众号看到的十万+文章,其实里面的数据支持并不充分,更多是一些直观感觉的陈述。

  投资和研究的很多时间都是在和数字打交道,我们除了看到这些数字之后,更需要去对一些数据二次加工,知道这个数据背后的因果关系。

  比如看一个公司的基本面,许多人最喜欢看的就是盈利。但是这个盈利是怎么来的呢?有些公司需要不断投入新的生产线来获取订单,这个盈利的质量就很差。有些企业不需要任何额外的投入,那么盈利质量就比较高。如果不做数据处理,可能A公司和B公司都是一样的。

  甚至很多时候我们对于一个企业给估值,都是用PEG的算法给的。30%的盈利增长,应该获得30倍估值。同样,这个背后并没有考虑数据的因果关系。这个盈利增长是否可持续,历史盈利增长的波动区间如何。那些持续可以盈利增长的公司,是否能给更高一些估值。而且剔除盈利,还有许多企业指标看一个公司的利润情况。包括ROE,ROIC,自由现金流等等。

  在研究中,我们也需要避免陷入统计学陷阱。不能仅仅通过一个数据,就判断出一个结论。任何结论的得出,都是多维度的。

  正确的数据处理

  能让我们更加接近于事实的真相。

  2008年的年初,当时还任职美联储纽约银行主席的提姆盖特纳会见了桥水的达里奥。当时达里奥就告诉盖特纳,一场大的债务危机将无法避免。他给盖特纳看了自己模型里面的数据。盖特纳看了全身发冷,然后问达里奥:为什么我们堂堂美联储,都没有你那么详细的数据?达里奥的回答是:这些都是公开信息的数据,我只是用更好的方式做了二次加工,让他们清晰的呈现出来了。

  正确的数据分析,才是对我们的投研有帮助的。否则,我们一定会相信“脸大的基金经理,业绩比较好”这种结论。任何没有因果的数据,对于我们的投研并没有任何实质性的意义。

  (文章来源:微信公众号汇丰晋信基金)

中证网声明:凡本网注明“来源:中国证券报·中证网”的所有作品,版权均属于中国证券报、中证网。中国证券报·中证网与作品作者联合声明,任何组织未经中国证券报、中证网以及作者书面授权不得转载、摘编或利用其它方式使用上述作品。凡本网注明来源非中国证券报·中证网的作品,均转载自其它媒体,转载目的在于更好服务读者、传递信息之需,并不代表本网赞同其观点,本网亦不对其真实性负责,持异议者应与原出处单位主张权利。