迎接大数据思维新模式--《智能时代》读书笔记
天有不测风云。今年6月6日北京把新冠肺炎防控等级由二级下调到三级没几天,病毒突然从新发地农产品批发市场窜出,把北京的防控级别又拽回二级。8日我们从北京飞回老家乡下山里想凉快几天,哪知11日深夜当地警察和医务人员根据机票信息追踪到家里,把我们拉去50公里外的县医院做核酸检测,然后天天两次上门测体温,自我隔离14天。借此机会,看了几本书,中信出版社的《智能时代》是其中之一。作者是大数据科普作家吴军博士,他已经出版过好几本有关大数据的科普著作。作者在书中,用通俗易懂的语言,对大数据和机器智能对未来的影响进行了比较充分的揭示,文字振聋发聩,诸如“数据密集型科学”“机械思维”“大数据思维”等等新观点,让人来了次头脑风暴。作者是大数据科学家,又曾经是数据服务商高管,在书中,夹叙夹议中既有科学理论,又有实践经验。读起来无晦涩之困,有通俗之感。作者阐述了大数据科学发展的前因后果,概述了科学研究发展经历的四个范式:一是描述自然现象的实验科学;二是以牛顿定律等为代表的理论科学;三是模拟复杂现象的计算科学;四是目前的数据密集型科学。第四个范式是大数据时代的决定性因素,会与以前的每一阶段工业革命一样,给经济社会带来巨大变迁。作者认为,虽然数据在上面四个科学阶段都存在,但只有今天,随着互联网的宽带化和移动电子设备技术的应用,数据量的爆炸性增长和科学家们对数据的深度挖掘分析,才形成以大数据为特征的数据密集型科学。
“数据密集型科学”推动思维革命
书里提出了“数据密集型科学”概念,说它将推动人类的思维革命。为了说明这点,作者让我们重温了科学技术引导人类经济社会进步的历史。世界经济发展史上的每一次技术革命,都是围绕着一个核心技术展开的。第一次工业革命是蒸汽机,第二次工业革命是电气化,第三次工业革命是计算机和半导体芯片为主的信息化,第四次是大数据和机器智能引领的智能革命。作者预言,这第四次革命将会彻底改变我们当下所有人的生活。其标志是人类思维方式的革命性变革。传统上人类决策是靠逻辑推理,而大数据和机器智能不是靠逻辑推理,而是靠大数据和智能算法帮助我们决策。这不可避免地会对未来经济产生巨大影响。书里对过去商业模式的历史变迁总结了三条:一是技术革命导致新的商业模式诞生;二是生产过剩,需求拉动经济增长的模式不可逆转;三是商业模式既有继承性又有创新性。第一次工业革命导致了产品需要靠展示推销才能卖出去;第二次工业革命导致广告业兴起,展示的推销方式变成了广告,并导致了商业链的出现;第三次工业革命是信息革命使商业链得到发展,服务业的重要性凸显。以“数据密集型科学”为指导思想的大数据时代,毫无疑问会推动现存商业模式的改变,大数据和机器智能将是第四次工业革命。蒸汽机、电气化、信息化是这样,大数据时代将仍然会是这样,这是经济发展的规律。这种变化是革命性的震撼人心的。为了让读者更直观感性地认识这一点,作者在书中与我们一起回顾了2017年5月23-27日那场智能机器人战胜世界段位高手的围棋比赛。智能机器人以三比零战胜人类顶尖棋手靠的就是大数据和计算机算法。从经济角度思考这场围棋比赛。那就是大数据和智能机器人将会对现存经济模式产生深刻而广泛的影响。作者分析了机器人取胜的原因:其一,它的采用的是机器学习与神经系统科学结合的学习算法;其二,它在强大的云计算系统中,通过统计模型在极短时间内学习分析了几千万盘围棋棋谱和比赛巨量数据后,获得了不同局势下该如何行棋有一个比人类更为准确的估计,寻找出了比基础棋谱更好的大数据棋路。这一点是人类大脑无论如何也无法完成的。机器智能里面有两个关键的技术是人脑无法获得的。第一个关键技术是把棋盘上当前的状态变成一个获胜概率的数学模型,是完全靠数据训练出来的。第二个关键技术是启发式搜索算法。作者认为下围棋这个看似智能型的问题,从本质上讲,是一个大数据和算法的问题。在机器人的背后,是数据中心强大的服务器集群,它们获得智能的方法不是和我们人一样靠逻辑推理,而更多的是利用大数据。因此,思维方式上的逻辑推理一霸天下的历史或将改写。
“机械思维”将靠后站
“机械思维”是一种靠逻辑推理的思维方式。如果机器人利用逻辑推理和围棋手对弈,是战胜不了人类的,但它另辟蹊径,用大数据把人类顶级棋手干下去了。智能机器人在下棋时没有用机械思维思考。作者认为,机械思维是前三个工业革命的科学方法论。它们和因果关系息息相关。由因根据三段论推出果的逻辑推理方式。作者认为,机械思维是过去三个多世纪里人类总结出的最重要的思维方式是现代文明的基础。西方把机械思维归功于牛顿的科学方法论。内容包括:第一,世界变化的规律是确定的;第二,世界变化的规律不仅可以被认识,而且可用简单的公式或语言描述清楚;第三,这些规律放之四海而皆准。机械思维方式导致了工业革命。从牛顿时代开始接下来的三个多世纪里,人类越来越习惯于用机械思维描述一切、抽象一切:即抽象个体然后进行标准化,形成了用一个通用的方案来解决所有问题的方法论。作者认为,工业革命是牛顿提供了方法论即机械思维,而瓦特则是利用机械思维方法论发明了蒸汽机,开启西方工业革命大门。因此,瓦特蒸汽机的成功不仅是技术,更重要的是机械思维方法论的成功。从牛顿开始,人类社会进步在很大程度上得益于机械思维,但是到了计算机信息时代,机械思维的局限性也越来越明显。人们发现世界本身存在着很大的不确定性。作者认为,机械思维的核心思想可以概括成确定性、或者可预测性和因果关系。它导致了人类历史上很多重大的发明和发现。寻找因果关系是机械思维的一个特征,但事实上,人类找到真正的因果关系是一件很难的事,里面运气的成分很大。机械思维具有两面性——善于把握确定性而难以解决不确定性问题。由于数据之间的相关性在某种程度上可以取代原来的因果关系,可以帮助我们得到我们想知道的答案。由于近30年来互联网宽带和移动通信设备的迅速发展,由此而产生的海量数据和计算机算法,改变了机械思维300多年的习惯思维。大数据和计算机算法的结合不可避免地产生出“大数据思维”。因此“人机大战”中,机器人才能战胜人类顶尖棋手。
“大数据思维”引领新时代
“大数据思维”,可以帮助人们解决机械思维状态下不能解决的一些问题。人机大战中机器人的取胜说明,未来是可预测的,不确定是可以转化为确定。因此,大数据思维在新的工业革命中将引领新时代。作者认为,大数据的基础是数据和信息的收集和汇聚,它们三者既有联系又有区别。
谈数据前,作者讲了数字和数据的联系和区别。他认为,数字仅是数据非常小的一部分,数据的范畴比数字要大得多,但它们是有联系的。互联网上的文字、图片和视频等都是数据;医院里包括医学影像在内的所有档案也是数据;公司的各种设计图纸也是数据;出土文物上的文字、图示也都是数据。人类发明了文字,并记录了人类活动并留传后世,形成文明的传承。以语言和文字形式存在的内容是全世界各种信息处理中最重要的数据,在20世纪90年代互联网兴起之后,数据的获取变得非常容易。
接着作者区别了数据和信息。作者认为,数据和信息还是稍有不同。信息是关于世界、人和事的描述,它比数据来得抽象。人的大脑是一个信息源,从思考到找到合适的语句,再通过发音说出来,是一个编码的过程,经过媒介如声道、空气、电话线和扬声器等传播到听众耳朵里,是经过了一个长长的信道的信息传播问题,最后听话人把它听懂,是一个解码的过程。随着人类的进步以及处理数据和信息的能力不断增强,人类从数据中获取有用信息的本事就越来越大,对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。而数据是知识的基础。只有善用数据,我们才能得到数据背后的信息。数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来。人类文明的进程是伴随着获取数据——分析数据——建立模型——预测未知。虽然数据在文明进程中具有重大作用,但过去数据的作用常常被人们忽视。这里面有两个原因,首先是由于过去数据量不足,积累大量的数据所需要的时间太长。其次,数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来。
最后作者区别了数据和大数据。前面已经说到数据的概念是指所有输入到计算机并被计算机程序处理的符号的介质的总称。大数据则不仅仅是数据体量大并能及时获得,同时还具有多维度、多样性;全面性、完备性等特征。从现象中、观察中总结出数据,汇总数据并运用数据,是衡量人类文明发展水平之一。随人类进步以及处理数据和信息的能力不断增强,人类从数据中获取有用信息的本事就越来越大,这就是大数据应用的基础。数据在计算机时代记录了人类的行为,靠计算机去发掘、分析而得出人类没有写明的,存在于多次重复的行为中的数据。这样的行为,光有数据做不到,只有计算机也难成,只有两者结合才能事成。这个加入计算机算法的数据称之为大数据。计算机信息技术和电子移动设备使得我们可以从足够多的数据中发现各种事物的相关性并把握事物发展的轨迹,并依靠大数据来提高对未来不确定性把控能力。采用大数据的方法能够使计算机的智能水平大大提高,替代人类智能解决不了的许多问题。决定今后20年经济发展的是大数据和由之而来的智能革命。因此,从方法论的层面上看,大数据与三百年前产生的机械思维一样,在大数据和机器智能大规模运用的情况下,会形成一种全新的思维模式即大数据思维,从而完成思维模式的一次革命。
大数据思维会带来什么?
按照大数据思维模式,我们做事情的方式方法需要从根本上改变。回顾历史,展望未来,大数据引发的智能革命将是以一种全新的方式展开。蒸汽机、电气化等技术革命都是生产力单点突破,从而带动社会全面变革,今天的大数据正面临这样一个突破,大数据和机器智能的普及会带来新一轮经济社会生活的全面变革。大数据思维所具有的解决不确定性的能力可以为经济社会发展有所作为。在大数据思维指导下,数据科学家可以把过去解决不了的问题,变成大数据问题来处理。温故而知新。作者说,在历史上,一项技术带动整个社会的变革通常遵循一个公式,即现有产业+新技术=新产业。第一次工业革命是:现有产业+蒸汽机=新产业;第二次工业革命是:现有产业+电气化=新产业;第三次工业革命是:现有产业+摩尔定律=新产业;第四次工业革命将是:用两个公式简单概括,现有产业+大数据=新产业,现有产业+机器智能=新产业。大数据思维将带来一场新技术革命。大数据思维的核心是通过数据之间相关性的演算分析,取代机械思维下的因果推理,但大数据思维和原有的机械思维并非完全对立,它更多的是对后者的补充。是对逻辑思维办不到的事情提供有益的补充,消除事物的不确定性,从而解决问题。大数据和机器智能将从供给侧推动许多新产业的诞生,带动产业升级换代,满足人类社会多样化、个性化需求,导致我们整个社会的升级和变迁。
这本书给我们提了个醒,即将到来的大数据时代,无论国家还是个人都应该建立大数据思维方式。跟上去则适者生存,掉下来则淘汰没落。凡事预则立,不预则废。据普华永道预测,到2030年,大数据和人工智能将为全世界国内生产总值贡献15.7万亿美元。数据是开发高级神经系统的必要条件,有数据才有可能更好地理解语言、识别物体并提出有用的见解。中国是世界第一制造大国,同时还拥有8-9亿网民、10亿以上的智能手机使用者,它们产生的海量数据是世界独一无二的,这样的数据背景为大数据和机器智能在中国发展提供了巨大的优势条件。基于这种数据优势,我们在第四次工业革命中存在非常大的弯道超车机会。目前,在大数据和机器智能领域,中国与世界先进水平距离已缩短,有些方面还略微领先,比如金融移动支付等。因势利导地用大数据思维完成中国新经济模式的变革是有完全可能的。在这种背景下读读《智能时代》一书,可以帮助我们更好理解即将到来的大数据思维新时代。
姜 洋
2020年6月22日