2021隐私计算半年纪|医疗:疫情下的人类高质量数据共享场景
很多时候我们不得不佩服商业世界的嗅觉和行动力——看到就能想到,想到就马上去做。近几年隐私计算的蹿红便是这一逻辑的完美演绎,而有意思的是,这事看来还真能做成。
早在上世纪80年代,姚期智先生提出“百万富翁问题”。当时并没有引起很大关注,更多只是学术界的一篇论文,从影响来看甚至还是问题大于解决方法的。
2016年以后,大数据、人工智能等科技迅速落地开花,带动数字经济兴起,全社会开始意识到数据的巨大价值,公众也开始看到数据和隐私信息被无底线利用。
学界和科技界开始对“百万富翁问题”做出全新阐释,也对问题的解决方法——多方安全计算技术(MPC)重新投入了激情。与此同时,为了能更好地利用数据但又不“看到”数据,联邦学习(所谓“数据不动模型动”)、可信执行环境(为数据打造硬件“飞地”)等技术也被深入探索,与MPC等密码学技术在数据安全共享的山顶成功“会师”。
套用上述逻辑可以看到,商业远见看到了“古老”技术和当下数据利用的痛点,想到了两者的供需关系和商业价值,并且迅速行动,把各项单纯的技术整合成全套解决方案,继而拓宽应用场景,推动商业化落地。
之后的故事就没有什么悬念,隐私计算终于闪亮登场。无论这个名字是否准确严谨,人们的理解和共识却是基本一致的:隐私计算实现数据“可用不可见”,释放数据价值。
时至今日,隐私计算成功实现了从实验室到商业落地的转身。算力智库创始人燕丽表示:“近2-3年里隐私计算技术企业获得订单变得更容易了,因为好场景、好案例越来越多。就在当下,隐私计算产业迎来了历史发展机遇。”
商业还在持续催化产业发展。根据甲子光年《2021隐私计算行业研究报告》,隐私计算自2019年以来受到资本市场密切关注,截至目前获百亿美元级融资,平均每起融资数千万元。
从训练场到竞技场,站在新起跑线上的隐私计算能否变得更快更强?算力智库隐私计算专题希望能在此时间点,回望2021年上半年隐私计算在金融、医疗、营销等领域的新成绩,展望新政策、新技术、新需求下的新趋势,同时还理性看待必须面对的新挑战。
今天,算力智库“2021隐私计算半年纪”登场,首篇将聚焦医疗领域。
以隐私计算为代表的数据价值挖掘与安全共享技术已经初具产业规模而光环加身。在医疗数据互联互通的大趋势下,医疗领域也在拥抱隐私计算。
华东医院信息科主任冯杰表示,医疗数据安全一直是监管重点,包括互联网医疗数据、可穿戴设备数据以及科研数据等。体系建设的要求势必带来医疗数据的交互利用,而隐私计算是目前医疗数据合规利用中一项急需应用的技术。
国内隐私计算代表企业之一锘崴科技联合创始人郑灏对算力智库表示,近年来医疗行业对隐私计算的接受程度越来越高,很多三甲医院信息科基本不用再做什么科普。隐私计算对于医疗领域应用的适配是未来趋势,不仅需要加强隐私计算底座的功能,而且需要找到切入临床问题的应用,并把应用基于底座实现。
疫情催化数据共享需求
作为实现数据可用不可见的“技术解”,隐私计算近年来受到医疗领域持续关注,根本原因是医疗数据已经进入了必须安全又必须共享的时代。
在政策与合规层面,我国医疗数据相关顶层设计不断加速,安全与共享“两手抓”。
2021年7月,《“十四五”优质高效医疗卫生服务体系建设实施方案》正式发布,在“公立医院高质量发展工程”章节有关国家医学中心建设部分明确提出:推进跨地区、跨机构信息系统的互联互通、互认共享、术语规范以及数据的整合管理,建设主要疾病数据库和大数据分析系统。
与此同时,医疗数据安全性始终是一条只进不退的红线。据《经济参考报》近日报道,全国医疗机构网络信息安全管理办法将出台,表明国家希望通过立法、加强监管等多维度方式持续提升医疗健康数据的整体安全水平。
在行业层面,尽管数据安全形势愈发严峻,但疫情冲击下,医疗数据共享又成为“刚需”。
根据美国HIPPAJournal数据,2009至2020年间,全美共有超过2.68亿份医疗记录遭泄露,这一数字占美国人口的比例超过81.72%。近两年医疗数据泄露更是愈演愈烈,平均来看,2018年规模超500份的泄露事件达到每天1起,而至2020年更达到每天1.76起。
规模超500份的医疗记录泄露事件数量
图片来源:HIPPAJournal网站
与此同时,数据共享对抗疫作用显著。“健康码”、“行程码”的背后是全国范围内的大数据支撑,目前许多地方开始合并各类抗疫相关二维码也必然要打通数据,而新冠疫苗的研发更离不开大量数据的共享分析。海外方面,美国疾病预防控制中心(CDC)于8月18日宣布将建立疾病预报中心,其核心功能之一就是促进公共健康数据的互联互通,以便在未来公共卫生紧急情况下用数据帮助政府做出决策。
医疗数据安全共享已经成为世界性的“两难又两全”问题,恰为隐私计算提供了广阔舞台。
医疗数据拥抱隐私计算
今年以来,“隐私计算+医疗”最令人振奋的消息莫过于Swarm Learning(SL)登上了国际学术期刊《自然》(Nature)杂志封面。简单来说,SL是一种基于区块链的机器学习方法,分布式特性使其能利用大数据集而无需牺牲保密性。
比科研成果更有说服力的是落地应用。从全球来看,隐私计算相关技术已开始进入国家级部署阶段。
今年6月,英国国民医疗服务体系(NHS)发布《数据拯救生命:以数据重塑健康及社会关怀》战略草案,旨在让病人更容易访问及控制自身健康和护理数据,同时以数据助力发现新治疗方法。这一草案的核心就在于把数据隐私及安全放在突出位置。
该草案指出,NHS应关注数据收集、存储和分析的相关技术进展,在已经采取反识别化、匿名化等数据脱敏处理的基础上,再应用隐私增强技术(PETs)确保个人信息安全。其中,隐私增强技术包括合成数据(synthetic data)、联邦分析(federated analytics)、同态加密(homomorphic encryption)、差分隐私算法(differentially private algorithms)。
在疫情相关的通行码方面,韩国的Pass&Go可谓独树一帜,其不以中心化服务器为验证方式,而采用去中心化的区块链技术确保数据隐私和安全。据了解,Pass&Go不仅验证已接种疫苗人群的信息,也验证新冠病毒阴性和已康复具有抗体的人群信息,基于区块链技术生成临时通行证。
韩国前总理、联合国大会第五十六届会议主席韩升洙在2021世界人工智能大会上表示,Pass&Go为验证结果创建数字凭证,与通过中心化服务器验证的方法相比,Pass&Go具备去中心化验证系统,使用三种哈希值加密,测试日期和测试结果上链,消除了伪造数据的可能性。今后,Pass&Go还将用于新冠疫情之外的传染病场景,如艾滋病、黄热病等。
在国内,隐私计算的落地应用也在近几年迅速“星火燎原”。以隐私计算领军企业之一翼方健数为例,该公司早在2017 年就参与了厦门市国家医疗健康大数据试点城市的落地工作,建立了厦门健康医疗大数据应用平台。
2021年4月,翼方健数与上海市长宁区卫生健康委员会合作,在隐私保护技术的支撑下率先开放深度数据挖掘应用,构建长宁区健康医疗大数据应用开放平台。翼方健数将在保证数据安全性的前提下,打通平台与数据需求单位间的连接,通过大数据应用开放平台,汇聚、整合全区医疗卫生机构的健康医疗数据,实现数据共享交换和协同,为后续医养健康、医疗保障等相关政策制定提供数据支持。
锘崴科技近几年也收获颇丰。郑灏表示,基于锘崴科技的隐私计算平台,多个医疗机构完成了全球首个跨国多中心罕见疾病数据共享;实现了全国首个跨省多中心风湿免疫全基因组分析;开展了重大与新突发传染病关键信息技术研究,研发了基于多维度大数据的新突发传染病实时监测和早期预警系统,赋能公共卫生应急管理体系。
可以预见,隐私计算平台将成为整个医疗信息化体系的重要数据基础设施之一。
热度不小,理性不减
隐私计算落地医疗领域不仅促进了医疗数据的安全流动与共享,也带动了相关隐私计算技术企业完成了从创业求生到发展壮大的蜕变。郑灏乐观估计,公司今年营收预计将同比增长10倍。
产业的迅猛发展也让各路资本信心大增,不断投向隐私计算标的。8月中旬,锘崴科技完成亿元级B轮融资,获得包括致远互联、连宇投资、海南然格等多家风险基金支持。此前7月末,翼方健数完成B+轮超3亿元人民币融资,或为隐私计算领域技术专精型公司中已披露的最大规模单笔融资。
然而,当下的热火朝天并不意味着未来的高枕无忧。一个不争的事实是,隐私计算与医疗领域还处于“磨合期”,医疗行业的特殊性对隐私计算的作用提出了更高要求。
第一,与其他行业相比,医疗行业对隐私计算的要求更高,考验隐私计算综合能力。郑灏表示,医疗领域的方法论相比其它领域要更为复杂,很多时候已经超越了建模的范畴,通过隐私计算的底座来支持复杂的方法论是一个挑战,其中涉及并发度、准确度、算法复杂度、隐私等一系列实现和优化点。
第二,安全与性能的平衡。隐私计算的重要技术路径之一是密码学(如同态加密、差分隐私、区块链等),一旦涉及大量数据计算或高等级安全性就会导致性能问题。因此现实中如果在所有方面都追求极致安全,既不可能也无必要,而是需要在安全与性能之间找到平衡点。
对此郑灏认为,医疗领域对隐私计算的要求很高,是性能、安全性和精度三个方面的平衡,可以通过三方面实现:1. 安全等级应由具体场景决定,避免过度保护或者保护不足。2. 在确保安全保护等级的前提下确定数据分析过程中的精度要求。3. 针对医学数据的特性、分析方法论的特性、多中心特性、高并发特性等结合隐私计算进行性能优化。
隐私计算仍处发展早期,技术问题显然远不止这些,但技术问题总能够解决。与金融等其他领域的落地相比,隐私计算在医疗领域还要面对更多技术之外的问题,甚至技术之上的悖论。比如,数据共享究竟是谁获益?
从患者视角来看,大多数情况下,患者贡献数据的受益人并不一定是患者本人或者某些个人(如绝症病人),而可能是相当长时间后的科研成果或一类患者人群。在这种情况下,眼前的患者本人是否还愿意贡献数据给未来的他人呢?
从机构角度来看,所有医疗机构都意识到数据是重要资产,具有极高敏感性并受到强监管。医疗机构,特别是拥有大量数据的大型医疗机构,是否还愿意共享数据呢?另外,治疗疾病所需的还不只是临床数据。病患日常生活习惯、可穿戴设备等记录的数据医疗机构并不掌握。
这些问题背后是数据确权(法律问题)、数据融合(多部门协作)、数据交易(激励机制)等一系列难题。与金融等商业领域相比,医疗领域还有其独特的公益性,医疗数据各相关方必须权衡社会利益与商业利益。
在许多复杂问题有待解决、许多利益关系有待厘清之前,隐私计算作为“技术解”已经可以解决或规避一些问题,也正在解决或有望解决另一些问题。至少,隐私计算技术带来了这样一次机会,以可控、可靠、可验证的方式,让患者和医疗机构都可以相信数据是安全的,更可以放心行动,把分享变得功德圆满。
值得一提的是,算力智库是国内最早关注隐私计算发展的媒体之一。早在2018年,算力智库就携手隐私计算及科创领域领先企业和机构联合打造了国内首个数据安全与隐私保护专业联盟平台“振金社”,并开始持续报道隐私计算相关内容。
2019 年初,算力智库研究院联合肖风博士及隐私计算专家,从市场行情、技术分析、行业应用、项目梳理等方面编撰发布国内首部基于MPC 的隐私计算报告——《基于MPC的隐私计算:开启数字经济时代数据共享新商业模式》。
2020 年7 月5 日,算力智库联合巴比特、上海人工智能发展联盟、长三角大数据产业合作联席会议、上海现代服务业联合会金融科技专委会及众多业界领军企业共同举办国内首个隐私计算产业论坛——“隐私计算:让数据安全有序流动起来”暨2020隐私计算产业30 强榜单颁奖典礼。
2021年6月3日,由算力智库主办,中国信息通信研究院云计算与大数据研究所、隐私计算联盟、隐私计算技术联盟联合主办的2021第二届隐私计算产业与应用论坛在上海圆满收官。
后续算力智库将持续跟踪关注隐私计算赛道,敬请期待!(cis)