Nature封面：人工智能AI最初算法！跨越医疗数据隐私问题进行学习

2021-11-22 03:30:08 来源:

6月末15日传闻，数据分析科技领域另行进展又一次稳坐国际Journal《纯净》（Nature）插图。

个体平板受蚁群、外来者这类社就会持续性昆虫的行为启发而来，可用以预测体育赛事、选等活动的结果。但它还可以显然不够多。比如，在不违反个人隐私法的只能将来自世界持续性的公一共卫生信息透过建构，以便太短时间内有效率地测定患上致使传染病的病征。

最近，德国波恩大讲授的数据分析工作人技工联合IBM以及来自罗马、西班牙、德国的多家数据分析机构，一共同开发了一种将楔形计算、基于区块链的对等互联网结合上去的虚拟化集成电路原理——「Swarm Learning」（个体求讲授，SL），可以从混杂存储的信息之中测定造出多种传染病，借以加速世界持续性之内的精准公一共卫生协作，能用以不尽相同公一共卫生机构错综复杂信息的建构

数据分析工作人技工基于1.64万份肠道RNA组的组织和9.5万份臀部X射线影像信息，仅限于SL为脑癌、染上和胸腔传染病、COVID-19开发传染病测定确定性，挖掘造出SL在意味着审核规范的同时比起单个公一共卫生机构开发的确定性。方法识别造出患病个体的恰当率，在肠道RNA组的组织信息集之中平均为90%，在X射线影像信息集之中展示造出为76%-86%。

数据分析成果于5月末27日以 Swarm Learning for decentralized and confidential clinical machine learning 为题发表在杂志 Nature 上，并稳坐了最另行一期的杂志插图。

专著URL：

太短时间内有效率地测定患上致使传染病的病征是精准公一共卫生的主要期望，而 AI 可以很好地主要用途。但由于个人隐私法的确保，电子技术上的可行和实施上的能行错综复杂存有着巨大的贫富差距。虽然 AI 克服拟议本质上具体来说适当的方法，但也就是说却不够具体来说大信息。目前，大量的信息把握在世界各地成百上千万的公一共卫生机构手之中，根本无法确保安全高效地一透过者，而各自的本地信息又难以意味着数据分析的操练。

针对这一解决办法，波恩大讲授的 Joachim Schultze 和他的合作伙伴提造出了一种名为 Swarm Learning（群求讲授）的去之的中心化数据分析系统设计，引入了局限持续性包涵机构生物针灸之中集之中信息一透过者的方式则。Swarm Learning 通过 Swarm 互联网一透过者变量，再在各个条线路的本地信息上独立自主相结合假设，并利用区块链电子技术对借此毁损 Swarm 互联网的辩称与就会者采取强有力的政策。

Swarm learning 的框架

一、比美国联邦政府求讲授不够确保安全，SL可义务公一共卫生信息一透过者

精准公一共卫生的期望是能太短时间内恰当地测定造出患上致使传染病和表型传染病的病征，而数据分析借以意味着这一期望，例如根据治疗的肠道RNA组的组织信息来识别是否患上脑癌。然而，应用到也就是说还存有很多解决办法。

基于集成电路（AI）的传染病治疗原理，本质上不仅具体来说适当的方法，不够具体来说大型操练信息集。由于针灸信息本身是混杂的，公一共卫生机构本地的信息量不一定偏低以操练造出有效率的确定性。因此，根据公一共卫生信息相结合造出的假设，仅能克服本地解决办法。

从集成电路角度，将各地公一共卫生信息透过集之中管控是能够的选项，但这存有难以避免的毛病。有数信息容量大解决办法，以及对信息不动产、审核持续性、个人隐私持续性、确保安全持续性和信息主导等情况的担忧。

因此，所需不够有效、恰当、高效的克服拟议，并且能够在个人隐私和道德各个方面意味着审核承诺，还要透过确保安全和容错设计。

美国联邦政府求讲授原理（Federated Learning）克服了其之中的一些解决办法。信息完好在信息拥有权本地，审核持续性解决办法得到克服，但变量设置仍要之中央宣传部协调技工协调。此外，这种星型架构提高了容错技能。

相比之下于已比较流行的美国联邦政府求讲授原理，能够的选项是采取仅仅去之的中心化的集成电路克服拟议，即SL来克服已有拟议的偏低，适应针灸科技领域固有的虚拟化信息结构以及信息个人隐私和确保安全法规的承诺。

SL具有表列造出压倒持续性：（1）将大量公一共卫生信息完好至信息拥有权本地；（2）不所需交换原始信息，从而减低信息容量大；（3）透过高级别的信息确保安全义务；（4）能够情况下互联网之中的组织的确保安全、透明和不合理加入，不再所需之中央宣传部托管技工；（5）必需变量合并，意味着所有的组织权力均等；（6）可以确保数据分析假设免受反击。

从概念上讲，如果本地有足够的信息和集成电路交通运输，数据分析就可以在本地透过。

对比几种数据分析原理，数据分析工作人技工挖掘造出，基于云的数据分析（Central Learning）就会造成了信息集之中移动，可用以操练的信息量大大降低，相比之下于信息和计算在不系统性地点的Local Learnling原理，数据分析的结果得到改善，但存有信息反复、信息容量大降低以及信息个人隐私、信息确保安全等各个方面的解决办法。美国联邦政府求讲授原理仅限于公用变量服务器负责单体和分发，其他之中央宣传部结构仍被保留。SL，省去公用服务器，通过Swarm互联网一透过者变量，并且在各个链表的管理者信息上独立自主相结合假设。

四种数据分析原理比较

SL透过确保安全政策以默许信息行使主权，这由私人使用权的区块链电子技术意味着。每个与就会者都有明确的定义，只有而无须准许使用权的与就会者才可以分派交易。重另行链表加入是动态的，有适当的准许政策来识别互联网与就会者。另行链表通过区块链平板合约申请人，获取假设，并分派假设的本地操练，知道意味着定义的互联状况。接下来，假设变量通过Swarm应用程序编程接口（API）透过交换，并开始下一轮，合并创建人一个具有不够另行变量设置的不够另行假设。

在每个链表，SL分为之中间件和ASP。应用环境有数数据分析平台、区块链和SLL。ASP则包括假设，例如分析来自脑癌、染上和COVID-19病征的肠道RNA组的组织信息或放射线影像等得到的假设结构。

二、个体求讲授，源于纯净的构思

蜜蜂通过一种更为特别的原理来四处寻找食物的海岸边：大幅度释放信息素。它们向个体的其他的组织发造出自己的信号，每只蜜蜂都从所有其他蜜蜂的经验之中求讲授，因此，每只蜜蜂都不够近食物；也。就此，个体根据个体蜜蜂的反馈确认最佳偏移。值得注意地， Swarm Learning 让互联网上每个链表透过本地求讲授，求讲授到的结果通过区块链利用，并引导给其他各个链表。这个过程就会反复多次，不断提高方法识别互联网每个链表Mode的技能。Swarm Learning 的所有信息都保留在本地，一透过者的只是方法和变量——从只不过上说，就是经验。波恩大讲授全人类与针灸科讲授助手 Joachim Schultze 阐释：「 Swarm Learning 以一种大纯净的方式则意味着了信息确保的承诺。」

三、操练比对减低50%时，SL效能仍不够优

数据分析一共简介了四个范例：

范例一是，仅限于12000多位病征的外周血单个核蛋白质（PBMC）RNA组的组织信息构成的三个信息集（A1-A3，有数两种并不一定的微阵列和RNA基因组），以及默认设置的年中深度神经互联网方法来透过的测试。

针对每个虚拟世界过场，比对被包含不反复的操练信息集和一个全局的测试信息集，用以的测试在单个链表上SL建立的假设。操练信息集以不尽相同的常见于方式则被“隔离”在每个Swarm链表上，来模拟器流行病讲授公一共卫生上的系统性过场。

急持续性髓蛋白质脑癌（AML）病征的比对作为登革热（cases），其他所有比对作为抽样的组织（controls）。模拟器之中的每个链表，都可以代表一个公一共卫生之的中心、一个医院互联网、一个国家或任何其他独立自主的组的组织织，这些组的组织织就会造成了有个人隐私承诺的本地公一共卫生信息。

SL测定脑癌

首先，把登革热和抽样的组织不光滑的常见于到链表（信息集A2）和链表上，挖掘造出SL结果比起单个链表的效能。在这种只能，之的中心假设的展示造出仅略好于SL。仅限于信息集A1和A3的测试某种程度有更为十分相似的结果，这强烈默许了SL效能的提高跟信息利用或者信息分解电子技术（微阵列或RNA基因组）或多或少的观点。

另外五个过场某种程度在信息集A1-A3上透过了的测试：（1）在的测试链表仅限于径向的比对，其登革热和抽样的组织分之一与第一个过场之中的十分相似；（2）仅限于径向的比对，但将来自特定流行病讲授数据分析的比对分开，使操练链表和链表错综复杂有不尽相同的登革热和抽样的组织分之一：（3）降低每个操练链表的比对大小；（4）在公用操练链表仅限于不尽相同电子技术分解的孤立比对；（5）仅限于不尽相同的RNA-seq电子技术。在这些过场之中，SL的展示造出都比起单链表效能，并且近或者和之的中心假设效能相同。

急持续性淋巴蛋白质脑癌（ALL）病征的比对某种程度在这几个过场下透过了的测试，将治疗范围扩展至以四种脑癌并不一定为主的多类解决办法。

范例二是，用SL从肠道RNA组的组织信息之中识别染上病征。

基于染上比对，将登革热和抽样的组织分之一径向在各链表之中。得造出结论，在这些状况下，SL的效能比起单链表效能，并且展示造出略好于之中央宣传部假设。数据分析仅对活动持续性染上透过治疗。将潜伏感染者的染上病征作为抽样的组织，比对和抽样的组织保持径向，但减低用以操练的比对为数。在这些不够具挑战持续性的状况下，虽然SL整体效能有所上升，但是SL效能几乎比起任何单链表效能。

操练比对减低50%时，SL几乎比起单链表效能，不过这时单链表和SL效能都比较低。然而与一般状况下的观察结果一致，SL效能与之的中心假设比较近：操练信息降低时集成电路的展示造出能够。将三个链表的操练信息包含六个较小链表时就会提高每个链表的效能，但是利用SL造成了的结果并并未很差。

SL测定染上

由于染上具有政府组织特质，染上比对可以用来模拟器潜在爆发的情景，以便确认SL的压倒持续性和潜在限制，进而数据分析确认如何克服这些解决办法。

由链表模拟器的三个独立自主区域现在有足够的但不尽相同为数的登革热比对，在这种只能，SL的结果几乎和之前并未什么变化。而范例和抽样的组织最少的链表效能值得注意上升。的测试链表的范例分之一提高导致链表效能很差。

范例三是，仅限于一个大型的未公开臀部X射线影像信息集来克服多类预测解决办法。SL在预测所有放射线讲授挖掘造出（脾积水、渗造出、伴生和无挖掘造出）各个方面比起每个链表的效能，这说明SL也仅限于于非RNA组的组织信息科技领域。

范例四，提问了SL是否可以用以测定COVID-19病征。虽然不一定COVID-19是仅限于基于PCR的测定原理来测定病毒感染者RNA。但在菌株未知、特定菌株测定尚不可能、现有测定可能造成了假阴持续性结果等只能，评估特定病原体加成可能是更为重要的，而数据分析肠道RNA组的组织借以了解病原体的免疫加成。

SL测定COVID-19

作者通过在欧洲应征不够多的公一共卫生之的中心来获取信息，这些之的中心在比率、持续性别和掌控传染病的往往上有不尽相同的病征常见于，由此分解了八个单独特定之中央宣传部子信息集。

SL可以遏制持续性别、比率或双重感染者等偏差，并在区分轻度和重度COVID-19病征时，SL的展示造出比起单链表效能。证据说明，来自COVID-19病征的肠道RNA组的组织代表了一个可以应用SL的特定科技领域。

四、SL无疑宽阔，加速世界持续性精准公一共卫生协作

随着各方都在关注如何加强信息个人隐私和确保安全解决办法以及减低信息容量大和反复，去之的中心化的信息假设将已是管控、存储、管理和分析任何并不一定的大型公一共卫生信息集的首选原理。

众所周知讲授各个方面，基于数据分析的测定、亚型分析和结果预测都取得了这两项成功，但是其进展受到信息集数量有限的阻碍，目前的个人隐私法规使得开发集之中式集成电路系统设计的吸引力提高。

SL作为一种去之的中心化的求讲授系统设计，引入了局限持续性包涵机构生物针灸之中信息一透过者的范式。

对于借此毁损Swarm互联网的人，SL的区块链电子技术透过了强有力的遏制政策。SL通过设计透过了审核的数据分析，可以继承差分个人隐私方法、函数加密或加密公用求讲授原理各个方面的另行进展。

世界持续性协作和信息一透过者更为举足轻重，并且SL在这两个各个方面存有固有压倒持续性，并且不够大的压倒持续性是不所需信息一透过者而直接转成方法论一透过者，从而意味着仅仅信息审核状况下的世界持续性协作。

事实上，他的政府阐释的个人隐私规则在发生大数量流行病时仅仅仅限于。众所周知此类恐慌之中，集成电路系统设计所需遵守道德准则并且尊重人权。像SL这样的系统设计——必需不合理、透明和被相对管制的一透过者建模同时确保信息个人隐私——将受到青睐。

数据分析工作人技工认为不该探求SL根据X射线影像或CT扫描结果、形式化心理健康记录信息或者来自于传染病的可穿戴设备信息，来对COVID-19透过基于影像的治疗。

SL用以RNA组的组织讲授（或其他针灸信息）分析是更为有前途的原理，可以在针灸科技领域的推广集成电路的仅限于，同时提高信息审核持续性、个人隐私和信息确保往往，以及减低信息容量大。

五、世界持续性流感背景下，所想SL发挥作用

这篇数据分析不可否认SL的效能的有效率持续性。在世界持续性流感一直持续的只能，病毒感染者大幅度造成了重另行种属，对于各国公一共卫生机构都是一种挑战。如果利用SL电子技术在信息审核的只能对世界持续性系统性的公一共卫生信息透过建构分析，不够太快治疗病情恶化，可能对掌控流感就会有举足轻重帮助。

信息是集成电路发展的肠道，但是信息个人隐私确保安全的解决办法越来越凸显。我们现在了解到美国联邦政府求讲授电子技术能让信息在脱敏的只能被管控分析，现在，SL已是一种另行原理。它将通过常见于式管控方式则，为信息确保安全应用及集成电路行业的发展带来重另行促成力。

Schultze 坚信他们的数据分析成果必定就会对世界持续性之内的公一共卫生信息一透过者造成了革另行。「我显然 Swarm Learning 可以大大地促成生物针灸和其他信息驱动的讲授科专业。目前的数据分析只是一次试运行。未来，我们执意将这项电子技术应用以阿尔茨海默氏症和其他神经衰退持续性传染病。」

惠普集成电路身职电子技术官职高级副总裁 Eng Lim Goh 助手也表示：「Swarm Learning 为生物针灸和商业持续性合作建起了重另行机就会。这两项是所有与就会者都可以某种程度求讲授，而不必一透过者机密信息。」

上述内容来自微电脑有心，智外面等