医学影像与基因组学,NVIDIA Clara正在这两个方向潜入
10000+人已加入我们!关注我,
了解创新药新动态
NVIDIA年度盛会GTC2019在苏州金鸡湖畔缓缓落幕。舞台上的黄仁勋今年没有拿出过多的硬件,走上了少而精的路子。很明显,NVIDIA将2019年中更多的时间与精力放在软件开拓之上,已有的硬件已足够强劲,NVIDIA希望能让开发者们更高效地利用手上的武器。
在医疗领域,现阶段的NVIDIA将自己定义为医疗AI开发者的助手,简单地说,NVIDIA没有直接参与医疗相关应用的研发,而是开发了一系列工具包,以供医学AI开发者更好地利用数据,
在这一方向,NVIDIA几乎将所有的成果都放在了NVIDIA Clara平台之中。从现有的应用来看,这个平台的主要功能为帮助医学影像与基因组学的研究者解决数据和算力上的问题。
NVIDIA CLARA结构
如何帮助医疗AI开发者获取更多有效数据?
医学影像是NVIDIA Clara的主要作用领域,其工具包的功能包括提供迁移学习、联邦学习、实时影像等,这里主要介绍深度学习自动化、联邦学习以及NVIDIA在PACS系统优化上的工作。
深度学习自动化
深度学习刚刚兴起时,人工智能企业能够获得的医疗数据远称不上大数据。但随着医学AI企业逐渐入驻医院,通过临床和科研的方式,人工智能企业获得了更多的脱敏数据。
问题也随之而来,很多企业每日处理的影像数据可达数万甚至十万例,但要让AI知晓自己的判断是否正确,或是增加AI算法的精度,研究人员必须让AI处理更多处理过的数据。
从现在的市场来看,一般AI企业选择从医院寻找刚毕业的研究生进行勾画,其成本在每组数据20-30元,实习生处理一组低层数据通常需要20-40分钟,若要使勾画更精细,则需花费1-2小时时间。
这种数据获取方式存在两个重要问题,一时人工智能训练需要数据量大,企业很难找到足够多的实习生进行勾画,成本也非常高昂;其次,影像的勾画通常对工作人员的资历要求较为严格,实习生常常会出现结节遗漏、勾画错误等现象,通过这种方式获得的数据对企业没有太多价值。
从这一需求出发,NVIDIA在Clara中植入了深度学习自动化的组件,开发者可直接使用这一组件对医学影像进行勾画。
NVIDIA的实验数据显示,应用这一工具包后,单个肺结节的时间可降至8-15分钟,医生的勾画效率可提升4-8倍。此外,通过粗略计算,胰腺的勾画速度可提升4倍,脾的勾画速度可以提升10倍。
2
联邦学习
NVIDIA的联邦学习算法应用领域非常宽泛,自动驾驶、医疗等场景均是联邦学习应用的重要场景。
医疗数据的安全性不言而喻,很多医院即便允许开发者使用他们提供的脱敏数据,也不允许数据离开医院。这导致AI开发者每进入一个医院便能生成一个模型,但由于数据的不统一,导致不同模型的鲁棒性非常差,难以应用于临床。
联邦学习要解决的便是上述问题。虽然数据不能出院,但是模型可以出院,那么我们能否直接将模型融合起来呢?答案是可以的。联邦学习算法的实质便是将不同的模型融合,以实现在医院不出院的情况下多个模型的统一。
在模型的融合过程中,NVIDIA采用了一种特殊的加密方式,确保各个模型中的数据不被泄漏。
通过一个13个用户组的融合实验,NVIDIA得到了上图结果。图中的红线是使用一个深度学习模型生成的算法准确率变化情况,绿线是联邦学习下,13个模型融合后的算法准确率变化情况,可以发现随着数据的增加,两条曲线高度重合,这个实验一定程度上证明了联邦学习的可用性。
不过,新的问题也在不断出现。如果各个模型差异很大,那么联邦学习如何自行“去粗取精”呢?“增量学习”将是NVIDIA下一步研究的重点内容。
3
医院部署
为了提高医院PACS系统的效率,NVIDIA开发了一个PACS系统优化组件,能够让原始图片在转化为DICOM格式前便经过AI进行增强、重建,以在PACS系统中生成更为高质量的数据。Clara Deployment具体的结构如下图所示。
原始数据的影像增强的应用很多,那么Clara Deployment有什么不同之处?一位影像科医生告诉动脉网记者,NVIDIA和飞利浦的不同之处在于他们处理影像图片的环节不同,飞利浦的影像处理系统作用于PACS Router之前,即是在影像生成时便进行了增强处理,而Clara Deployment的处理较为滞后,不依赖于影像设备本身的图像处理技术。
原始影像数据进入PACS流程
解决基因组分析瓶颈:GPU加速GATK
自2003年首次对人类基因组进行测序以来,整个基因组测序流程的成本就一直在下降,而且下降的速度远快于根据摩尔定律所预测的速度。从新生儿基因组测序到开展全国人口基因组计划,该领域正在蓬勃发展,并且日趋个体化。
测序技术的进步引发了基因组数据的爆炸式增长。序列数据总量每七个月增加一倍。这一惊人的速度可能会使得到2025年基因组学产生的数据量比其他大数据源(例如天文学、Twitter和 YouTube)数据量总和的10倍还多,达到两位数的艾字节。
各种新的测序系统,比如全球最大的基因组学研究集团——华大集团的DNBSEQ-T7等正在推动这项技术的广泛应用。该系统每天可以生成高达60个基因组,相当于6TB字节的数据。
凭借华大集团的流动池技术的发展以及一对NVIDIA V100 Tensor Core GPU所提供的加速,DNBSEQ-T7的测序速度提高了50倍,令其成为迄今为止吞吐量最高的基因组测序器。
但测序的加速工作远没有结束,科学家在观察更加微观的世界时提出了新的需求。为了满足这样的需求,NVIDIA也在不断探索。
本次GTC大会上发布的NVIDIA Parabricks基因组分析包便是为了让人们更加了解分子世界。
Parabricks是一个CUDA加速的基因处理工具包,可用于发现变异,并能产生与行业标准GATK最佳时间流程一致的结果。运用这个工具包,相关计算可提升30-50倍,并可利用深度学习进行基因变异检测。
NVIDIA Parabricks GPU加速的GATK
如今,华大基因已经开始使用Parabricks。若借助若干GPU服务器,华大基因可以按其测序仪生成数据的速率来处理基因组。
总结
从整个GTC来看,NVIDIA对于医学的投入不算多,许多应用并非专门针对医疗进行开发,而是通过迁移的方式生成。
不过这并不妨碍NVIDIA为医学人工智能发展提供动力。无论是联邦学习、自动化深度学习还是基因处理加速,NVIDIA所解决的都是行业最基础同时最需要解决的问题。
回顾整个大会与会后的采访环节,“The more you buy,the more you save”是黄仁勋说过的最多的一句话,但在医学影像与分子领域,NVIDIA能够带来的,也许是“The more you buy,the more you see”。
文 | 赵泓维
微信 | qq850860074
添加时请注明:姓名-公司-职位
网站、公众号等转载请联系授权
投稿请联系微信:q19930797
动脉新医药
罕见病怎么治?这家企业研发出新一代垂体激素泵,将有效治疗“无性别”卡尔曼综合征
动脉新医药的朋友们看过来~欢迎加入我们的读者交流群!本群用于生物医药领域的朋友进行反馈、提出建议和交流~长按识别下方二维码,添加客服时请备注“读者群”,审核成功后客服会邀请您入群~
长按识别上方二维码,备注“读者群”加入交流群