【干货】药物设计中的数据科学

冠勤医药


进入数据科学

Hacking Skills:计算机相关技能

Math & Statistics Knowledge:数学和统计学知识

Substantive Expertise:业务层面的知识(在这里就是医药方面相关的知识)

数据分析流程

一、准备阶段

定义研究问题:不是为了分析数据而分析数据,而是为了解决问题或为决策提供依据而去进行数据分析就需要我们在收集数据之前定义清楚我们感兴趣的研究问题是什么。

定义理想的数据集:由于受到一些实际条件的限制,我们并不一定能获得理想中我们需要的数据。

确定能够获取什么数据:清楚我们能够获得什么样的数据。

获取数据:(医药领域主要靠:生物信息学、化学信息学、药物信息学、临床生物信息学、专利等)

清理数据:通常我们的数据是多元的包含很多变量,可能某一些变量我们不关心,而是关心另外一些变量,那么就可以吧不关心的变量清理出去。

二、实际操作性阶段

探索性分析(数据可视化):快速对数据进行整体的了解,画一些相关的图看一下数据有一些什么样的模式,检测一下是否有缺失值以及极端值并相应的进行一些处理,看看得到的绘图是否支持预期的结果和假设等。

统计分析/建模(机器学习)等:在探索性分析中我们目测得到的结果并不一定是真实的或者具有统计学意义。因此在探索性分析之后我们要进行重要的一步就是统计分析或者统计推断以及建模。

三、解释/交流结果(数据可视化)

数据可视化:相比于数字我们更加容易了解图形所展示的内容。(数据可视化工具:R语言,Python,Excel,SPSS,SAS,SQL等)

挑战结果(有没有其他可能?):不论你最后得出的结论是多么符合你之前的预期,或者是你多么认为你的这个数据分析的过程是没有错的,但是这时候你还是要对你自己的结果保留一个怀疑的态度,要思考还有没有没有考虑到的问题或者是有可能你还是会犯了一些错误。

书写报告(Reproducible原则)




学术界比较多假设驱动:先定义研究的问题,然后用数据来验证你研究的问题而在工业界数据驱动比较多:数据驱动就是你刚开始不知道你要研究什么问题,通过一大堆数据分析的结果来得出一些结论。而这些结论他们有可能是相互矛盾的,也有可能你什么都得不到,如果在相互矛盾的一大堆结论中你选择了一些结论的话,那么你就犯了一个错误,就是你有可能只选择了对你有利的那些结论而你忽视了那些对你不利的结论,所以你得出的结果就是不可靠的。在现实在实际情况下,我们一般是假设驱动和数据驱动结合的情况比较多。

学习知识侧重于中间部分,因为方法具有普适性。然而定义问题,确定局限,设定流程一直到最后的解释/交流/传播结果,就需要领导力,洞察力和创新力的。这些都不是可以轻松传授和习得的)




《分子模拟与药物设计》课程主线----来自科学网孔德信blog

第一章 概述

第二章 药理学基础与药物设计理论基础

第三章 化学信息学与药物设计

(网址: http://blog.sciencenet.cn/blog-460432-379351.html)

第四章 计算机辅助药物设计概述

第五章 基于受体的药物设计 (主要是同源模建和分子对接)

第六章 基于配体的药物设计

(http://blog.sciencenet.cn/blog-460432-395521.html)

感谢孔老师的分享!!!小编认为是很好的参考资料!

孔老师博客以思维导图的形式分享相关内容的主线,很有助于理清思路,小编也喜欢用思维导图构建一些东西,我自己经常使用的思维导图软件是XMind。




前面分别说了数据分析的流程和药物设计的一些知识体系(详细内容看孔老师博客),我们发现药物设计和分子模拟中涉及到了大量的数据的收集,处理,可视化和最后的结果解释讨论,谈到信息和数据更是要具备很多计算机技能和数理统计等的知识。药物设计具有庞杂的知识体系,已有的新技术更多的是围绕疾病的靶点受体和配体进行展开。而且药物设计和研发过程中的数据是多维且复杂的。


医药行业以往的研究和开发积累的各种大量数据集才是一把开启候选药物新的设计和研发历程的金钥匙。医药研发产生复杂多元的数据集,这种数据集的处理工作充满了陷阱。当数据量供大于求时,虽然我们不再因为数据的获取而头痛,但是需要解决的问题就是如何从这些数据当中掘金。数据的挖掘也是药物的设计和新药研发涉及与数据分析应用有关的最为复杂的环节。

传统数据分析方法大多数都是通过对原始数据集进行抽样或者过滤,然后对数据样本进行分析,寻找特征和规律,其最大的特点是通过复杂的算法从有限的样本空间中获取尽可能多的信息,大数据本身巨大的数据量对于机器硬件以及算法本身都是严峻的考验。

一个完善的数据分析流程中,定义研究的问题、获取什么样的数据以及数据结果的解释步骤至关重要。若数据分析的结果不能得到恰当的显示,则会对数据使用者产生困扰,甚至会误导使用者。传统的数据展示方式是用文本形式下载输出或用户个人电脑显示处理结果,但随着数据量的加大,数据分析结果往往也越复杂,用传统的数据显示方法已经不足以满足大数据分析结果输出的需求。 因此,为了提升对数据的解释和展示能力,数据可视化技术作为一种解释大数据最有力的方式。


在药物化学领域,大数据的出现已经深远地影响了药物化学家的开发和研究新型药物的方式。传统的药物开发由设计、合成、测试、评价4个流程的交替循环组成,但这一流程随着药物化学领域数据量的直线上升而受到极大地冲击。同时,随着实验技术的提高,各种检测手段层出不穷,这也使得实验数据与以往相比呈现了级数式的增长。因此,必须加强和数据相关的计算机领域的合作,借鉴和学习其管理与分析数据的经验。同时,数据激增的出现对药物化学本身也提出了新的要求。为了对激增的大量数据进行分析,常用的数据分析方法:主成分分析、线性回归、k均值聚类、贝叶斯方法、交叉验证等各种监督学习、

模型预测、聚类分析、数据挖掘理论成为了药物化学家必须掌握的基础理论。药物化学家也要由传统的根据研究做出决策的研究模式改为根据数据做出决策的研究模式。数据的来源变得多样化,可以是自己实验获得的,也可以是公共数据和他人的数据。


在药物设计领域,研究者发现生物体内存在大量被称为化学基元(chemoyl)的基本结构单元,这些结构单元在生物的活动过程中起着重要作用。在此基础上,出现了以超级计算与大数据挖掘技术为基础,研究各种化学基元的结构、组装与演化的基本规律的药物分子设计的新理论——化学基元学。化学基元学通过揭示生物系统制备化学多样性的规律,发展仿生合成方法制备类天然化合物库(quasi natural productli braries)以供药物筛选,成功解决了药物设计领域药物筛选资源日益枯竭这样一个瓶颈问题。目前,该理论已发展出了在超级计算支持下基于分子动力学的虚拟筛选方法(MDVS),基于GPU的分子三维叠合并行算法gWEGA,面向系统性疾病治疗药物设计的药理网络以及分子活性构象预测的新技术等。


最后,数据和信息激增的时代最重要的是培养“数据思维”,这是一种怎样的思维方式? 我们又该如何培养?毫无疑问,数据和信息激增的时代确实需要一种全新的思维方式。因为数据有着多种多样的来源,任何一个专家(无论是人类还是机器)都不可能吸收所有的数据,这仍旧要求具有跨学科的方法。


参考

  1. 慕课网的数据分析和挖掘课程

  2. http://blog.sciencenet.cn/home.php?mod=space&uid=460432

  3. 药物设计:大数据与化学数据挖掘