东北大学:深度学习如何改变我们治疗癌症患者的方式

为了解决最紧迫的科学问题,今天的科学家在收集开展研究所需的数据时经常面临巨大的障碍。

进入西雅图东北大学的数据科学家和计算生物学家Ramkumar Hariharan 。作为一名科学家和工程师,Hariharan 目前的研究集中在一个名为老年科学的新兴科学领域,或“与年龄相关疾病相关的衰老研究”。Hariharan 一直试图了解为什么一些癌症患者对某些类型的免疫疗法反应更好的原因。

要做到这一点,需要大量关于患者本身、癌症的具体形式和用于治疗患者的药物的信息。自然,要处理的数据很多,而且来源多种多样。所有这些信息都需要分类、清理、抓取(将数据从一个源或程序导出到另一个)和“导出”(将原始数据组合或处理成新信息)。

“第一部分是创建人工智能系统和管道,”Hariharan 说。“我们为什么要这样做?我们想解决科学问题。”

Hariharan 和东北大学的一组研究人员获得了一项资助,以建立“端到端 autoML 管道”,以帮助预测患者对癌症免疫疗法的反应。自动化机器学习模型 (autoML) 使用所谓的“深度学习”(一种以人类决策为模型的人工智能形式)来帮助研究人员筛选大量原始数据。

Ram Hariharan 微笑的头像

西雅图工程学院项目主任拉姆·哈里哈兰 (Ram Hariharan) 在西雅图校区摆姿势拍照。摄影:Alyssa Stone/东北大学

具体来说,研究人员正在寻找是否可以前瞻性地确定最能从这些不同治疗中受益的患者,并在此过程中分离出使患者或多或少对它们产生反应的个体因素。这些可能是诸如患者年龄、身体特征和整体健康状况等因素。

目标是在可用数据(即通过已发表的文献和其他公共数据库可访问的数据)中寻找模式,帮助研究人员构建患者在治疗中的表现的临床图景。

为了尽可能准确,研究人员需要的不仅仅是患者的年龄、性别和健康状况;他们需要其他更具体的数据点,例如癌性肿瘤的细胞组成,以及能够深入了解基因活性或表达的分子测量。

对于希望抓取这些专业数据的研究人员来说,一个问题是其中很多是所谓的特定领域知识,这意味着它由专家(这里是医疗和保健专业人员)监督,并被锁在不同的、组织不善的数据库中. ​​另一个挑战是精确校准许多现有机器学习模型所需的大量手动编码

这就是 autoML 的用武之地。与需要训练有素的专家手动修改算法设置的传统机器学习模型不同,autoML 是一种构建系统以学习如何优化其数十个“超参数和控制旋钮”的方法” 一切都靠自己,Hariharan 说。

“autoML 管道负责两件事:第一,您对领域专家的依赖少得多,第二,您的机器学习工作流程大大加快,”他说。“您无需创建额外的派生数据并将其添加到现有数据中,因为它可以自行识别新的相关派生数据。”

Hariharan 的团队最近完成了 autoML 管道的构建,现在正在完善系统,并与经典的动手模型进行比较来衡量其性能。该项目的 50,000 美元资金来自东北大学体验式人工智能研究所。Rohit Gandikota、Alekya Kasturi、Shreyangi Prasad 和 Ayesha Mathur——均来自东北部——参与了研究。

Hariharan 说,这个复杂的数据项目是由老年科学的发展和科学家对衰老的理解方式的更广泛转变推动的。随着年龄的增长,您的身体机能开始减慢。“事情开始分崩离析,”哈里哈兰说。这反过来又使人容易患上许多与年龄有关的疾病。

“你患癌症的可能性显着增加,”Hariharan 说。“是的,年轻人确实得了癌症——但他们更像是异类。年龄并不是导致癌症、阿尔茨海默病或心血管疾病的唯一因素。”

他说,这还取决于你的基因遗传,以及“位于你 DNA 之上”的“表观遗传标记”。Hariharan 说,这些标记是对 DNA 字母的化学修饰,可以提供关于我们如何衰老的线索。长期以来被认为会影响我们衰老速度的饮食和生活方式也会影响这些痕迹的形成。

“有很多方法可以测量你的生物学年龄,”他说。“观察表观基因组模式是一种方法。”

其他所谓的衰老生物标志物各不相同,可以包括,例如,一个人的行走速度、他们的握力和其他血液测量值,例如他们对葡萄糖的反应。Hariharan 说,随着科学家对衰老机制的理解不断发展,更多潜在的数据点会成为健康的变量和决定因素。

他说,机器学习将是解锁这些数据的关键。

“我们希望构建人工智能驱动的计算工具,以提出更具可重复性的测量生物衰老的方法,”Hariharan 说。“我们还没有开始这项研究,但我们很快就会启动它。”

快速申请