为了发现基因组中导致癌症的突变,一个团队建立了一个深度神经网络,可以快速扫描癌细胞的整个基因组,并识别比预期更频繁发生的突变,这表明它们正在推动肿瘤生长。这种类型的预测在过去一直具有挑战性,因为一些基因组区域具有极高频率的乘客突变,淹没了实际癌症驱动因素的
这项工作发表在《自然生物技术》杂志上,题为“体细胞突变率的全基因组图谱揭示了癌症的驱动因素”。”
麻省理工学院研究生MaxwellSherman说:“我们创建了一种概率性深度学习方法,使我们能够获得基因组中任何地方都应该存在的乘客突变数量的真正准确的模型。”“然后我们可以在整个基因组中寻找突变累积的区域,这表明这些区域是驱动突变。”
研究人员发现,基因组突变似乎导致5-10%癌症患者的肿瘤生长。研究人员表示,这些发现可以帮助医生找到更有可能成功治疗这些患者的药物。目前,至少30%的癌症患者没有可检测到的可用于指导治疗的驱动突变。
在基因组中寻找癌症驱动突变并不是什么新鲜事。这种做法已成功产生了诸如表皮生长因子受体(EGFR)和BRAF(黑色素瘤的常见驱动因素)等靶标,EGFR是肺部肿瘤中常见的突变。这两种突变现在都可以通过特定药物来靶向。但很难弄清楚非蛋白质编码区的突变是否会导致癌症的发生。
麻省理工学院数学教授兼计算机科学组计算和生物学组组长BonnieBerger博士说:“确实缺乏计算工具来让我们在蛋白质编码区域之外搜索这些驱动突变。”和人工智能实验室(CSAIL)。“这就是我们在这里尝试做的事情:设计一种计算方法,让我们不仅可以查看编码蛋白质的2%基因组,还可以查看100%的基因组。”
为此,研究人员训练了深度神经网络来搜索癌症基因组中发生频率高于预期的突变。他们使用37种不同类型癌症的基因组数据训练模型,这使得模型能够确定每种类型的背景突变率。
谢尔曼说:“我们的模型真正好的一点是,你只需针对给定的癌症类型对其进行一次训练,它就会同时了解该特定类型癌症的基因组中各处的突变率。”“然后你可以根据你应该看到的突变数量来查询你在患者队列中看到的突变。”
使用这个名为Dig的模型,研究小组能够添加到已知的可导致癌症的突变景观中。目前,当对癌症患者的肿瘤进行致癌突变筛查时,大约三分之二的情况下会出现已知的驱动因素。麻省理工学院研究的新结果为另外5-10%的患者提供了可能的驱动突变。
研究人员关注的一种非编码突变是“隐性剪接突变”。隐性剪接突变在内含子中发现,它们可以混淆剪接机制,导致不应该包含的内含子被包含在内。利用他们的模型,研究人员发现许多隐秘的剪接突变似乎会破坏肿瘤抑制基因。研究人员在这项研究中发现的隐秘剪接位点数量约占肿瘤抑制基因中发现的驱动突变的5%。
针对这些突变可能会提供一种潜在治疗这些患者的新方法。一种可能的方法是使用反义寡核苷酸(ASO)。
研究人员发现高浓度非编码驱动突变的另一个区域是一些肿瘤抑制基因的非翻译区域。肿瘤抑制基因TP53在许多类型的癌症中都有缺陷,已知会在这些序列中积累许多缺失,称为5'非翻译区。麻省理工学院的研究小组在一种名为ELF3的肿瘤抑制基因中发现了相同的模式。
研究人员还利用他们的模型来研究已知的常见突变是否也可能导致不同类型的癌症。举个例子,研究人员发现,之前与黑色素瘤有关的BRAF也会导致较小比例的其他类型癌症(包括胰腺癌、肝癌和胃食管癌)的癌症进展。
“这表明,常见司机的情况和稀有司机的情况实际上有很多重叠。这为重新利用治疗提供了机会,”谢尔曼说。“这些结果可以帮助指导我们应该建立的临床试验,以将这些药物从仅批准用于一种癌症,扩大到批准用于多种癌症,并能够帮助更多患者。”