谷歌DeepMind的科学家们成功开发了一款人工智能程序,可以高效地预测数百万个基因突变的潜在影响,确定其是否具有潜在危害性,以推动罕见疾病的研究和诊断进程。
这个程序的任务是预测DNA代码中的单个字母拼写错误,也被称为错义突变。尽管这些突变通常是无害的,但它们可能会影响蛋白质的正常功能,导致各种疾病,如囊性纤维化、镰状细胞性贫血、癌症和大脑发育问题等。
研究人员使用名为AlphaMissense的程序来评估可能影响人类蛋白质的全部7100万种单字母突变。当将程序的准确度设置为90%时,它成功地预测了57%的错义突变可能是无害的,而32%的错义突变可能是有害的。对于其余的变异,目前尚不能确定其影响。
为了帮助遗传学家和临床医生研究这些突变如何引发疾病或诊断患有罕见疾病的患者,科学家们发布了一个免费的在线预测目录。
通常,一个人的整个基因组中大约会有9000个错义突变。然而,在400多万个已知的人类错义突变中,只有2%被分类为良性或致病性。尽管医生已经使用计算机程序来预测哪些突变可能导致疾病,但由于预测的不准确性,这些程序只能提供诊断的支持证据。
该研究中的Jun Cheng博士和其他研究人员描述了AlphaMissense如何比目前的”变异效应预测器”程序表现更好,并有望帮助专家更快地确定哪些突变导致了疾病。此外,该程序还有可能识别以前未与特定疾病相关的突变,并为医生提供更好的治疗建议。
AlphaMissense是DeepMind的AlphaFold程序的改编版,AlphaFold可以根据人类蛋白质的化学组成来预测其三维结构。
AlphaMissense通过使用人类和与人类密切相关的灵长类动物的DNA数据,了解哪些错义突变是常见的,可能是无害的,哪些是罕见的且可能有害的。同时,该程序还通过研究数百万个蛋白质序列,了解”健康”蛋白质的特征,以便更好地理解蛋白质的”语言”。
当受过训练的人工智能系统接收突变数据时,它会生成一个分数,反映了基因变异可能导致问题的风险程度,尽管它无法详细说明突变如何引发问题。
Jun Cheng解释说:“这类似于人类语言。如果我们替换英语句子中的某个单词,熟悉英语的人可以立即看出该单词替换是否会改变句子的含义。”
来自爱丁堡大学的计算生物学家Joe Marsh教授虽然没有参与该研究,但表示AlphaMissense具有巨大的潜力。
他说:“在计算预测领域,每个人都声称他们的新方法是最好的,所以我们不能完全信任他人,但DeepMind的研究人员似乎确实表现得相当不错。”
他补充说,如果临床专家认为AlphaMissense可靠,那么它的预测可能在未来的疾病诊断中扮演更重要的角色。
威康桑格研究所的人类遗传学高级组长Ben Lehner教授表示,AI的预测需要其他科学家的验证,但它似乎在识别哪些DNA变化可能导致疾病以及哪些不会方面表现出色。
他说:“对DeepMind模型的一个担忧是它极其复杂,可能比它试图预测的生物学更复杂。这也引发了一个问题,即我们可能永远无法完全理解这些模型的工作原理。这会带来问题吗?这可能不适用于某些应用领域,但医生是否会愿意依赖他们无法理解和解释的AI模型来做出决策呢?
他补充道:“DeepMind模型可以很好地预测哪些地方受损,了解受损的地方是解决问题的第一步。但如果你想修复某个东西,你还需要知道它是如何受损的。我们中的许多人都在努力生成下一代人工智能模型所需的大量数据,这些模型不仅会告诉我们DNA中哪些变化是不好的,还会告诉我们问题的本质以及我们应该如何解决问题。”
来源:The.Guardian