用生成式人工智能解密DNA语言模型
2023年06月14日 由 Neo 发表
601799
0
用DNA语言模型,轻松发现DNA序列中的统计规律
大型语言模型(LLM)是在海量的数据上训练的,它们通过学习字母和单词之间的统计关系,来预测一个短语的下一个内容。例如,流行的生成人工智能程序ChatGPT的LLM,GPT-4,是在许多PB(数百万GB)的文本上训练的。
生物学家利用这些LLM的能力,通过发现DNA序列中的统计规律,揭示了遗传学的新见解。与核苷酸语言模型类似,DNA语言模型是在大量的DNA序列上训练的。
人们经常用“生命之语”来形容DNA。基因组是构成一个生物体遗传信息的一组DNA序列。与书面语言不同,DNA中只有A、C、G和T四个字母,分别代表腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。尽管这种遗传语言看起来很简单,但它的语法对我们来说仍然是一个谜。DNA语言模型可以帮助我们一条条地理解基因组语法。
多功能预测
ChatGPT处理各种工作的能力,从创作诗歌到文案编辑文章,赋予了它令人难以置信的力量。DNA语言的模型也很灵活。它们的用途包括各种基因组区域的功能以及多个基因之间的相互作用。语言模型还可以通过从DNA序列推断基因组特性来实现新的分析技术,而无需“参考基因组”。
DNA语言模型在基因组序列中产生新突变的能力也使研究人员能够预测这些变化是如何发生的。例如,研究人员使用基因组大小的语言模型来预测和追溯SARS-CoV-2病毒的进化。
用DNA语言模型,探索基因组中的远程作用
生物学家最近发现,曾经被认为是“垃圾DNA”的基因组部分,会以意想不到的方式与基因组的其他部分发生相互作用。使用DNA语言模型是一种快速了解这些隐藏相互作用的方法。语言模型可以通过发现长距离DNA序列中的规律,来找出基因组中远程区域的基因之间的关系。
加州大学伯克利分校的研究人员在最近发表在bioRxiv上的预印本中提供了一种DNA语言模型,该模型能够学习全基因组变异的影响。这些变异,即导致疾病或其他生理效应的基因组中的单个字母改变,通常只能通过称为全基因组关联研究的昂贵研究调查发现。
这种被称为基因组预训练网络(GPN)的语言模型,是在芥菜科植物的七个物种的基因组上训练的。GPN不仅可以针对任何物种进行调整,以识别基因组变异,而且还可以准确地命名这些芥菜科基因组的各个成分。
幻觉转化为创造力
当输出看似合理但不基于现实时,“幻觉”问题可能会给语言模型带来问题。例如,ChatGPT可能会产生根本上错误的健康建议。然而,这种“创造力”使得语言模型在蛋白质设计的背景下有效地开发全新的蛋白质。
为了提高像AlphaFold这样的深度学习模型在预测蛋白质如何折叠方面的成功,研究人员还在蛋白质数据集上使用语言模型。一个称为折叠的复杂过程允许蛋白质,最初只是一条氨基酸链,呈现出有用的形式。鉴于DNA序列控制蛋白质如何折叠并从DNA序列中获得,我们可以仅从基因序列中学习有关蛋白质结构和功能的所有知识。
来源:https://www.analyticsinsight.net/decrypting-dna-language-models-with-generative-ai/