<
头闻号

佛山市顺德区极创防火材料有限公司

其他未分类|耐火、防火材料|其他未分类|室内涂料|特种建材|防水、防潮材料

首页 > 新闻中心 > 首个能读懂所有物种DNA的模型问世,Arc、斯坦福、英伟达等联合打造,可预测基因致病性、设计人工基因组
首个能读懂所有物种DNA的模型问世,Arc、斯坦福、英伟达等联合打造,可预测基因致病性、设计人工基因组
发布时间:2025-02-23 07:27:45        浏览次数:0        返回列表
首个能读懂所有物种DNA的模型问世,Arc、斯坦福、英伟达等联合打造,可预测基因致病性、设计人工基因组

来源:DeepTech深科技

在生命科学研究中,DNA 序列承载着从最简单的细菌到最复杂的人类所有生命形式的遗传信息。然而,预测和理解这些序列的功能一直是生物学家面临的重大挑战。比如,判断一个基因突变是否会导致疾病,或者设计一个能在特定细胞中精确表达的基因序列,往往需要耗费大量的时间和资源进行实验验证。

2 月 19 日,Arc 研究所联合美国斯坦福大学、美国加州大学伯克利分校、美国加州大学旧金山分校以及英伟达,发布了一个突破性的 AI 模型 Evo 2。这个被称为“生物基础模型”的系统,首次实现了对生命三大领域(原核生物、古细菌和真核生物)的 DNA 序列进行统一建模。更重要的是,它能够“读写思考”DNA 语言,不仅可以预测序列的功能,还能设计具有特定功能的新序列。

Evo 2 最大的突破在于它的训练数据规模。研究团队构建了名为 OpenGenome2 的数据集,收录了 9.3 万亿个核苷酸序列,几乎囊括了地球上所有已知的生命形式。数据来自 12.8 万个物种的基因组,不仅包含简单的细菌和古细菌,还首次加入了人类、植物等复杂生物的基因组信息。正是这种前所未有的数据覆盖面,让 Evo 2 获得了类似人类生物学家的“通识理解能力”。

研究团队使用 StripedHyena 2 作为模型架构,这是首个基于卷积多混合模型的架构,它巧妙地将多种不同类型的运算符组合在一起,形成了一种条纹状的排列模式。这种设计显著提高了模型在处理短序列和长序列时的效率。值得一提的是,OpenAI 联合创始人 Greg Brockman 在休假期间参与了这一技术难题的攻克。

通过这一创新架构,Evo 2 可以一次处理长达 100 万个核苷酸的序列,是上一代模型处理能力的 8 倍。这意味着模型可以捕捉到基因组中远距离元件之间的关系,这对于理解真核生物的基因调控特别重要。

图丨 Evo 2 的模型架构、训练过程、数据集和评估概览(来源:Arc)

模型的训练有两个阶段。第一阶段是在 8,192 个标记的上下文长度下进行预训练,这个阶段重点关注功能遗传元件,如基因编码区、调控序列等。第二阶段则是中期训练,将上下文长度逐步扩展到 100 万个标记,使模型能够学习基因组中远距离元件之间的复杂关系。

研究人员还开发了创新的数据增强和权重分配方法,在预训练阶段优先处理信息密度较高的功能区域,在中期训练阶段则注重长序列的整体构成。

最重要的是,该项目完全开源。团队不仅开源了 Evo 2 的模型参数、训练代码和推理代码,还发布了完整的 OpenGenome2 训练数据集(项目地址:arcinstitute/evo2)。这使其成为目前规模最大的完全开放 AI 模型之一。

为了方便研究人员使用,团队还开发了名为 Evo Designer 的用户友好界面,以及一个可以揭示模型内部机制的可视化工具,这让研究人员能够更好地理解模型是如何“思考”生物学问题的。

图丨 Evo Designer(来源:Arc)

值得一提的是,为了确保安全使用,研究团队特意在训练数据中排除了所有可能感染高等生物的病毒序列。他们通过严格的测试验证,确保模型在这类序列上的分析和生成能力都很有限。

在几十年的生物学研究中,我们积累了海量的生物数据,但要真正“读懂”这些数据却并不容易。Evo 2 的出现,让我们对生物信息的理解和预测达到了新的高度。

在基础预测任务上,Evo 2 表现出了相当突出的准确性。比如说,它能在没有任何专门训练的情况下,准确判断 DNA 突变是否会影响蛋白质功能。更令人惊讶的是,它对于复杂的真核生物也有很好的理解——这在以前的模型中是很难实现的。

图丨 Evo 2 预测所有生命领域蛋白质、RNA 和有机体适合度的突变效应(来源:Arc)

这种能力在医学领域相当有用。举个例子,在分析与乳腺癌相关的 BRCA1 基因时,Evo 2 能以超过 90% 的准确率区分出哪些基因变异可能致病,哪些是良性的。这意味着,在进行昂贵的细胞实验或动物实验之前,研究人员可以先用 Evo 2 筛选出最值得关注的突变。

不仅能读懂 DNA,Evo 2 还会“写”DNA。研究团队用 Evo 2 成功生成了完整的线粒体基因组、简单细菌基因组,以及酵母染色体。这些生成的序列不仅在数量上庞大,质量上也保持了高度的自然性和连贯性。更令人惊喜的是,模型生成的序列中包含了正确数量的编码序列、tRNA 基因和 rRNA 基因,并保持了适当的基因组结构。

此外,研究人员还发现 Evo 2 不是在简单地记忆数据,而是真正理解了生物学原理。通过特殊的分析技术,他们发现模型自主学会了识别外显子和内含子的界限、寻找蛋白质结合位点,甚至能发现细菌基因组中潜藏的病毒序列。这些都是生物学家特别关心的特征。

图丨 Evo 2 的机制可解释性揭示了 DNA、RNA、蛋白质和生物体水平的特征。(来源:Arc)

研究团队还展示了一种创新的应用:用 Evo 2 设计具有特定表观遗传特征的 DNA 序列。他们甚至成功地将莫尔斯密码信息编码到了表观基因组中,这是首次在生物学语言建模中实现推理时缩放的案例。

Evo 2 的出现标志着“生成生物学”领域的重要里程碑。这个模型为理解和设计生物系统提供了前所未有的能力。在医疗领域,它可以帮助预测基因突变的致病性,加速罕见病的诊断和治疗方案的制定。在合成生物学领域,模型可以辅助设计新的基因治疗工具或生物传感器。

作为一个完全开源的项目,Evo 2 为整个生命科学研究社区提供了强大的工具。研究人员可以基于这个基础模型开发更多专门的应用。Arc 研究所的研究员表示,未来他们计划将这种表示方法与表观基因组学和转录组学信息整合,朝着构建可以有效模拟复杂细胞表型的“虚拟细胞模型”迈进。

这项研究再次证明,人工智能正在从根本上改变我们理解和操控生命的方式。通过将进化铭刻在 DNA 中的信息转化为机器可理解的模式,Evo 2 或将为生命科学研究开辟一种新的范式。

参考资料:

1.manuscripts/Evo2

2.news/blog/evo2

运营/排版:何晨龙