国产 视频 基因组基础模子Evo重磅发布,AI解码分子、DNA、RNA和卵白质|序列|dna|rna

猎U者
bt核工厂
你的位置:猎U者 > bt核工厂 >
国产 视频 基因组基础模子Evo重磅发布,AI解码分子、DNA、RNA和卵白质|序列|dna|rna
发布日期:2024-12-10 11:40    点击次数:133

国产 视频 基因组基础模子Evo重磅发布,AI解码分子、DNA、RNA和卵白质|序列|dna|rna

国产 视频

剪辑|X_X

ChatGPT 不错写演义、编写计较机代码、给出食谱,它的硅片上包含了互联网上的大部分信息。淌若它能对 DNA 作念同样的事情会若何样?

今天,刊登在《Science》封面上一项最新商榷,好意思国 Arc 商榷所(Arc Institute)和斯坦福大学的商榷团队冷落了一种机器学习模子「Evo」,其八成以无与伦比的准确性解码和野心从分子到基因组领域的 DNA、RNA 和卵白质序列。

Evo 揣度、生成和野心整个这个词基因组序列的才调,可能会窜改合成生物学的运作面孔。

Evo 模子以数十亿条基因序列为基础,不错推断出细菌和病毒基因组的运作面孔,并诓骗这些信息野心新的卵白质致使整个这个词微生物基因组。

Evo 不错匡助科学家探索进化、商榷疾病、开荒新的调治步调,并可能解答好多其他生物医学问题。

「该商榷道理道理紧要,作家对 Evo 进行的测试为 AI 提供了一个很好的应用展示。」阿贡国度执行室的计较生物学家 Arvind Ramanathan 看到论文后评价说念。

该商榷以「Sequence modeling and design from molecular to genome scale with Evo」为题,于 2024 年 11 月 15 发布在《Science》。

论文连气儿:https://www.science.org/doi/10.1126/science.ado9336

人所共知,AlphaFold不错凭据卵白质的氨基酸序列揣度其结构。但 ChatGPT 和好多其他 AI 王人是通用才略,即基础模子。基础模子的多功能性很有上风,科学家不消为每个任务构建和进修不同的模子,从而检朴时辰和财富。ChatGPT 被称为大型言语模子(LLM),因为它适用于险些任何包含笔墨的文档,不论是政府论说照旧食谱。

在分子生物学中,莫得什么比 DNA 更基础的了,科学家们照旧开荒了一些基础模子,不错像分析 LLM 中的单词一样分析 DNA 序列。关连词,这些 AI 只可解释和揣度相对较短的 DNA 片断。

基因组基础模子 Evo

Evo 是为了克服这些收尾而开荒的,它是斯坦福大学计较生物学家 Brian Hie 团队的心血结晶,其中包括一些来改过缔造的 Arc 商榷所的商榷东说念主员。

基因组基础模子 Evo 是一个基于 StripedHyena 的基础模子,该模子在 270 万个进化各样的原核生物和噬菌体基因组上进行了预进修,从而获取对 DNA 言语的基才略路,不错揣度 DNA 的功能或生成新的 DNA 序列。StripedHyena 架构夹杂了密集二次 Transformer 算子和次二次型 Hyena 算子。

八月未央 自慰

为了细目 Evo 的最好架构和缩放比例,商榷比拟了在计较最优领域上预进修的不同模子的缩放率,即在数据集大小和模子大小之间进行最好计较分拨。

图示:基因组基础模子 Evo。(开端:论文)

该团队的一项更恰是增多所谓的高下文长度,即模子在尝试寻找 DNA 时势时使用的搜索窗口。更大的高下文长度不错提升模子识别基因或其他 DNA 序列之间关连的才调。这种野心还使团队八成将 Evo 的分别率提升到单个核苷酸(DNA 的构成部分)的水平,而之前的模子只可贬责核苷酸组。

商榷东说念主员在构建 Evo 后对其进行了 4 周的进修,在此时间,该模子对 80,000 个微生物基因组以及数百万个针对细菌的病毒序列和质粒进行了自我学习。

Hie 说,表面上,坏心用户不错诓骗像 Evo 这么的模子来野心生物兵器,因此商榷东说念主员从 AI 的进修汇集删除了任何过失东说念主类或其他真核生物的病毒序列。总的来说,Evo 从 3000 亿个核苷酸的序列信息中学习。

图示:对原核生物的基因组基础模子进行预进修。(开端:论文)

从分子到基因组的序列建模和野心

为了测试 Evo,商榷东说念主员要求它揣度突变对卵白质性能的影响。这些常识对于泄露 DNA 「故障」若何导致疾病以及野心新药颠倒蹙迫。

商榷小组通过将 Evo 的揣度与其他科学家在细菌细胞中诱发同样突变的已发表执行进行比拟,来检查 Evo 的准确度。Evo 胜过之前从 DNA 序列数据推断突变效应的东说念主工智能模子;其责任后果与其他依赖卵白质序列的 AI 模子一样好。

像 ChatGPT 这么的 AI 模子如斯有用的一个原因是它们不错创建新实质。「咱们念念阐扬咱们的模子有这种才调,」Hie 说。因此,他的团队让 Evo 野心新版块的 CRISPR 基因组剪辑器。这项任务很有挑战性,因为 CRISPR 包括两种必须协同责任的组件:DNA 切片 Cas 卵白和将酶计议到要剪辑的基因组位置的 RNA 分子。

Evo 率先商榷了 70,000 多个编码 Cas 卵白过甚伴侣 RNA 的细菌 DNA 序列。然后,该模子野心了数百万个分子的潜在版块。商榷东说念主员挑选了 11 个最有前途的 Cas9 变体,并在执行室中合成了这些卵白质。

商榷东说念主员发现,在试管执行中,Evo 野心的 Cas9 酶中最好的一种,在切割 DNA 方面与交易版块的卵白质一样好。为了更正 Cas 卵白,科学家们传统上一直在寻找具有更灵验酶版块的细菌。

图示:对 CRISPR-Cas 序列进行微调不错杀青卵白质-RNA 复合物的生成野心。(开端:论文)

Evo 还擅长多模态生成任务,团队通过生成合成的 CRISPR-Cas 分子复合物和转座系统阐扬了这少许。商榷东说念主员执行考据了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性,这是使用言语模子进行卵白质-RNA 和卵白质-DNA 协同野心的第一个实例。

图示:对 IS200/IS605 序列进行微调不错杀青可转座生物系统的生成野心。(开端:论文)

Hie 说,有了 Evo,「咱们不消恭候进化来创造新的 Cas9。」关连词,和好多 LLM 一样,Evo 也「产生了幻觉」,冷落了莫得契机起作用的 Cas9。Hie 说,尽管产生了幻觉,但 AI 在寻找新分子聘用方面仍然比「蛮力筛选或立时测度」要好。

在 Hie 所说的商榷中「最具未来感和最狂放」的部分,商榷东说念主员要求 Evo 生成富余长的 DNA 序列算作细菌的基因组。他们发现,这些模拟基因组佩带了细胞所需的好多基因,但短少其他必需基因。不外,Hie 以为,这些结束可能是迈向 AI 野心的合成基因组的一步。

图示:Evo 了解突变对不同细菌和噬菌体基因组的生物体稳健性的影响。(开端:论文)

总体而言,商榷东说念主员论说了 DNA 的缩放定律,补充了当然言语和视觉中的访佛不雅察结束。

Evo 历程 270 万个原核生物和噬菌体基因组的进修,展示了跨 DNA、RNA 和卵白质模态的零样本函数揣度,其性能可与特定领域的言语模子相忘形,致使优于特定领域的言语模子。

基础模子很蹙迫,执行室考据颠倒有劲

基础模子很蹙迫,因为「它们增强了咱们泄露和形色基因组的才调」,未参与这项商榷的好意思国石溪大学(Stony Brook University)计较生物学家 Ramana Davuluri 说。「我以为这是卓越现存模子的一大步。」

纽约市非渔利组织 Tatta Bio 的计较生物学家 Yunha Hwang 说,这项商榷之是以引东说念主戒备的一个原因是,商榷东说念主员在执行上证据了该模子的揣度。Tatta Bio 专注于更正基因组 AI 模子。

「八成进行执行室考据颠倒有劲,」未参与这项商榷的 Hwang 说。德克萨斯大学 MD 安德森癌症中心的统计学家 Chong Wu 补充说,Evo 从中学到的无数数据也使这项商榷一鸣惊人。他说,模子接收的信息越多,它就越可靠。

AI 的大部分商榷责任王人是在公司机要进行的。但商榷东说念主员已公开荒布 Evo,以便其他商榷东说念主员不错使用它,而 Hie 暗示,该团队莫得谋略将其发明交易化。「现在,我将其视为一个商榷神情。」

对于好意思国 Arc 商榷所(Arc Institute)

图示:Evo 团队(Arc Institute)。

Arc 总部位于加利福尼亚州帕洛阿尔托,是一家非渔利性商榷机构,其缔造的初志是投诚好多蹙迫的科学神情王人不错通过新的组织时势来杀青。Arc 是与斯坦福大学、加州大学旧金山分校和加州大学伯克利分校融合运营的。

Arc 为科学家提供无附加条款的多年期资金,这么他们就不消恳求外部资助,并投资于执行和计较时期器用的快速开荒。

Arc 的商榷东说念主员不错以个东说念主身份跨学科融合商榷复杂疾病,包括癌症、神经退行性疾病和免疫功能谢绝。

Arc 的终极指标是加快科学跨越,了解疾病的压根原因,并收缩发现与对患者的影响之间的差距。

机构官网:https://arcinstitute.org/

参考实质:

https://www.science.org/content/article/meet-evo-dna-trained-ai-creates-genomes-scratch

https://www.science.org/doi/10.1126/science.adt3007

https://endpts.com/arc-institute-debuts-ai-model-evo-makes-new-crispr-systems/国产 视频