麻省理工学院的研究人员正在使用人工智能来设计超越自然界的新蛋白质。他们开发了机器学习算法,可以生成具有特定结构特征的蛋白质,这些蛋白质可用于制造具有某些机械性能(如刚度或弹性)的材料。这种受生物启发的材料有可能取代由石油或陶瓷制成的材料,但碳足迹要小得多。
麻省理工学院、麻省理工学院-IBM 沃森人工智能实验室和塔夫茨大学的研究人员采用了一种生成模型,它与 DALL-E 2 等人工智能系统中使用的机器学习模型架构类型相同。但不是用它来生成现实的来自自然语言提示的图像,就像 DALL-E 2 所做的那样,他们调整了模型架构,因此它可以预测实现特定结构目标的蛋白质的氨基酸序列。
在《化学》杂志上的一篇论文中,研究人员展示了这些模型如何生成逼真而又新颖的蛋白质。资深作者、Jerry McAfee 工程教授、土木与环境工程和机械工程教授 Markus Buehler 说,这些模型学习控制蛋白质形成方式的生化关系,可以产生新的蛋白质,从而实现独特的应用。
例如,该工具可用于开发以蛋白质为灵感的食品涂层,它可以使农产品保鲜时间更长,同时对人类食用安全。他补充说,这些模型可以在几天内生成数百万种蛋白质,从而迅速为科学家提供一系列可供探索的新想法。
“当你考虑设计大自然尚未发现的蛋白质时,它是一个巨大的设计空间,你不能仅仅用铅笔和纸来整理它。你必须弄清楚生命的语言,氨基酸由 DNA 编码然后聚集在一起形成蛋白质结构的方式。在我们进行深度学习之前,我们真的无法做到这一点,”Buehler 说,他也是麻省理工学院-IBM 沃森人工智能实验室的成员。
与 Buehler 一起参与这篇论文的还有主要作者 Bo Ni,他是 Buehler 原子和分子力学实验室的博士后;和塔夫茨大学斯特恩家族工程学教授兼生物工程学教授大卫·卡普兰 (David Kaplan)。
为任务调整新工具
蛋白质由氨基酸链形成,以 3D 模式折叠在一起。氨基酸的序列决定了蛋白质的机械特性。虽然科学家已经确定了通过进化产生的数千种蛋白质,但他们估计仍有大量氨基酸序列未被发现。
为了简化蛋白质发现,研究人员最近开发了深度学习模型,可以预测一组氨基酸序列的蛋白质 3D 结构。但相反的问题——预测满足设计目标的氨基酸结构序列——已被证明更具挑战性。
机器学习的新出现使 Buehler 和他的同事能够解决这个棘手的挑战:基于注意力的扩散模型。
Buehler 说,基于注意力的模型可以学习非常远距离的关系,这是开发蛋白质的关键,因为长氨基酸序列中的一个突变可以成就或破坏整个设计。扩散模型通过一个过程学习生成新数据,该过程涉及向训练数据添加噪声,然后学习通过消除噪声来恢复数据。在生成高质量、逼真的数据方面,它们通常比其他模型更有效,这些数据可以被调节以满足一组目标,从而满足设计需求。
研究人员使用这种架构构建了两个机器学习模型,可以预测各种新的氨基酸序列,这些氨基酸序列形成满足结构设计目标的蛋白质。
“在生物医学行业,你可能不想要一种完全未知的蛋白质,因为你不知道它的特性。但在某些应用中,您可能需要一种全新的蛋白质,它与自然界中发现的蛋白质相似,但功能有所不同。我们可以用这些模型生成一个频谱,我们通过调整某些旋钮来控制它,”Buehler 说。
氨基酸的常见折叠模式(称为二级结构)会产生不同的机械性能。例如,具有 α 螺旋结构的蛋白质产生弹性材料,而具有 β 折叠结构的蛋白质产生刚性材料。结合 alpha 螺旋和 beta 折叠可以创造出有弹性和坚固的材料,如丝绸。
研究人员开发了两种模型,一种在蛋白质的整体结构特性上起作用,另一种在氨基酸水平上起作用。两种模型都通过组合这些氨基酸结构来产生蛋白质。对于对整体结构特性进行操作的模型,用户输入所需百分比的不同结构(例如,40% 的 alpha 螺旋和 60% 的 beta 折叠)。然后模型生成满足这些目标的序列。对于第二个模型,科学家还指定了氨基酸结构的顺序,这提供了更细粒度的控制。
这些模型与预测蛋白质折叠的算法相关联,研究人员使用该算法来确定蛋白质的 3D 结构。然后他们计算其结果属性并根据设计规范检查这些属性。
逼真又新颖的设计
他们通过将新蛋白质与具有相似结构特性的已知蛋白质进行比较来测试他们的模型。许多与现有的氨基酸序列有一些重叠,在大多数情况下大约有 50% 到 60%,但也有一些全新的序列。Buehler 补充说,相似程度表明许多生成的蛋白质是可合成的。
为了确保预测的蛋白质是合理的,研究人员试图通过输入物理上不可能的设计目标来欺骗模型。令他们印象深刻的是,模型没有生成不可能的蛋白质,而是生成了最接近的可合成解决方案。
“学习算法可以找出自然界中隐藏的关系。这让我们有信心说,我们的模型产生的任何结果都很可能是现实的,”Ni 说。
接下来,研究人员计划通过在实验室中制作它们来实验验证一些新的蛋白质设计。他们还希望继续扩充和完善模型,以便开发出满足更多标准(例如生物学功能)的氨基酸序列。
“对于我们感兴趣的应用,如可持续性、医药、食品、健康和材料设计,我们需要超越自然界。这是一种新的设计工具,我们可以使用它来创建潜在的解决方案,这些解决方案可能会帮助我们解决我们面临的一些真正紧迫的社会问题,”Buehler 说。
“除了它们在活细胞中的天然作用外,蛋白质在从生物药物到功能材料的技术应用中也越来越发挥关键作用。在这种情况下,一个关键的挑战是设计具有适合特定应用的所需特性的蛋白质序列。生成式机器学习方法,包括利用扩散模型的方法,最近已成为该领域的强大工具,”未参与这项研究的剑桥大学物理化学和生物物理学教授 Tuomas Knowles 说。“Buehler 及其同事通过提供一种允许定制设计蛋白质的二级结构的设计方法,证明了这一领域的重要进展。这是一个令人兴奋的进步,对许多潜在领域都有影响,
“这项特别的工作很吸引人,因为它正在研究大多数不存在的新蛋白质的产生,然后它会从基于力学的方向研究它们的特征,”William J. Brown 机械学教授 Philip LeDuc 补充道。卡内基梅隆大学的工程学,他也没有参与这项工作。“我个人一直对创造不存在的分子的想法着迷,这些分子具有我们甚至还没有想象过的功能。这是朝着这个方向迈出的巨大一步。”
这项研究部分得到了麻省理工学院-IBM 沃森人工智能实验室、美国农业部、美国能源部、陆军研究办公室、美国国立卫生研究院和海军研究办公室的支持。
暂无评论内容