acm-header
登录

ACM通信

评论文章

合成生物学的人工智能


彩色灯光的抽象形状

信贷:Wacomka

在过去的二十年里,生物学发生了巨大的变化,使生物系统的有效工程成为可能。基因革命,17它提供了对细胞遗传密码(DNA)进行排序的能力,是这一巨大变化的主要驱动因素。这项基因组革命带来的最新发现和工具之一是使用基于crispr的工具在体内精确编辑DNA的能力。11遗传密码的高级表现,如蛋白质的产生,被称为表型(如图图1以及随之而来的表格).高通量表型数据与精确的DNA编辑的结合提供了一个独特的机会,将底层代码的变化与表型联系起来。

f1.jpg
图1。组学数据体现了细胞遗传密码(DNA)的高水平表现。

ut1.jpg
表格生物学中经常使用的数据集/数据类型(不是一个全面的列表)。

回到顶部

关键的见解

ins01.gif

合成生物学(synbio)的目的是设计符合规范的生物系统3.(例如,产生所需数量的生物燃料的细胞,或以特定方式对外界刺激作出反应的细胞)。为此,合成生物学家利用工程设计原则,利用工程的可预测性来控制复杂的生物系统。这些工程原则包括标准化的遗传部分,以及设计-构建-测试-学习(DBTL)周期,迭代地用于实现期望的结果。synbio DBTL循环将这一学科预期的四个阶段适应为:

  1. 设计:假设一个DNA序列或一组细胞操作可以达到预期的设计目标。
  2. 构建:在生物系统上实现设计步骤。这主要涉及到DNA片段的合成及其成功转化为细胞。
  3. 测试:生成数据来检查所测量的表型达到预期目标的紧密程度,并评估任何脱靶或不可预见的副作用的影响。
  4. 学习:利用测试数据来学习比随机搜索更有效地推动循环达到预期目标的原则。这通常包括对由不可预见的脱靶效应引起的故障的诊断。这里可以使用人工智能(AI)来通知下一组设计,从而减少实现预期结果所需的DBTL迭代次数。

更具体地说,合成生物通常涉及基因组层面的操作,以推动细胞创造特定产品或以特定方式行为。

我们是一群AI从业者,希望在各种应用中适应和应用AI原则到synbio。在本文中,我们试图为其他AI从业者提供该领域潜力的概述,一些初步成功,以及将AI技术应用于合成生物领域时面临的主要挑战。我们的目标是激励人工智能从业者应对这些挑战,并促进对未来社会产生重大影响的学科的参与。当大型数据集和技术爱好者见面时,人工智能已经取得了重大突破。图像和自然语言处理就是很好的例子。我们相信,生物学,特别是synbio,为这两个领域的突破提供了无与伦比的机会。

回到顶部

Synbio的潜力

Synbio将对世界上的每一个活动领域产生变革性的影响:食品、能源、气候、医药和材料29(见图2).Synbio已经生产出了胰岛素,而不需要牺牲猪的胰腺(在之前的阶段,作为基因工程)、合成皮革、用从未见过蜘蛛的蜘蛛丝制成的派克衣、抗疟和抗癌药物、尝起来像肉的无肉汉堡、可再生生物燃料、不含啤酒花的啤酒花味啤酒、灭绝的花朵的气味、用于化妆品的人造人类胶原蛋白,以及消除携带登革热病毒的蚊子的基因驱动。许多人认为这只是冰山一角,因为设计生物的能力似乎提供了无限的可能性,而且在这一领域,公共和私人的投资水平都在不断增长8(见图3).

f2.jpg
图2。Synbio可能会影响世界上的每一个活动领域。

此外,随着人工智能进入第三波浪潮,专注于将环境融入模型,其影响syn-bio的潜力增加。众所周知,生物体的基因型与其说是表现型的蓝图,不如说是复杂的、相互关联的、动态系统的初始条件。生物学家花了几十年的时间来构建和管理一套大型的属性,如调节、关联、变化速度和功能,来描述这个复杂的、动态的系统。其他资源,如基因网络、已知的功能关联、蛋白质-蛋白质相互作用、蛋白质-代谢物相互作用,以及转录、翻译和相互作用的知识驱动动态模型,提供了丰富的资源集,以丰富具有上下文的AI模型。模型的可解释性对于揭示新的设计原则也是至关重要的。这些模型为生物学家提供了一个机会,来回答关于生物系统的更复杂的问题,并建立综合的、可解释的模型来加速发现。知识和资源的增长可以从synbio出版物的数量以及synbio的商业机会(图3).

f3.jpg
图3。学术(a)和商业(b)领域的显著增长为人工智能在合成生物领域的应用提供了丰富的信息、数据和环境来源。8

回到顶部

AI及其对Synbio的影响

与人工智能对合成生物领域的潜在影响相比,它在合成生物领域的影响有限。我们已经看到了人工智能的成功应用,但它们仍然局限于特定的数据集和研究问题。目前的挑战仍然是,这些方法对更广泛的应用程序和其他数据集的推广程度。数据挖掘、统计和机械建模是目前该领域计算生物学和生物信息学的主要驱动因素,而它们与AI/机器学习(ML)之间的界限往往是模糊的。例如,聚类是一种数据挖掘技术,可以识别基因表达数据中的模式和结构,这些模式可以表明工程修改是否会导致细胞毒性结果。这些聚类技术也可以作为无监督学习模型,在无标记的数据集中找到结构。随着更大的数据集成为一种习惯,这些经典技术和开发中的新AI/ML方法将在synbio的未来发挥更大的作用和影响。转录组数据量每7个月翻一番,蛋白质组学和代谢组学的高通量工作流程越来越多。5此外,逐步的自动化,35通过微流控芯片实现小型化1424实验室工作预示着,在未来,数据处理和分析将成为合成生物的主要生产力乘数。DARPA的协同发现与设计(SD2, 2018-2021)计划专注于构建AI模型,以解决这一差距。这一点在该领域最先进的一些公司中也很明显(例如Amyris、Zymergen或Ginkgo Bioworks)。AI和synbio在以下几个方面有交集:将现有AI/ML应用于现有数据集;生成新的数据集(例如,即将到来的NIH Bridge2AI);并创造新的AI/ML技术来应用于新的或现有的数据。虽然SD2在最后一类中做了一些工作,但还有很多工作和潜力。

人工智能可以帮助克服synbio的一个基本挑战,包括预测生物工程方法对宿主和环境的影响。15没有能力预测生物工程的结果,synbio的目标是工程细胞的规格4(即逆设计)只能通过艰苦的试错来实现。人工智能提供了一个利用公开数据和实验数据来预测对宿主和环境的影响的机会。

为细胞编程设计基因结构。许多synbio的努力都集中在基因结构/电路的工程上,3.这与设计电子电路有很大的不同。基因结构被设计用来引发细胞的特定反应,就像电子电路被设计用来控制电子系统一样。虽然我们可以合成DNA并将其转移到细胞中,但这种转移对动态的、有生命的有机体的细胞机制的整体影响尚不完全清楚,目前也无法预测。相比之下,电气工程师拥有“静态”设计电子电路板的工具,以执行各种功能,而不会以有害的方式影响电路板。活细胞的物理和生物学背后的规则是复杂的,交织在一起的,需要巨大的努力来发现。总而言之:

  • 电路板设计
  • 已知的部件集,以实现所需的电路输出。
  • 印刷电路板对门/电路的影响可以忽略不计,反之亦然。
  • 零件和电路板的定性和定量模型可以稳健性地预测电路性能。
  • 活细胞设计
  • 基因结构被设计用来实现细胞的某种反应。
  • 活细胞对结构的影响不可忽视,反之亦然。
  • 预测性能的模型必须同时考虑主机和构造动态。

人工智能技术结合了已知的生物物理、机器学习和强化学习模型,以有效预测构造对宿主的影响,反之亦然,但仍有很大的改进空间。例如,对于机器辅助基因电路的设计,多种多样

人工智能技术已被应用。它们包括专家系统、多智能体系统、基于约束的推理、启发式搜索、优化和机器学习。230.38基于序列的模型和图卷积网络在工程生物系统领域也取得了进展。Factor-graph神经网络27已被用于将生物知识纳入深度学习模型。图卷积网络已被用于预测蛋白质的功能139来自蛋白质-蛋白质相互作用网络。基于序列的卷积和循环神经网络模型已被用于识别蛋白质的潜在结合位点,1基因的表达,36以及设计新的生物结构。12人工智能最有用的一些应用将是开发综合模型,这将减少需要进行(或测试)的实验(或设计)的数量。

代谢工程。在代谢工程中,人工智能几乎被应用到生物工程过程的所有阶段。222331例如,人工神经网络已被用于预测翻译起始位点、注释蛋白功能、预测合成途径、优化多个外源基因表达水平、预测调控元件强度、预测质粒表达、优化营养浓度和发酵条件、预测酶动力学参数、了解基因型-表型关联、预测CRISPR指导效果等。聚类已被用于发现次生代谢物生物合成基因聚类,并确定催化特定反应的酶。集合方法已被用于预测途径动态,最佳生长温度,并找到在定向进化方法中赋予更高适应性的蛋白质。支持向量机已被用于优化核糖体结合位点序列和预测CRISPR引导rna的活性。人工智能应用最有希望的代谢工程阶段是:过程放大,这是该领域的一个重大瓶颈,637以及下游处理(例如,系统地从发酵液中提取所产生的分子)。

实验自动化。在帮助自动化实验室工作和推荐实验设计方面,人工智能的影响已经远远超出了DBTL周期的“学习”阶段。自动化正慢慢成为一种关键实践,因为它是获得训练AI算法所需的高质量、大容量、低偏差数据的最可靠方式,并使可预测的生物工程成为可能。4自动化提供了将复杂协议快速转移和扩展到其他实验室的机会。例如,液体处理机器人站35形成生物铸造厂和云实验室的骨干。20.这些铸造厂已经看到他们的能力革命性的机器人和规划算法,使快速迭代通过DBTL周期。语义网络、本体和模式彻底改变了设计和协议的表示、通信和交换。这些工具支持快速实验,并以结构化、可查询的格式生成更多的数据。在一个大多数内容要么丢失,要么被人工记录在实验室笔记本中的领域,人工智能的前景迫使该领域发生重大变化,以减少生成数据的障碍。

微流体1424代表了宏观液体处理的替代方案,提供更高的通量,更少的试剂消耗,更便宜的结垢。事实上,微流体可能是实现自动驾驶实验室的关键技术,19该公司承诺通过使用人工智能来增强自动化实验平台,从而大大加快发现过程。自动驾驶实验室涉及完全自动化的DBTL周期,其中AI算法根据之前的实验结果进行假设,积极寻找有希望的实验程序。因此,它们可能代表人工智能研究人员在合成生物领域的最大机会。虽然自动DBTL回路已经在液体处理机器人工作站中得到了验证,但微流控芯片提供的可扩展性、高通量能力和制造灵活性可能会提供最终的技术飞跃,使科学家人工智能成为现实。

回到顶部

挑战

人工智能已经开始进入各种合成生物应用领域,但主要的技术和社会学障碍继续分隔这两个领域。

技术挑战。将人工智能应用于合成生物的技术挑战(见图4)是数据分散在不同的模式中,难以组合、非结构化,而且往往缺乏收集它们的背景;模型需要的数据比通常在单个实验中收集的数据多得多,而且缺乏可解释性和不确定性量化;而且,在更大的设计任务中,也没有有效评估模型性能的指标或标准。此外,实验通常被设计为只探索积极的结果,使模型的评估复杂化或偏倚。

f4.jpg
图4。将人工智能技术与合成生物应用整合的挑战。

数据的挑战。缺乏合适的数据集仍然是将人工智能与合成生物学结合的第一个主要障碍。将人工智能应用于合成生物学需要大量标记的、精心策划的、高质量的、情境丰富的个体实验数据。虽然社区在建立数据库方面取得了进展28由于含有各种各样的生物序列(甚至全基因组)和表型,标记数据非常缺乏。通过“标记数据”,我们指的是表型数据映射到测量,捕捉其生物功能或细胞反应。正是这种测量和标签的存在,将推动AI/ML和synbio解决方案的成熟,以匹敌人类的能力,就像它在其他领域所做的那样。

缺乏对数据工程的投资是缺乏合适的数据集的部分原因。人工智能技术的进步往往掩盖了支持和确保其成功的计算基础设施需求。AI社区将这种规范的基础设施称为金字塔的需求32(见图5),数据工程是其中的重要组成部分。数据工程封装了实验规划、数据收集、结构化、访问和探索的步骤。成功的AI应用程序故事包含标准化、一致和可复制的数据工程步骤。虽然我们现在可以以前所未有的规模和细节收集生物数据,5这些数据通常不能立即适用于机器学习。在采用全社区标准来存储和共享测量数据、实验条件和其他元数据方面仍存在许多障碍,这些标准将使它们更易于接受AI技术。1328需要进行严格的形式化工作并达成一致意见,以使这些标准迅速被采用,并促进数据质量评估的通用指标。简而言之,AI模型需要在所有实验中进行一致和可比的测量,这延长了实验时间线。这一要求为已经遵循复杂协议进行科学发现的实验人员增加了大量的开销。因此,往往牺牲了数据收集的长期需要,以满足这些项目经常面临的紧迫期限。

f5.jpg
图5。一个规范的AI/ML基础设施可以支持合成生物研究。中期往往是一个关注的焦点,但基础是至关重要的,需要大量的资源投资。

这种情况通常导致稀疏的数据收集,只表示构成组学数据栈的多层中的一小部分(如图1).在这些情况下,数据表示对集成这些竖井数据集以进行全面建模的能力有重大影响。今天,在不同的行业垂直领域都花费了大量的精力来执行数据清理、模式对齐以及提取、转换和加载操作(ETL),以收集不受控制的数字数据并将其准备为适合分析的形式。这些任务占用了数据科学家近50%到80%的时间,限制了他们提取见解的能力。26处理大量的数据类型(数据多模态)是合成生物学研究人员面临的一个挑战,与数据量相比,预处理活动的复杂性随着数据多样性的增加而急剧增加。

建模/算法的挑战。许多推动当前AI进步的流行算法(例如,在计算机视觉和自然语言处理领域)在分析组学数据时并不健壮。这些模型的传统应用在应用于特定实验中收集的数据时,往往会受到“维度诅咒”的困扰图6).例如,在特定条件下,一个实验人员可以为一个生物体提供超过12,000个测量(维度)的基因组学、转录组学和蛋白质组学数据。对于这样一个实验,被标记的实例数(例如,成功或失败)通常最多只有几十到数百个。对于这些高维数据类型,系统的动态(时间分辨率)很少被捕获。这些测量差距使得对复杂的动力系统的驱动推断成为一个重大的挑战。

f6.jpg
图6。维度的诅咒。

组学数据与其他数据模式(如顺序数据、文本数据和基于网络的数据)既有相似之处,也有不同之处,但经典方法并不总是适用。共享数据特征包括位置编码和依赖关系,以及复杂的交互模式。然而,有一些基本的差异,如:他们的潜在表征,有意义的分析所需的背景,以及跨模式的相关规范化来进行生物学上有意义的比较。因此,很难找到稳健的生成模型(类似于高斯模型或随机块模型)18),可以准确地描述组学数据。此外,生物序列和系统代表了复杂的生物功能编码,但很少有系统的方法来解释这些编码,以类似的方式,我们解释语义或上下文从书面文本。这些不同的特征使得通过数据探索来提取见解、生成和验证假设具有挑战性。工程生物学涉及到学习黑盒系统的挑战,在那里我们可以观察输入和输出,但我们对系统内部工作的了解有限。考虑到这些生物系统运行在组合的大参数空间中,有策略和有效地设计实验来探索和询问生物系统的假设生成和验证的AI解决方案在这个空间中呈现了巨大的需求和机会。19

最后,许多流行的AI算法解决方案没有明确地考虑不确定性,也没有显示出在输入扰动下控制误差的鲁棒机制。考虑到我们试图设计的生物系统中固有的随机性和噪声,这一基本差距在合成生物空间中尤其重要。

指标/评估的挑战。基于预测和准确性的标准AI评价指标不足以应用于合成生物。如ℝ等指标2因为回归模型或基于分类的模型的准确性不能解释我们试图建模的潜在生物系统的复杂性。在这一领域中,量化模型阐明生物系统内部工作机制的程度和捕获现有领域知识的额外度量也同样重要。为此,融入可解释性和透明度原则的人工智能解决方案是支持迭代和跨学科研究的关键。此外,适当量化不确定性的能力需要创造性地开发新的指标来衡量这些方法的有效性。

还需要适当的实验设计指标。对synbio中的模型进行评估和验证有时需要进行额外的实验,需要额外的资源。少量的错误分类或小错误可能会对研究目标产生重大影响。这些成本应集成到人工智能模型的目标函数或评估中,以反映误分类对现实世界的影响。

社会学的挑战。在利用AI造福synbio方面,社会学障碍可能比技术障碍更具挑战性(反之亦然)。我们的印象是,许多障碍源于所涉及的非常不同的文化之间缺乏协调和理解。虽然有一些举措已经开始克服这些挑战,但有趣的是,学术界和工业界仍然存在一些持久的问题。

社会学挑战的根源。这些挑战来自于需要融合两个截然不同的群体的专业知识:计算科学家和实验科学家。

计算科学家和实验室科学家接受的训练非常不同图7).经过训练的计算科学家倾向于专注于抽象,热衷于自动化和计算效率以及颠覆性的方法。他们自然倾向于任务专门化,并寻找方法将重复的任务交给自动化的计算机系统。实验室科学家都很实际,他们接受过具体观察的训练,更喜欢通过可解释的分析来准确描述实验的具体结果。

f7.jpg
图7。计算科学家和实验室科学家来自不同的研究文化,他们必须学会一起工作,才能充分受益于人工智能和合成生物的结合。

这两个世界有着不同的文化,这不仅反映在他们如何解决问题,而且也反映在他们认为哪些问题值得解决。例如,致力于建设支持一般性研究的基础设施与致力于研究特定研究问题的努力之间存在持续的紧张关系。计算科学家倾向于提供可用于各种项目的可靠基础设施(例如,应变构建的自动化管道或收集所有相关数据的集中数据库);然而,实验科学家倾向于关注最终目标(例如,以具有商业意义的数量生产所需的分子),即使这意味着依赖于只适用于特定情况的定制方法。在这方面,计算科学家喜欢开发数学模型来解释和预测生物系统的行为,而实验室科学家更喜欢产生定性的假设,并通过实验尽快对它们进行测试(至少在研究微生物时是这样,因为这些实验可以很快完成:3-5天)。此外,计算科学家往往只能对一些高远的、不切实际的目标感到兴奋和兴奋,比如生物工程生物体来改造火星,编写一个能够创造DNA来满足期望规格的生命编译器,重新工程树木以采用期望的形状,在现实生活中使用生物工程龙,或者用人工智能取代科学家。研究人员认为这些崇高的目标是“炒作”,因为之前的例子中,计算类型的承诺过高而兑现不足,他们宁愿只考虑使用当前的技术状态可以实现的目标。

解决社会的挑战。解决这些社会学障碍的方法是欣赏跨学科团队和需求。诚然,在公司实现这种包容性的环境可能比在学术环境中更容易(在那里,团队一起沉没或成功),在学术环境中(研究生或博士后追求发表几篇第一作者论文来宣称成功,而不需要与其他学科融合)。

实现这种整合的一种可能途径是创建交叉培训课程,让实验室科学家接受编程和机器学习的培训,让计算科学家接受实验工作的培训。最终,两个社区都带来了一些有价值、独特和必要的东西。这一点对每个人来说都是显而易见的,越早,synbio就能进步得越快。从长远来看,我们需要将生物和生物工程的教学与自动化和数学相结合的大学课程。虽然目前有几项计划正在进行中,但它们只是所需劳动力的九牛一毛。

回到顶部

观点和机会

人工智能可以从根本上增强synbio,并通过打开工程阶段空间的第三个轴:物理、化学和生物,使其全面影响。最明显的是,人工智能可以在生物工程结果中产生准确的预测,从而实现有效的逆向设计。此外,人工智能还可以支持科学家设计实验,并选择何时何地采样,而这一问题目前需要训练有素的专家来解决。人工智能还可以支持自动搜索、高吞吐量分析和从大型数据源(包括历史实验数据、在线数据库、本体和其他技术材料)生成假设。人工智能可以通过更快地探索大型设计空间和推荐有趣的、“跳出盒子”的假设来增加synbio领域专家的知识。Synbio为目前的AI解决方案提出了一些独特的挑战,如果解决这些挑战,将导致Synbio和AI领域的根本进步。设计生物系统本质上依赖于控制系统的能力;这是理解支配这个系统的基本定律的终极考验。因此,能够实现合成生物研究的人工智能解决方案必须能够描述导致最佳预测的机制。

尽管最近基于深度学习架构的人工智能技术改变了我们处理特征工程和模式发现的视角,但就推理和解释其学习机制的能力而言,它们仍处于起步阶段。因此,包含因果推理、可解释性、鲁棒性和不确定性估计要求的AI解决方案在这一跨学科领域具有巨大的潜在影响。生物系统的复杂性使得纯粹基于蛮力关联发现的人工智能解决方案将无法有效地描述系统的内在特征。将物理和机械模型与数据驱动模型顺利地结合在一起的一类新算法是一个令人兴奋的新研究方向。我们在气候科学和计算化学方面看到了一些初步的积极成果,希望在生物系统研究方面也能取得类似的进展。1625

Synbio还可以激发新的人工智能方法,因为它提供了修改生物系统的工具。让我们不要忘记,生物学启发了诸如神经网络、遗传算法、强化学习、计算机视觉和群体机器人等人工智能的基本要素。如果生物学不能提供进一步的灵感,那才怪呢。事实上,有很多生物现象都可以用数字技术来模拟。例如,基因调控涉及到一个精巧的相互作用网络,它不仅允许细胞感知环境并对环境做出反应,还可以保持细胞的存活和稳定。保持内稳态(由生命系统维持的内部、物理和化学条件的稳定状态)涉及到在适当的时间、适当的数量产生适当的细胞成分,感知内部梯度,并小心地调节细胞与环境的交换。我们能理解并利用这种能力来生产真正自我调节的人工智能或机器人吗?另一个例子涉及紧急属性(即系统显示的属性,但系统的组成部分不显示的属性)。例如,蚁群作为一个个体的行为和反应比其各部分(蚂蚁)的总和复杂得多。类似地,意识(即对内部或外部存在的感知或意识)是一种来自物理基础(例如,神经元)的定性特征。 Swarm robots that self-organize and collectively build structures already exist. Could we use a general theory of emergence to create hybrids of robots and biological systems? Could we create consciousness from a very different physical substrate (for example, transistors instead of neurons)? A final possible example involves self-healing and replication: even the least sophisticated example of life exhibits the ability to self-repair and reproduce. Could we understand the quandaries of this phenomenon to produce self-repairing and replicating AIs?

虽然这种生物模拟以前就被考虑过,但“合成生物”的美妙之处在于为我们提供了“修补”生物系统的能力,以测试生物模拟的模型和基本原则。例如,我们现在可以在基因组规模上修补细胞基因调控来修改它,并测试我们认为是什么导致了它非凡的韧性和适应性。或者我们可以对蚂蚁进行生物工程,测试随后会出现什么样的蚁群行为,以及它是如何影响其存活率的。或者我们可以改变细胞的自我修复和自我复制机制,并测试长期进化对其竞争能力的影响。

此外,在细胞建模中,我们非常接近于很好地理解所涉及的生物机制。虽然了解神经网络如何检测眼睛的形状,并不能揭示大脑如何做同样的事情,但在synbio中却不是这样。机械模型的预测并不完美,21但要产生质量可以接受的结果。将这些机制模型与ML的预测能力相结合,可以帮助弥合两者之间的差距,并提供生物学上的见解,为什么有些ML模型在预测生物行为方面比其他模型更有效。这种洞察力可以引导出新的ML架构和方法。

AI可以帮助synbio, synbio可以帮助AI;但最终是这两种学科在一个持续反馈循环中的相互作用,将创造出我们现在甚至无法理解的可能性。同样地,本杰明·富兰克林也无法想象他对电的发现有一天会使互联网成为可能。

回到顶部

参与

人工智能和合成生物之间的接口是一个新兴的跨学科领域,需要更多的人工智能研究人员来充分发展。你如何参与?我们建议在全社区范围内采取一些战略性措施,以支持人工智能synbio的跨学科研究:

  • 参与并形成支持数据收集和存储标准化的会议,并促进共享与synbio相关的基准数据,用于比较和评估AI解决方案。
  • 人工智能和合成生物工具的民主化和易用性。
  • 支持和请求这两个领域的会议,比如SEED的计算生物学和人工智能研讨会,以及AAAI和合成生物学研讨会。
  • 鉴定与蛋白质结构和CASP挑战相似的典型synbio挑战问题。7

此外,在这些领域的研究有大量的公共资金。来自美国国防部(DoD)和能源部(DoE)的公共投资多年来资助了该领域的研究,从识别新材料的应用到生产生物燃料。美国能源部在生物燃料生产、农业和能源转换应用方面的投资一直处于领先地位。34国防部在合成生物学上投入了大量资金。在该领域的许多国防部项目中,DARPA Living foundry项目通过自动化进一步集中努力。他们成功地将改造生物体的时间和成本降低了10倍。对数据的获取、分析和理解导致了我们对生物学理解的爆炸,使其更容易获得和可预测。另一项努力涉及科学技术优先发展应用研究(ARAP),开发用于军事环境的合成生物学(SBME)能力,由国防部长办公室(OSD)于2017-2019年资助。这一价值4500万美元的三军项目利用了国防部实验室的专业知识,将生物系统用于国防,并为合成生物学提供了长期的基础设施和社区资源。SBME发起了一年一度的国防合成生物学研讨会,这导致了与学术界和工业界在合成生物学方面的进一步合作。通过SBME,每个空军、陆军和海军研究实验室还指导了国际基因工程机器(iGEM)基础iGEM竞赛的团队,使学生能够使用合成生物学解决挑战问题。为了推进2019年12月对synbio的承诺,国防部宣布成立生物技术利益共同体,该利益共同体将加强国防部生物技术研究与开发(R&D)部门和更广泛的生物技术共同体之间的协调、合作和沟通,包括与学术界和工业界的公私伙伴关系。10作为生物技术现代化优先项目的一部分,国防部目前还在投资建立生物工业制造创新研究所,以与工业界和学术界一起扩大生物制造工艺和生物技术的规模。这些服务通过这些新举措继续合作,以推动生物经济满足军事需求。

美国国家科学基金会(NSF)和国家卫生研究院(NIH)也开始确定他们在合成生物方面的倡议。NIH成立了一个synbio联盟,让研究人员确定synbio在疫苗开发、免疫治疗和其他适用于医疗保健应用的研究领域的应用路线图。另一方面,美国国家科学基金会(NSF)正在采取更广泛的方法来理解各种生物网络、计算方法和分子到整个系统的自然或合成微生物群落规则的机械建模,这可能导致对这些生物系统的基本理解。

另一种方法是一个大型的“登月”项目,执行了10-20年,将实验学家、理论家和计算学家聚集在一起,用一个强大的教育组件来教育下一代的实践者。例如,植物是出了名的难以改造,原因有很多,包括它们的长生长周期。一个可能的项目可以通过使植物更有弹性和增加植物吸收的碳量来解决植物工程以减少气候变化。

最后,从药物发现到材料科学,再到食品和饮料等领域的私营企业都在转向synbio来开发下一波产品。Amyris、Conagen、Ginkgo Bioworks和Zymergen等公司已经接受了Living Foundries的理念,将DNA设计进行工程化和自动化,以快速通过设计-构建-测试-学习周期,并让细胞产生或检测感兴趣的项目。

uf1.jpg
观看作者对这部作品的独家讨论通信视频。//www.eqigeno.com/videos/ai-for-synthetic-biology

回到顶部

参考文献

1.Alipanahi, B., Delong, A., Weirauch, M.和Frey, B.通过深度学习预测DNA和rna结合蛋白的序列特异性。自然生物技术33, 8(2015年8月),831-838;https://doi.org/10.1038/nbt.3300

2.Bilitchenko, L., Liu, A.和Densmore, D.合成生物学的尤金语言。方法:酶学(2011), 153 - 172;https://doi.org/10.1016/B978-0-12-385120-8.00007-3

3.Cameron, D., Bashor, C.和Collins, J.合成生物学简史。自然评论微生物学12, 5(2014年4月),381-390;https://doi.org/10.1038/nrmicro3239

4.Carbonell, P., Radivojevic, T.,和Martín, H.合成生物学,机器学习和自动化交叉的机会。合成生物学8, 7(2019年7月),1474-1477;https://doi.org/10.1021/acssynbio.8b00540

5.陈勇,等。自动化的“细胞到多肽”样品制备工作流程,用于高通量、定量的微生物蛋白质组学分析。J.蛋白质组学研究, 10(2019年10月),3752-3761;https://doi.org/10.1021/acs.jproteome.9b00455

6.Chubukov, V., Mukhopadhyay, A., Petzold, C., Keasling, J.,和Martín, H.商品化学品微生物生产的合成和系统生物学。系统生物学与应用(2016年4月),16009;https://doi.org/10.1038/npjsba.2016.9

7.Croll, T., Sammito, M., Kryshtafovych, A.和Read, R. CASP13中基于模板的建模评估。蛋白87, 12(2019年8月),1113-1127;https://doi.org/10.1002/prot.25800

8.累赘,J。了解投资合成生物学的8大科技巨头https://bit.ly/3ItFelL

9.Devopedia。ImageNet, 2019;https://devopedia.org/imagenet

10.迪欧利斯博士,特雷尔博士,和伊曼纽尔博士突破国防部的生物技术瓶颈。卫生安全18, 2 (2020), 139-144;https://doi.org/10.1089/hs.2019.0150

11.Doudna, J.和Charpentier, E.基因组编辑:CRISPR-Cas9基因组工程的新前沿。科学346, 6213(2014年11月),1258096;https://doi.org/10.1126/science.1258096

12.Eastman, P., Shi, J., Ramsundar, B.和Pande, V.用强化学习解决RNA设计问题。计算生物学14, 6(2018年6月),e1006176;https://doi.org/10.1371/journal.pcbi.1006176

13.El Karoui, M., hoyoss - flight, M.和Fletcher, L.合成生物学的未来趋势报告。生物工程与生物技术前沿(2019年8月),175;https://doi.org/10.3389/fbioe.2019.00175

14.Gach, P., Iwai, K., Kim, P., Hillson, N.和Singh, A.合成生物学的液滴微流体。芯片实验室, 20(2017年10月),3388-3400;https://doi.org/10.1039/c7lc00576h

15.合成生物学:从炒作到影响。生物技术趋势31, 3(2013年3月),123-125;https://doi.org/10.1016/j.tibtech.2013.01.018

16.Gaw, N.等人。机器学习和机械模型的集成准确预测胶质母细胞瘤的多参数MRI的细胞密度变化。科学报告9, 1(2019年7月),10063;https://doi.org/10.1038/s41598-019-46296-4

17.基因组工程:下一个基因组革命。自然方法11, 10(2014年10月),1009-1011;https://doi.org/10.1038/nmeth.3113

18.Gupta, S., Dukkipati, A., and Castro, R.受限boltzmann随机块模型:具有属性的网络的生成模型。arXiv(2019年11月)。

19.Häse, F., Roch, L.和Aspuru-Guzik, A.自动驾驶实验室的下一代实验。化学趋势1, 3(2019年3月),282-291。https://doi.org/10.1016/j.trechm.2019.02.007

20.Jessop-Fabre, M.和Sonnenschein, N.提高合成生物学的可重复性。生物工程与生物技术前沿(2019年2月),18;https://doi.org/10.3389/fbioe.2019.00018

21.卡尔,J.,等。全细胞计算模型根据基因型预测表型。单元150, 2(2012年7月),389-401;https://doi.org/10.1016/j.cell.2012.05.044

22.Kim, G., Kim, W., Kim, H., and Lee, S.机器学习在系统代谢工程中的应用。生物技术的最新观点(2019年9月),1 - 9;https://doi.org/10.1016/j.copbio.2019.08.010

23.劳森,C.等。代谢工程中的机器学习:综述。代谢工程6334-60 (2021);https://doi.org/10.1016/j.ymben.2020.10.005

24.Le, K.等。一种利用纳米流体和光电定位技术的新型哺乳动物细胞系开发平台。生物技术进展34, 6(2018年9月),1438-1446;https://doi.org/10.1002/btpr.2690

25.Lessler, J., Azman, A., Grabowski, M., Salje, H., Rodriguez-Barraquer, I.传染病机理和动力学建模的趋势。当前流行病学报告3, 3(2016年7月),212-222;https://doi.org/10.1007/s40471-016-0078-4

26.Lohr, S。对大数据科学家来说,“看门人工作”是洞见的关键障碍。https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html

27.马涛,张亚平,张亚平。基于因子图神经网络的可解释深度学习。arXiv(2019年6月)。

28.莫雷尔,W.等人。实验数据仓库:基于web的生物实验数据存储、共享和可视化软件工具。ACS合成生物学[电子资源, 12(2017年12月),2248-2259。https://doi.org/10.1021/acssynbio.7b00204

29.国家科学院出版社。生物产业化委员会:加速先进化学品制造的路线图,化学科学、技术委员会、生命科学委员会、地球分部、生命研究和国家研究委员会。生物产业化:加速先进化学品生产的路线图(2015);https://doi.org/10.17226/19001

30.Pedersen, M.和Phillips, A.研究活细胞基因工程的编程语言。皇家学会学报,界面6增刊4(2009年8月),S437-50;https://doi.org/10.1098/rsif.2008.0516.focus

31.Presnell, K.和Alper, H.系统代谢工程满足机器学习:数据驱动的代谢工程的新时代。生物技术j . 14, 9(2019年9月),e1800416;https://doi.org/10.1002/biot.201800416

32.罗加蒂,M。AI的需求层次(2017);https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007

33.Shapira, P., Kwon, S.和Youtie, J.追踪合成生物学的出现。科学计量学112, 3(2017年7月),1439-1469;https://doi.org/10.1007/s11192-017-2452-5

34.Si T., Zhao H.美国合成生物学研究项目及路线图研究综述。合成与系统生物技术, 4(2016年12月),258-264;https://doi.org/10.1016/j.synbio.2016.08.003

35.Unthan, S., Radek, A., Wiechert, W., Oldiges, M.和Noack, S.微型试点工厂的生物过程自动化能够快速定量微生物表型。微生物细胞工厂14, 1(2015年12月),216;https://doi.org/10.1186/s12934-015-0216-6

36.Wang, M., Tai, C., Weinan, E., and Wei, L. DeFine:深度卷积神经网络可以准确量化转录因子dna结合的强度,并有助于评估功能性非编码变异。核酸研究46, 11(2018年6月),e69;https://doi.org/10.1093/nar/gky215

37.Wehrs, M., Tanjore, D., Eng, T., Lievense, J., Pray, T.R.,和Mukhopadhyay, A.大规模培养的强健生产微生物工程。趋势微生物27, 6(2019年6月),524-537;doi:10.1016 / j.tim.2019.01.006

38.Yaman, F., Bhatia, S., Adler, A., Densmore, D.和Beal, J.基因调控网络合成生物部件的自动选择。合成生物学1, 8(2012年8月),332-344;https://doi.org/10.1021/sb300032y

39.Zitnik, M.和Leskovec, J.通过多层组织网络预测多细胞功能。生物信息学33, 14(2017年7月),i190-i198;https://doi.org/10.1093/bioinformatics/btx252

回到顶部

作者

穆罕默德伊斯拉米是美国弗吉尼亚州阿灵顿Netrias有限责任公司的首席数据科学家和联合创始人。

亚伦阿德勒他是美国哥伦比亚公司雷声BBN公司的高级科学家。

Rajmonda s卡塞雷斯是美国麻省理工学院林肯实验室的高级技术人员。

约书亚·g·邓恩他是美国马萨诸塞州波士顿Ginkgo Bioworks公司的设计主管。

南希Kelley-Loughnane是美国俄亥俄州赖特·帕特森空军基地空军研究实验室生物材料和加工研究小组组长。

凡妮莎·a·Varaljay他是美国俄亥俄州赖特-帕特森空军研究实验室材料和制造局生物信息学负责人(最近转为711人类性能部门基因组学负责人)。

赫克托耳加西亚马丁他是美国加州埃默里维尔市巴斯克应用数学中心的外部科学成员,是劳伦斯伯克利国家实验室的工作人员科学家,Learn联合领导Agile BioFoundry,联合生物能源研究所的小组领导。

回到顶部

脚注

更多在线信息:要获得更多信息和健壮的参考列表,请参见补充材料http://dl.acm.org/doi/10.1145/3500922


©2022 0001 - 0782/22/5 ACM

如果您不是为了盈利或商业利益而制作或分发本作品的部分或全部,并在第一页注明本通知和完整引用,则允许您免费制作本作品的部分或全部数字或纸质副本,供个人或课堂使用。本作品的组成部分必须由ACM以外的其他人享有版权。信用文摘是允许的。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org或传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2022 ACM股份有限公司


没有发现记录

Baidu
map