发布于: Aug 5, 2022
前言
自 2019 年中国科学院天津工业生物技术研究所(TIBCAS)就开始和亚马逊云科技共同探索如何通过云服务助力 TIBCAS 在菌种计算设计创新,TIBCAS 通过亚马逊云科技提供的多项创新托管服务,尤其是 Serverless 服务和架构优化,极大的简化了行业应用创新与发展的难度,加速了通过数字化能力对合成生物学的推动。
“通过本次与亚马逊云科技的合作,我们构建了第一个适用所有操作类型、任何基因组位点和跨物种的精确、自动化和高通量编辑序列设计的云平台 AutoESD,大大降低了一线科研人员使用工具的门槛。”
– 廖小平, 项目研究员
近日,TIBCAS 生物设计中心平台实验室依托亚马逊云科技强大的无服务器架构,在知名期刊 Nucleic Acids Research 杂志上发表了题为 AutoESD: A web tool for Automatic Editing Sequence Design for genetic manipulation of microorganisms 的文章。
模块化、标准化,是合成生物学区别于传统发酵行业的一个重要标志。在实现真正的自动化与高通量的过程中,除了针对元件工具以外,通过各种软硬件结合,将合成生物学的相关实验流程进行模块化、标准化,也是不可或缺的一环。
开发具有目标新功能的工程生物,是合成生物学中的一大重要研究方向,而要实现对于生命体基因组上的改造,基因编辑工具的使用则必不可少。在不同的实验过程中,一个重要的步骤就是编辑序列设计,关系到最终目标菌种是否能够成功构建。
但目前的编辑序列设计仍然存在以下几种问题:
(1)人工设计,高度依赖研究者自身的经验,存在一定的主观性、偏好性与片面性,设计结果往往千差万别;
(2)计算机辅助设计,虽然能够提高设计的准确性,但单一的工具往往只能覆盖遗传操作的部分环节,用户必须协同使用多种不同的软件工具,这不但增加了用户对工具的学习成本,而且不同软件间的数据交换一般是非标准化的,需要用户对输入输出信息进行手动转换或加工,提高了出错的风险;
(3)合成生物学特别是生物铸造厂(BioFoundry)的高速发展,使高通量的遗传操作成为可能,而目前这种人工或者”半自动化”的编辑序列设计模式,已经无法匹配现有硬件设施的操作通量,亟待升级。在此之前,研究人员已经开发出了各种计算机辅助设计工具。然而,这些工具只是专门针对特定物种、有限的遗传操作类型而开发的。而且往往只局限在于编码序列,而忽略了对于非编码序列(启动子等)的改造需求。
为此,TIBCAS 生物设计中心平台实验室,通过对遗传操作技术的模块化解构与标准化处理,结合亚马逊云科技提供的云计算服务,实现了全流程、自动化的编辑序列设计,开发出云平台 AutoESD。该平台支持多种基于筛选标记的同源重组技术变种,理论上支持所有基因组序列已知的微生物,并可以在单批次任务中处理针对不同目标序列(CDS 或基因间区域)的多种类型的遗传操作(敲除、插入和替换)。
AutoESD
AutoESD 可根据用户上传的目标操作序列、载体、参考基因组等信息,自动实现编辑序列设计供用户下载,并可通过网站进行可视化分析。此外,AutoESD 还提供失败任务原因分析、同源序列脱靶风险评估等功能,用户可以根据这些结果,更改默认的参数,进行优化再设计。
AutoESD 的开发采用了基于云端的无服务器架构,为应用服务提供了天然的高可用性和可靠性,极大的减少了用户的运维管理工作,同时具备高可扩展性,能够随着业务请求自动化进行扩展,在无计算任务时无需预置计算资源,反之可轻松在几分钟内并行处理包含上千个编辑序列设计目标的数百个设计任务,为将来实现快速高效的“设计—构建—测试—学习”合成生物学工程循环奠定了基础。
Serverless
亚马逊云科技 Serverless 服务也为业务应用提供了更多的可能性。Serverless 服务轻量化且易于使用,与生物工程真实的业务场景结合,能更便捷的实现复杂的工作流编排和异常处理、轻量化且足够弹性的算力需求、能够进行模块化封装和复用的组件等需求。
- Amazon Step Functions 能够帮助工程师更好的管理序列设计工作流,以及处理工作流中复杂的任务依赖关系,自动化的调度串行、并行任务到不同的计算资源,也能够根据任务结果进行异常状态处理,如邮件告警和任务重试,基于工作流的理念 AutoESD 做了任务隔离,允许开发人员对每个设计任务进行可视化。
- Amazon Lambda 提供了更细粒度、更敏捷的计算资源。同时,通过Lambda Layer封装了不同的生物学计算模块,允许开发者对不同功能、版本的生物学模块进行复用,缩短了开发和测试周期,在面向业务流程开发时还可以结合 Amazon Step Functions 快速组合出想要的应用功能。
- Amazon S3 和 DynamoDB 分别为静态资源和动态资源的存储提供了支持,相比传统 Server 方式在成本和运维方面都有极大的优势,DynamoDB 给后端应用提供了稳定的毫秒级性能,并且随着算力规模的增加能够自动化扩展,为实现大规模计算提供了基础,也优化了前端用户访问体验。
基于亚马逊云科技的 Amazon Lambda 等无服务架构
AutoESD 实现了编辑序列的高通量、自动化设计
该研究得到国家重点研发计划
天津市合成生物技术创新能力提升行动项目
亚马逊云科技创新研究资助计划
中国科学院青年创新促进会的支持
TIBCAS
中国科学院天津工业生物技术研究所(TIBCAS)是由中国科学院和天津市人民政府共建、从事生物技术创新推动工业领域生态发展的科研机构,其定位是:围绕绿色低碳和经济社会可持续发展的重大需求,面向国民经济主战场,面向工业生物科技前沿,以工程生物学理念指导开展战略性、前瞻性的基础与应用基础研究,打造开放、共享的先进技术支撑平台,集聚工业生物科技力量,创新生物产业关键核心技术与重大颠覆性技术,构建工业经济发展的生态路线,引领支撑我国生物制造科技与绿色生物经济的发展。
亚马逊云科技
亚马逊云科技在全球已经服务了超过 4200 家医疗及生命科学领域的用户,其中包括超过 1200+生命科学客户,针对行业细分领域(如基因测序、新药研发、生产制造等)提供了具有行业深度的解决方案并开源给行业社区,在云产品/服务上能够满足不同业务场景的需求,如基因测序领域需要复杂的流程调度工具和高效的 HPC 算力。根据用户需求和背景的不同,不仅能提供传统的基于作业管理系统的一站式 HPC 方案,也有符合云原生的容器化、Serverless 计算解决方案,进而帮助客户开拓生命科学数字化创新路径,实现从实验室到健康服务的全链数字化革新。