发布于: Feb 10, 2023
当数字技术成为整个社会运行的底座,生物科学也能借力云计算,从诸多繁琐重复的工作中解放出来,专注于生物设计与创新来看看亚马逊云科技如何与 TIBCAS 合作,推动合成生物学的发展。
中国科学院天津工业生物技术研究所(TIBCAS)是一家从事工业生物技术研发的科研机构,由中国科学院和天津市人民政府共建。2019年,由 TIBCAS 牵头建设的国家合成生物技术创新中心正式启动建设,生物设计中心是其重要的平台实验室之一。从创立之初,生物设计中心就在探索一种不同于传统实验室的研发新模式,以数据和算法为核心,通过构建生物技术和信息技术相结合(BT+IT)的技术体系,在未来将菌种设计构建的主要工作交由计算机完成。
自2019年 TIBCAS 就开始和亚马逊云科技共同探索,如何通过云计算助力 TIBCAS 在菌种计算设计和业务关联数据存储检索方面的创新。借助亚马逊云科技丰富的 Serverless 服务和图数据库 Amazon Neptune 技术,TIBCAS 构建了高通量编辑序列设计云平台 AutoESD 和完整的大肠杆菌调控知识图谱 ERMer,大幅提升一线研究人员的研发效率。
“围绕细胞工厂设计创制的核心任务,生物设计中心主要有两大方面的工作,其一是研发计算机辅助生物设计工具;其二是开发核心数据库” TIBCAS 项目研究员廖小平介绍说。
在合成生物学实验过程中,一个重要的步骤就是编辑序列设计,关系到最终目标细胞工厂是否能够成功构建。目前的编辑序列设计仍然依靠人工或“半自动化”的模式:人工设计高度依赖研究者自身的经验,因其主观性和偏好性会导致结果千差万别;而“半自动化”设计,虽由计算机辅助,但因为单一工具往往只能覆盖遗传操作的部分环节,研究过程必须协同使用多款软件,既增加了学习成本,又由于彼此间的数据交换标准不一致,导致出错的风险。
如今,大规模合成生物制造平台——生物铸造厂(BioFoundry)高速发展,使高通量的遗传操作成为可能,相关实验流程也越来越模块化、标准化,人工或“半自动化”模式很难实现高通量、自动化的微生物构建,影响开发效率。
而对于“开发核心数据库”的需求,廖小平解释到:“细胞中的代谢调控非常复杂,不同类型的调控数据通常散落在各个不同的数据库,很难对这些调控关系实现全局性认识,只有重新设计一个存储和分析高连接数据的新框架,将这些不同类型的代谢调控相互作用汇集在一起,并提供方便的交互方式,才能方便生物学家挖掘和理解生物体内的复杂调控关系。”
TIBCAS 之所以选择与亚马逊云科技合作,一是亚马逊云科技针对科研领域提供了具有行业深度的解决方案,在云服务上能够满足不同业务场景的需求,并具备典型的成功案例,同时,亚马逊云科技有丰富工业生物行业经验,能够理解 TIBCAS 行业应用场景,并提供有深度的指导意见;二是亚马逊云科技 Serverless 技术成熟,多项创新托管服务极大简化了行业应用创新难度;三是亚马逊云科技专业服务团队提供全生命周期技术支持,能加速项目落地;四是通过亚马逊云科技创新研究资助计划,可以对 TIBCAS 科研项目提供支持。
Serverless 服务轻量化且易于使用,与生物工程真实的业务场景结合,能更便捷地实现复杂的工作流编排和异常处理,提供轻量化且足够弹性的算力需求,能够进行模块化封装和复用的组件等需求。为此,TIBCAS 通过对遗传操作技术的模块化解构与标准化处理,结合亚马逊云科技提供的 Serverless 服务,实现了全流程、自动化和高通量的编辑序列设计,开发出云平台 AutoESD。该平台支持多种基于筛选标记的同源重组技术变种,理论上支持所有基因组序列已知的微生物,并可以在单批次任务中处理针对不同目标序列(CDS 或基因间区域)的多种类型的遗传操作(敲除、插入和替换)。
廖小平介绍说:“基于云上的无服务器架构模式,我们构建了第一个适用所有操作类型、任何基因组位点和跨物种的精确、自动化和高通量编辑序列设计的云平台 AutoESD,大大降低了一线科研人员使用工具的门槛,为将来实现快速高效的‘设计—构建—测试—学习’合成生物学工程循环奠定了基础。”
此外,TIBCAS 开发的 IMODB、BioTools 等工具也采用同样的底层架构,由Amazon Simple Storage Service (Amazon S3) 和 Amazon DynamoDB 分别为静态资源和动态资源的存储提供支持, Amazon API Gateway 实现 API 接口,后端通过 Amazon Lambda 和 Amazon Batch 来承载不同算力需求的任务,Amazon Step Functions 能够帮助工程师更好的管理序列设计工作流,以及处理工作流中复杂的任务依赖关系。在部署上,基础架构部分都通过 CDK 完成基础架构代码化,能够实现自动化部署和版本管理,在业务层面如页面前端、后端复杂计算过程,通过 CI/CD 实现自动化集成和部署。
在“开发核心数据库”时,TIBCAS 联合亚马逊云科技针对微生物领域真实业务场景需求,基于 Amazon Neptune 图数据库、无服务器架构和图形可视化引擎,设计出一款存储和分析高连接数据的新框架,实现了有效的交互式检索和可视化,该框架具有很好的通用性和扩展性,可以非常方便地延伸到生物学多个应用领域和物种的研究中。利用该框架,TIBCAS 开发了目前第一个基于图数据库的大肠杆菌调控知识图谱 ERMer。ERMer 实现了多种复杂调控级联或模式的快速检索和可视化,让科研人员能够以交互式、无需编程的方法探索完整的大肠杆菌调控图谱。
TIBCAS 基于亚马逊云科技的系统架构示意图
“Amazon Neptune 是我们知识的载体,能够高效存储和检索高度复杂关联的数据,在业务场景应用中相比传统数据库提升了数百倍的性能,”廖小平表示,“同时,Amazon Neptune 也是我们实现图谱核心能力的载体,能够将典型、复杂的生物学问题转化为图论问题,科研人员只需要输入所关注的途径名称,即可获得所有调控代谢物的可视化结果,提升了科研工作效率。”
为了进一步发挥知识图谱的价值,TIBCAS 还采用了 Amazon Neptune ML 来训练模型,通过使用图谱神经网络技术,实现了转录因子预测和转录因子靶点预测等功能。
TIBCAS 通过亚马逊云科技提供的多项创新托管服务,尤其是 Serverless 服务和架构优化,在流量峰值、访问稳定、成本优化和运维简化等方面都取得了令人满意的成效,极大地简化了行业应用创新与发展的难度,加速了通过数字化能力对合成生物学的推动。
通过采用无服务器架构模式,AutoESD 云平台具有非常强大的高通量性能,可以同时支撑几百个终端用户,每个用户可以提交几千个编辑目标设计需求,并且仅需几分钟时间便可得到反馈结果,即使面对研究成果发布或迭代时, TIBCAS 也可从容应对流量峰值。
系统依托 Serverless 技术实现原生高可用、高性能,且基于 CDK 对基础设施进行代码化后,能够实现基础设施的自动化部署与更新,同时保证生产与测试环境的一致性,降低人工运维压力,且开发实践时间大幅缩短,仅为之前的四分之一,大幅提升了研发效率。
无需硬件成本投入,即能保证业务在被请求时可以及时获得响应,且大部分服务都能够按秒甚至毫秒计费,成本投入能够更精细地匹配到业务,相比传统方案 TCO 降低了50%,实现更细粒度的按需付费。
未来,TIBCAS 希望基于亚马逊云科技先进的服务技术和能力,进一步助力研究所在合成生物领域的科研探索,如进一步通过 AI、量子计算等服务开展科研创新等。此外,也期望依托于亚马逊云科技的全球科研领域辐射能力,提升 TIBCAS 国际影响力,为世界各国的合成生物学科研工作者提供最优质的服务。
中国科学院天津工业生物技术研究所(以下简称 TIBCAS)成立于2012年,是由中国科学院和天津市人民政府共建、从事生物技术创新推动工业领域生态发展的科研机构。TIBCAS 围绕绿色低碳和经济社会可持续发展的重大需求,面向国民经济主战场和工业生物科技前沿,以生物设计为核心,开展工业生物技术战略性、前瞻性的基础与应用基础研究,集聚工业生物科技力量,创新生物产业关键核心技术与重大颠覆性技术,构建工业经济发展的生态路线,服务我国绿色生物经济与社会经济可持续的发展。截至目前,TIBCAS 已经承担了各类科研项目约700项,在生物医药、化工产业、纺织、发酵等领域为28个省市的几百家企业提供服务。
TIBCAS 在与亚马逊云科技的合作中,重点使用了这些产品:Amazon S3、Amazon Lambda、Amazon Neptune、Amazon Batch、Amazon DynamoDB和Amazon API Gateway。同时,也离不开如下的重点领域科研支持:亚马逊云科技科研支持计划 (Amazon Cloud Credit for Research)、亚马逊云科技杰出研发奖(Amazon Research Awards)、亚马逊云科技科学频道(Amazon Sciences)。未来,双方也会继续努力在合成生物领域达成更坚实更深入的合作。