发布于: Jun 10, 2022

2019 中科院天津工业生物技术研究所(TIBCAS)就开始和亚马逊云科技共同探索如何利用云计算助力创新。TIBCAS 通过亚马逊云科技提供的多项创新的托管服务,极大的简化了行业应用创新与发展的难度,加速了通过数字化能力对合成生物学的推动。

 

“通过本次与亚马逊云科技的合作,我们构建了首个基于图数据库的大肠杆菌调控代谢关系图谱,实现了首次在微生物里的复杂调控代谢关系图谱复杂搜索, 同时基于可视化框架增强了用户与图谱的人机交互,打破了传统的数据检索方式,大大降低了科研人员的使用门槛

– 廖小平

项目研究员

  

中科院天津工业生物技术研究所联合亚马逊云科技团队构建了首个基于图数据库的大肠杆菌调控代谢关系知识图谱: ERMer。近日,TIBCAS 生物设计中心平台实验室联合亚马逊云科技团队在知名期刊 Nucleic Acids Research 杂志上发表了题为 ERMer: A serverless platform for navigating, analyzing, and visualizing Escherichia coli regulatory landscape through graph database 的文章。

 

图是存储和分析高连接性数据的有效形式,适合用于异质性数据的管理和处理复杂查询。图数据库也已经被广泛应用在社会网络、金融服务和市场营销等复杂关系的领域。近几年,图数据库也在生物领域有了一定应用,如 Reactome 和 CKG 数据库等。

 

然而这些工具都有一个共同的问题,用户需要使用专门开发的图形查询语言来编写查询语句以进行复杂的分析,且在人机交互不够便捷,这使得它们对大多数不熟悉编程语言的生物学家来说是遥不可及的。

 

Amazon Neptune 作为主流图数据库之一,能够高效存储和导航图形数据,同时有着非常好高性能和扩展性的特点,允许用户在毫秒级查询数十亿关系数据,可以使用流行的图形查询语言 Apache TinkerPop Gremlin 和 W3C SPARQL 执行高效的查询,这类查询易于编写并且能够针对互连数据实现很好的执行效果。

 

在这项研究中,TIBCAS 联合亚马逊云科技针对微生物领域真实业务场景需求,提出了一个存储和分析高连接性数据的新框架,实现了有效的交互式导航和可视化,该框架同时具有通用性和扩展性,可以非常方便的扩展延伸到生物学的其他应用领域和其他物种研究中。

 

利用该框架开发了目前第一个基于图数据库的大肠杆菌调控知识图谱 ERMer,该知识图谱中包含了 4 类实体(基因、反应、代谢物和途径)和 9 类边(包括反应-途径,反应-产物,底物-反应,基因-反应,转录因子-基因,化合物-蛋白,Sigma 因子-基因和蛋白-蛋白互作)。

 

基于图数据库对于图存储、图计算以及图神经网络的支持和优化,ERMer不仅让科研人员能够以交互式、可视化、无需编程的方法探索完整的大肠杆菌调控图谱,还充分利用 Amazon Neptune 对 Gremlin 的优化设计,实现了多步查询、最短路径等复杂搜索场景下的搜索,实现了微生物调控级联检索,允许用户通过指定搜索方法(特定的关系、最大搜索长度、最短路径或最全搜索等),快速得到所有调控链路,有助于用户发现新的调控模式以及一些潜在的代谢工程靶点(调控策略)。

 

通过将典型的生物学问题转化为图的路径遍历问题(如:给定两个途径间的关键调控代谢物是什么),科研人员只需要输入所关注的途径名称,即可获得所有调控代谢物的可视化结果,提升了科研工作效率。为了进一步发挥知识图谱的价值,TIBCAS采用了 Amazon Neptune ML 来训练模型,通过使用图谱神经网络技术,实现了转录因子预测和转录因子靶点预测等功能。

通过结合 Amazon Neptune 图数据库、无服务器架构和图形可视化引擎,ERMer 提供了与大肠杆菌全局调控图谱的多种交互方式。

 

该研究得到国家重点研发计划

天津市合成生物技术创新能力提升行动项目

亚马逊云科技创新研究资助计划

中国科学院青年创新促进会的支持

中国科学院天津工业生物技术研究所(以下简称 TIBCAS)是由中国科学院和天津市人民政府共建、从事生物技术创新推动工业领域生态发展的科研机构,其定位是:

围绕绿色低碳和经济社会可持续发展的重大需求,面向国民经济主战场,面向工业生物科技前沿,以工程生物学理念指导开展战略性、前瞻性的基础与应用基础研究,打造开放、共享的先进技术支撑平台,集聚工业生物科技力量,创新生物产业关键核心技术与重大颠覆性技术,构建工业经济发展的生态路线,引领支撑我国生物制造科技与绿色生物经济的发展。

亚马逊云科技在全球已经服务了超过 4200 家医疗及生命科学领域的用户,其中包括超过 1200+生命科学客户,针对行业细分领域(如基因测序、新药研发、生产制造等)提供了具有行业深度的解决方案并开源给行业社区,在云产品/服务上能够满足不同业务场景的需求,如基因测序领域需要复杂的流程调度工具和高效的 HPC 算力。

根据用户需求和背景的不同,不仅能提供传统的基于作业管理系统的一站式 HPC 方案,也有符合云原生的容器化、Serverless 计算解决方案,进而帮助客户开拓生命科学数字化创新路径,实现从实验室到健康服务的全链数字化革新。