发布于: Jul 29, 2023
又是一年高考季,又到金榜题名时。近日,一封封承载着莘莘学子梦想的高考录取通知陆续发出。逐梦路上,一所所高校点亮无数学子对科研的向往,在求新求实的道路上扬帆启航。
浙江大学土壤学科是朱祖祥院士等几代土壤科学家共同创建的 A+ 国家重点学科,整体实力雄厚,优势特色明显,总体水平居国内前列。在亚马逊云科技科研创新支持计划(Amazon Web Services Cloud Credits for Research)的多次支持下,运用亚马逊云科技的高性能计算和专属行业解决方案,浙江大学土壤学科研团队整体在 2 个月内,成功完成了土壤微生物宏基因组数据自动化处理,总计超过 5000 个测序数据。
该团队目前使用的亚马逊云科技服务包括:Amazon Batch、Amazon Step Functions、Amazon DynamoDB、Amazon Graviton2、Amazon Simple Storage Service (Amazon S3) 等。
土壤微生物作为地球上生物多样性的重要组成部分,在支撑陆地生态系统过程和功能中发挥着不可替代的作用。然而长期以来,由于土壤生物系统的复杂性以及受限于土壤生物学研究技术手段,人们对土壤微生物的多样性和功能的认知仍然相当有限。随着科研领域的不断拓展和深化,越来越多的科学问题需要依靠强大的算力支持来进行模拟、计算和分析。
在上云前,该团队的 IT 系统采用了学校机房自建服务器、租用的 IDC 服务器以及超算中心。由于学校机房自建服务器的存储利用率已超过 95%,浙江大学土壤学科研团队宏基因数据分析的科研任务出现了资源不足的瓶颈,不同科研课题都受到了算力短缺的限制,影响了研究进展。另外,租用的 IDC 服务器和超算中心仅提供硬件资源,难以提供专业的服务。
“经过我们的调研发现,国外同行业的科研机构利用亚马逊云科技的 HPC 解决方案以及 NCBI 公开数据集进行科研,在短时间内获得了分析结果并发表了高质量论文。” 浙江大学土壤学王轶玲博士说道:“此外,我们在阅读文献的过程中发现了一篇论文,该论文基于亚马逊云进行计算流程设计,符合我们的期望,于是开始应用亚马逊云科技。”
浙江大学土壤学科与亚马逊云科技展开合作,在土壤微生物科研上应用了亚马逊云科技在生信行业基于 Amazon Batch 的容器化 HPC 解决方案。亚马逊云科技为不同的科研课题提供定制化的解决方案,帮助他们解决各自的痛点。
针对宏基因组数据处理自动化流程改造,亚马逊云科技提供 Amazon Step Functions 和 Amazon Batch 解决方案,实现了自动化的数据处理;针对大规模微生物信息挖掘任务,亚马逊云科技提供了基于 Amazon Batch 的 HPC 解决方案,轻松实现批量计算作业;针对大规模微生物序列比对计算,解决方案基于 HPC 架构,并且额外进行了 Amazon Graviton2 处理器的优化,在性能和成本效益方面都取得了巨大的提升。
宏基因组数据处理通常需要进行多个分析步骤,整个流程冗长而繁琐。Amazon Step Functions 能够将多个亚马逊云科技服务协调到无服务器工作流中,自动触发和追踪每个步骤。在此基础上借助 Amazon Batch 在容器化改造及任务调度方面的能力,最终让宏基因组数据处理实现了流程自动化,从而实现应用的快速构建和更新,同时快速查询处理异常任务,让科研工作者更加专注于科研任务,而无需手动运行繁琐的步骤。
浙江大学土壤学自动化流程改造基于亚马逊云科技的系统架构示意图
大规模微生物信息挖掘任务所使用的 HPC 涉及大量算力,如何让分布式算力得到妥善应用,需要对算力资源有良好而清晰的规划与安排。Amazon Batch 能根据提交的批处理作业的数量和特定资源要求,动态预置计算资源的最佳数量和类型,从而最大限度地提升计算效率和性能。即使科研团队需要同时运行数千个任务,同时启动大量的容器来处理,Amazon Batch 也能轻松调度。
浙江大学土壤学微生物病毒宏基因测序基于亚马逊云科技的系统架构示意图
由于微生物序列比对计算任务量较大,需要耗费大量的时间和费用。相较于传统的 X86 架构,亚马逊云科技自研的基于 ARM 架构的 Amazon Graviton 处理器具有更高的性价比。在科研团队应用 Graviton2 处理器后,发现其性能表现良好,大约有一半的任务可以通过 Amazon Graviton 以更低成本高效地运行,最终帮助科研人员顺利完成科研任务的同时,兼具成本效益。
浙江大学土壤学微生物宏基因测序改造基于亚马逊云科技的系统架构示意图
亚马逊云科技的 HPC 解决方案加速了土壤微生物信息挖掘,助力浙江大学土壤学科研团队在2个月内成功完成了 5000+ 的宏基因组数据分析。
亚马逊云科技在云端科研业务及高性能计算 HPC 业务中的优势为不仅体现在合成生物学、微生物等科研领域,还为环境工程、食品工业(含酒业)、化学工程、生命科学工程等研究领域提供了从实验室到产业化研发的全链路数字化革新解决方案,例如:云上科研实验室、云上科研数据分析平台、高性能计算、量子计算、知识图谱等。
亚马逊云科技为我们的科研工作提供了强大的高性能计算 (HPC) 解决方案、丰富的公开数据集和专业的支持团队,帮助我们释放科研潜能,在 2 个月内完成过去1年时间才能完成的土壤微生物领域宏基因组数据分析任务。
王轶玲 浙江大学环境与资源学院 博士
科研团队利用 Amazon EC2 Spot 实例和 Amazon S3 智能分层等服务来优化成本。通过使用 Spot 实例,客户能够以较低的价格获得计算资源,而智能分层则帮助客户根据数据的访问模式将存储成本降低到最低。
除此之外,通过在 Graviton 上进行代码改造,亚马逊云科技进一步帮助客户提升了性能并降低了成本。经过测试和实践,使用 Graviton 处理器可以将成本降低约 20%,同时性能提升 16%,综合实现了 32.8% 的性价比提升。这意味着客户可以以更低的成本获得更高的性能,为其宏基因组数据分析提供了更优化的解决方案。这些改进措施和技术优化为客户节省了大量的成本,并提升了整体的性能表现。
亚马逊云科技提供 NCBI 公开数据集,包含了丰富的宏基因测序数据,可以帮助客户进行实验和研究。这些数据集帮助客户节省了数据收集和准备的时间成本,同时也提供了标准化的参考,使客户能够更加方便地进行比较和分析。
此外,亚马逊云科技客户服务团队具备专业的行业知识和经验,能够理解客户的实际应用场景,并提供针对性的解决方案。浙江大学土壤学王轶玲博士说道:“亚马逊云科技的解决方案架构师团队帮助我们不断优化性能和成本,还协助进行 POC(概念验证)阶段的实施,确保科研团队成功实施项目。”
亚马逊云科技不仅致力于提供稳定可靠的技术和解决方案,还注重提供全方位的支持和服务,帮助客户在合成生物学、微生物研究领域取得卓越的成果。
未来,双方将通过进一步的创新科研合作,提升浙江大学土壤学科的国际影响力,帮助浙江大学土壤学科研团队更有效的开展学术研究活动。
浙江大学是一所特色鲜明、在海内外有较大影响的综合型、研究型、创新型大学。2022 年,浙江大学入选第二轮 “双一流” 建设高校,21 个学科入选一流学科建设名单。
浙江大学土壤学科是朱祖祥院士等几代土壤科学家共同创建的 A+ 国家重点学科,整体实力雄厚,优势特色明显,总体水平居国内前列。目前拥有国家和省部级工程研究中心、重点实验室 3 个,国家自然科学基金委 “土壤污染过程与修复原理” 创新研究群体和农业农村部 “产地环境质量与农产品安全” 创新团队,国家特聘教授和国家杰青获得者 4 人、国家 “四青” 人才 7 人。