NVIDIA Omniverse 企业核心的可用性和灾难恢复

NVIDIA Omniverse 是一个革命性的平台,它允许创作者和组织在 3D 设计和模拟方面进行实时协作。它提供了广泛的集成和工具,使团队能够共同合作,并将他们的想法变为现实。

NVIDIA Omniverse 的基本方面之一是能够在传统应用程序中创作内容。 Omniverse 与 Autodesk Revit、PTC CREO 等流行的 CAD 工具以及 Autodesk 3ds Max、Autodesk Maya 和 Blender 等内容创作工具有关联,请在此处查看完整列表:连接到 Omniverse。 这种广泛的支持允许具有冲突数据格式的多职能团队在公共数字空间中进行实时协作。

NVIDIA Omniverse Nucleus 是 Omniverse 平台的数据库和协作引擎。借助 Omniverse Nucleus,团队可以使用不同的应用程序同时连接多个实时用户。Nucleus 支持 NVIDIA Omniverse 应用程序之间的高效实时同步通用场景描述 (USD) 文件(Omniverse 的核心数据格式)的更改将在连接的 Omniverse 客户端之间实时传输。

当各公司希望利用NVIDIA Omniverse来推动其数字创新时,重要的是要考虑Nucleus服务器的配置位置和方式。由于许多团队和公司遍布一个国家或全球,因此了解为什么在云中部署Nucleus是理想的选择,以及如何确保在服务器出现故障时快速恢复非常重要。

使用 SoftServe 在 亚马逊云科技 上部署全方位企业核心

作为 NVIDIA 服务交付合作伙伴——专业服务 (SDP-PS) 计划的成员,S oftSer ve 拥有一支由人工智能、机器学习和开发运营专家组成的经验丰富的团队。 亚马逊网络服务(亚马逊云科技) 和SoftServe开发了这种Nucleus参考架构,以帮助客户加快数字化转型并缩短在亚马逊云科技上部署Nucleus的时间。

SoftServe 专业服务团队与客户合作,通过自动化和配置 亚马逊云科技 资源来设置 Nucleus 云部署,例如 亚马逊弹性计算云 (Amazon EC2) 实例、 亚马逊 简单存储服务 (Amazon S3) 存储 桶、 亚马逊云科技 身份和访问管理 (IAM) 角色、联网、自动扩展、负载均衡器等。Soft Serve 以托管部署的形式提供这些 亚马逊云科技 资源,客户将获得解决方案、文档和培训。Nucleus 在 亚马逊云科技 上部署解决方案允许进行自定义和扩展,以便根据需要添加额外的云资源。

解决方案概述

Architecture for Availability Disaster Recovery for NVIDIA Omniverse Enterprise Nucleus

  1. 本地图形工作站为 Omniverse 工具的最终用户提供支持。这些工作站配备高端 NVIDIA GPU、Omniverse 客户端以及使用 Nucleus Connectors 连接的其他数字内容创作工具。
  2. 根据网络安全要求,此混合部署的 亚马逊云科技 组件可以通过 VPN 连接或 AW S Direct Connect 连接私下连接到 本地网络。可以通过 Amazon Route 53 部署托管私有证书颁发机构 以进行私有 DNS 解析。 亚马逊虚拟私有云 (Amazon VPC) 私有链接终端节点维护亚马逊 EC2 实例与 亚马逊云科技 Systems Manager 代理(SSM 代理) 、亚马逊 S 3 和 亚马 逊 CloudWatch 等服务之间的私有通信。
  3. 应用程序负载均衡器 (ALB) 部署在公共子网中,用于将客户端请求从 HTTP 重定向到 HTTPS,然后重定向到 NGINX 反向代理服务器。如果配置了多个反向代理服务器,ALB 还会在反向代理服务器之间平衡流量负载。
  4. 反向代理是部署在高度可用的多可用区自动扩展组中的 NGINX 服务器。反向代理根据指向特定 Nucleus 端口的路径路由请求。
  5. Nucleus 服务器由由 NVIDIA 提供的 Docker Compose 堆栈编排的 Docker 容器组成。Nucleus 数据存储在 亚马逊弹性区块存储(亚马逊 EBS) 卷 上。
  6. 部署后,亚马逊云科技 Systems Manager 运行命令从 NVIDIA 容器注册表中提取 Nucleus Docker 容器镜像,然后在 Amazon EC2 上配置 Nucleus 实例。
  7. Docker 需要访问 NVIDIA 容器注册表才能提取相应的镜像。
  8. 亚马逊云科技 L am bda 支持的自动扩展生命周期挂钩支持在 NGINX 代理实例向上扩展和实例终止时对其进行运行时配置。
  9. 由终止生命周期挂钩时的 Nucleus ASG 触发,Nucleus 故障转移程序使用 亚马逊云科技 St ep Functions 从 Amazon S3 中提取 Nucleus 备份数据并重新配置新启动的 EC2 实例。 在此期间,启动和配置新 EC2 实例时,预计会有几分钟的停机时间。
  10. Nucleus 备份 程序由亚马逊 E ventBridge 定期触发,使用 亚马逊云科技 Step Functions 和 NVIDIA 核心工具将 Nucleus 数据增量备份到亚马逊 S3。
  11. CloudWatch 汇总来自 Amazon EC2 实例的日志,为指标监控和警报提供便利。Nucleus 堆栈还公开了有关其负载特征(例如每位用户的请求数、每种请求类型等)的指标。这些指标可供普罗米修斯使用。

高可用性

制作团队希望对存储在 Nucleus 中的数据进行可靠、一致的访问。为了满足这一期望,该解决方案中实现了高可用性功能。

使用 ALB,Route 53 请求被发送到单个 DNS 主机名,并在多个可用区 (AZ) 之间动态路由。为了确保加密连接, 亚马逊云科技 Certificate Manager (ACM) SSL/TLS 证书与 ALB 相关联,后者终止前端连接并解密请求。

NGINX 反向代理服务器将流量路由到 Nucleus 服务器上的特定端口。A mazon EC2 Auto Scaling 组可确保在多个可用区部署反向代理实例,并且实例数量将根据当前的请求负载向上或向下扩展。默认情况下,此解决方案会根据反向代理实例的 CPU 使用率向外扩展。

反向代理实例的最大数量、扩展机制和要扩展的可用区数量均可配置,以确保每个用例的高可用性。
Nucleus Backup Procedure for Availability Disaster Recovery for NVIDIA Omniverse Enterprise Nucleus

备份和恢复

Omniverse Nucleus on 亚马逊云科技 解决方案在不同级别上实施备份程序:

  • 亚马逊 EBS 卷的快照
  • 将 Nucleus 数据复制并传输到亚马逊 S3 存储桶

这些备份功能可使用 亚马逊云科技 Step Functions 状态机进行配置和自动化,该状态机由 Lambda 函数按可配置计划触发。使用 NVIDIA 核心工具,Nucleus 数据的增量副本与 Amazon S3 存储桶同步。由于备份是以增量方式进行的,因此最好允许频繁备份,从而减少文件传输大小和恢复时间。

灾难恢复

在管理集中式数据存储(例如用于数字资产的 Omniverse Nucleus 协作引擎)时,公司需要保护业务连续性并避免工作中断。

为了将恢复时间目标 (RTO) 维持在几分钟,该解决方案实施了增量的 Nucleus 数据备份和自动配置程序。这包括将 Nucleus 数据定期增量备份到 Amazon S3 存储桶,但也包括使用 亚马逊云科技 Lambda、Auto Scaling Groups 和 亚马逊云科技 Step Functions 自动启动和重新配置在 Amazon EC2 上运行的 Nucleus 实例的无服务器进程。

当 Nucleus Auto Scaling Group 检测到实例故障时,将自动启动一个新实例,并启动故障转移步骤函数过程。Step Function 程序从 S3 中提取 Nucleus 备份,然后使用 亚马逊云科技 Systems Manager 和 NVIDIA 核心工具将数据上传到新的 Nucleus 实例中。

Nucleus Failover Procedure for Availability Disaster Recovery for NVIDIA Omniverse Enterprise Nucleus

这种方法使客户能够从影响 Nucleus 服务器可用性的意外事件中快速恢复。恢复过程是可配置的,可使用运行状况检查和 Lambda 函数来实现故障转移过程。

基础设施即代码

在 亚马逊云科技 参考架构上构建 Omniverse Nucleus 的关键目标之一是允许客户使用 亚马逊云科技 云开发套件 ( 亚马逊云科技 CDK) 以自动方式配置 Nucleus 服务器。 通过使用基础架构即代码 (IaC),客户可以获得可重复部署的解决方案源代码。对于需要自定义的客户,亚马逊云科技 CDK 允许客户根据需要添加 亚马逊云科技 资源或修改解决方案。

该解决方案还部署了一个 亚马逊云科技 CodeCommit 存储 库和一个 亚马逊云科技 C odePipel ine CI/CD 管道,用于自动修改 亚马逊云科技 上的 Nucleus 部署。

结论

借助 亚马逊云科技,客户可以将全球分布式用户连接到 NVIDIA Omniverse Enterprise Nucleus。借助 亚马逊云科技 的广度和深度,可以为部署在 亚马逊云科技 上的 Nucleus 实施高可用性和灾难恢复技术。这包括负载平衡、自动扩展、备份、恢复 Nucleus 中的数据。所有这些都确保了团队可以通过可靠地访问其数据进行实时协作。

客户可以与 SoftServe 专业服务团队合作,在其 亚马逊云科技 账户中快速部署 Nucleus,并根据业务需求定制解决方案。

要深入了解技术,请查看亚马逊 EC2 上的 亚马逊云科技 和 SoftServe 的这份开源解决方案:
NVIDIA Omniverse Nucleus

SoftServe — 亚马逊云科技 首席

作为 亚马逊云科技 顶级服务合作伙伴,SoftServe 通过深厚的行业经验、创新和先进技术,持续帮助客户在 亚马逊云科技 云中实施可重复的解决方案。

SoftServe 可以帮助您转型 3D 工作流程,让您的团队能够与 NVIDIA Omniverse Enterprise 在 3D 制作质量方面实现全新的协作水平。

有关 SoftServe 和 NVIDIA Omniverse Enterprise 的更多信息,请访问我们的网站:
SoftServe — NVIDIA

Kellan Cartledge

凯兰·卡特利奇

凯兰·卡特利奇是亚马逊网络服务的空间计算专家解决方案架构师。在 亚马逊云科技,他通过云端沉浸式技术定义和探索可能的艺术。他在建筑、娱乐和计算机图形学的交叉领域拥有十多年的经验。凯兰热衷于虚拟世界和物理世界的结合,以及空间体验的未来。

Isidro Hernandez

伊西德罗·埃尔南德斯 伊西德

罗·埃尔南德斯是 SoftServe CoE 关键服务 亚马逊云科技 集群的解决方案架构师,在云、解决方案架构、容器和 DevOps 方面拥有丰富的经验。在他目前的职位上,伊西德罗帮助客户采用云解决方案,设计和规划 亚马逊云科技 迁移,并在 亚马逊云科技 云上构建可重复的解决方案。

Kelly Williamson

凯利·威廉姆森

凯利·威廉姆森是SoftServe的高级客户经理,担任战略解决方案顾问,帮助我们的客户利用先进的技术实现战略目标。他领导的团队为世界上最具创新性的组织提供数字产品和服务,专注于由设计思维和先进技术驱动的软件开发,重点是元界、人工智能、大数据、物联网和安全解决方案,以实现客户转型并为未来做好准备。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。