发布于: Apr 28, 2024
具有适用于 EKS 的增强可观测性的 Amazon CloudWatch Container Insights 现在可以自动发现来自您的亚马逊云科技加速器 Trainium 和 Inferentia、亚马逊云科技高性能网络适配器(Elastic Fabric Adapter – EFA)以及 NVIDIA GPU 的关键运行状况指标。 您可以在精选的控制面板中呈现这些开箱即用的指标,以帮助监控加速的基础设施,并优化 AI 工作负载以实现卓越运营。
通过 Enhanced Container Insights,您现在可以轻松地将计算和内存指标与节点间网络指标关联起来,以帮助了解流量对 EKS 集群上运行的任务(例如监控延迟敏感的训练作业)的影响。Enhanced Container Insights 让您能够通过分布式深度学习和推理算法轻松监控资源消耗效率,从而优化资源分配并最大限度地减少应用程序的长时间中断。Enhanced Container Insights 通过自动可视化实现加速的计算可观测性,并且无需手动创建控制面板和设置警报。
加速计算可观测性入门很容易。您可以通过将 CloudWatch 可观测性插件安装到集群中,或者手动安装 CloudWatch 代理以启用增强可观测性,从而加入增强的 Container Insights。配置完成后,您可以导航到 Container Insights 控制台并查看开箱即用的加速计算遥测。
加速计算可观测性现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域中适用于 EKS 的 Enhanced Container Insights 中推出。加速计算指标遵循基于观测的定价,有关详细信息,请参阅 Container Insights 定价页面。有关更多信息,请参阅 Container Insights 用户指南。