发布于: Mar 29, 2021
Amazon SageMaker Debugger 的新功能现已在由光环新网运营的亚马逊云科技中国(北京)区域和西云数据运营的亚马逊云科技中国(宁夏)区域推出。Amazon SageMaker Debugger 的新功能可实时监控系统资源以实现高效利用率。借助这些新功能,您现在可以获得自动建议,为训练作业重新分配资源,以便更好地进行训练并减少时间和成本。
Amazon SageMaker Debugger 是 Amazon SageMaker 的一项功能,它通过捕获实时指标(如学习梯度和权重),提供训练流程的透明度,使您可以轻松且更快地训练机器学习模型,从而纠正损失、过度拟合和过度训练等异常情况。SageMaker Debugger 提供了称为规则的内置技术来轻松分析输出的数据,包括对成功进行训练作业至关重要的张量,例如识别为什么机器学习模型在训练精度超过 90% 的情况下将右流量信号预测为左流量信号。
借助新的分析功能,SageMaker Debugger 现在可以自动监控系统资源,如 CPU、GPU、网络、I/O 和内存,从而提供训练作业的完整资源利用情况视图。您还可以分析整个训练作业或其中的一部分,以便在训练作业的不同阶段得出详细的框架指标。框架指标是从训练脚本中捕获的指标,例如 CPU 和 GPU 上的步长、数据加载、预处理和操作员执行时间。SageMaker Debugger 将系统和框架指标关联起来,这有助于您识别问题的可能根本原因,例如 GPU 利用率下降到零,以便您可以检查训练脚本并适当地进行故障排除。您可以根据分析报告中的建议重新分配资源,从而缩短训练时间并降低成本。使用 SageMaker Python 开发工具包或通过 Amazon SageMaker Studio 以可视化方式捕获和监控指标和见解。