我们使用机器学习技术将英文博客翻译为简体中文。您可以点击导航栏中的“中文(简体)”切换到英文版本。
查看和查询 Amazon SageMaker 服务配额使用情况的最佳实践
SageMaker 可帮助您轻松构建、训练和部署机器学习 (ML) 模型。要了解更多信息,请参阅
使用服务配额,您可以查看您的 亚马逊云科技 账户或 亚马逊云科技 区域中的最大资源、操作或项目数量。您也可以使用服务配额请求增加可调整的配额。
随着 mLops 实践使用量的增加,以及因此对专用于机器学习模型实验和再培训的资源的需求,越来越多的客户需要运行多个实例,通常同时运行相同实例类型。
许多数据科学团队经常并行工作,同时使用多个实例进行处理、训练和调整。以前,用户有时会达到某些特定实例类型的可调整账户限制,因此必须手动向 亚马逊云科技 请求提高限额。
要从
在这篇文章中,我们将介绍如何使用新功能在达到较高实例级别时自动请求提高限制。
解决方案概述
下图说明了解决方案架构。
该架构包括以下工作流程:
- CloudWatch 指标监控资源的使用情况。当资源使用量超过某个预先配置的阈值时,CloudWatch 警报就会触发。
- 一条消息已发送到
亚马逊简单通知服务 (Amazon SNS)。 - 该消息由
亚马逊云科技 Lambda 函数 接收。 - Lambda 函数请求增加配额。
除了请求增加特定账户的配额外,Lambda 函数还可以将配额增加添加到
先决条件
完成以下必备步骤:
- 设置 A
WS 账户 并创建 AWS 身份和访问管理 (IAM) 用户。有关说明,请参阅保护您的 亚马逊云科技 账户 。 - 安装
亚马逊云科技 SAM 命令行界面 。
使用 亚马逊云科技 无服务器应用程序模型进行部署
要使用
部署解决方案后,您应该会在 CloudWatch 控制台上看到一个新的警报。此警报监控 ml.t3.medium 实例的 SageMaker 笔记本电脑实例的使用情况。
如果您的资源使用量超过 50%,则会触发警报,Lambda 函数会请求增加。
如果您拥有的账户是 亚马逊云科技 组织的一部分并且您 启用了
使用 CloudWatch 控制台部署
要使用 CloudWatch 控制台部署应用程序,请完成以下步骤:
- 在 CloudWatch 控制台上,选择导航窗格 中的 所有警报 。
- 选择 “ 创建警报 ” 。
- 选择 选择指标 。
- 选择 “ 用法 ” 。
- 选择要监控的指标。
- 选择您希望何时触发警报的条件。
有关配置警报时的更多可能配置,请参阅
- 将 SNS 主题配置为接收有关警报的通知。
您还可以使用亚马逊 SNS 在触发警报时触发 Lambda 函数。有关更多信息,请参阅
- 在 警报名称 中 ,输入一个名称。
- 选择 “ 下一步 ” 。
- 选择 “ 创建警报 ” 。
清理
要清理在这篇文章中创建的资源,请务必删除所有创建的堆栈。为此,请运行以下命令:
结论
在这篇文章中,我们展示了如何使用SageMaker与服务配额的新集成来自动请求增加SageMaker资源的配额。这样,数据科学团队可以有效地并行工作并减少与实例不可用有关的问题。
作者简介
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。