亚马逊 SageMaker Ground Truth Plus 中的几次点击分段掩码标签

亚马逊 SageMaker Ground T ruth Plus 是一项托管数据标签服务，可轻松为机器学习 (ML) 应用程序标记数据。一个常见的用例是语义分割，这是一种计算机视觉 ML 技术，涉及为图像中的单个像素分配类标签。例如，在行驶中的车辆捕获的视频帧中，类别标签可以包括车辆、行人、道路、交通信号、建筑物或背景。它可以高精度地了解图像中不同物体的位置，通常用于为自动驾驶汽车或机器人构建感知系统。要构建语义分割的机器学习模型，首先需要在像素级别标记大量数据。这个标签过程很复杂。这需要熟练的标签员和大量的时间——有些图像可能需要长达 2 小时或更长时间才能准确地标注！

2019 年，我们发布了一款由 ML 驱动的交互式标签工具，名为 Auto-segment for Ground Truth ，它允许您快速轻松地创建高质量的分段掩码。有关更多信息，请参阅自动分段工具。此功能的工作原理是允许您单击对象上最上方、最左、最底部和最右边的 “极点”。在后台运行的机器学习模型将采集这些用户输入并返回高质量的分段掩码，该掩码将立即在 Ground Truth 标注工具中呈现。但是，此功能仅允许您单击四次。在某些情况下，ML 生成的蒙版可能会无意中错过图像的某些部分，例如物体边界周围的边缘模糊或颜色、饱和度或阴影融入周围环境的地方。

极限点击，校正点击次数灵活

现在，我们增强了该工具，允许额外点击边界点，从而为机器学习模型提供实时反馈。这使您可以创建更准确的分段掩码。在以下示例中，由于阴影附近的边界较弱，初始分割结果不准确。重要的是，该工具在允许实时反馈的模式下运行——它不需要您一次指定所有点。相反，你可以先点击四次鼠标，这将触发机器学习模型生成分段掩码。然后，您可以检查此掩码，找出任何潜在的不准确之处，然后根据需要再次单击，以 “推动” 模型，得出正确的结果。

我们之前的贴标工具允许您准确点击四次鼠标（红点）。初始分割结果（红色阴影区域）不准确，因为阴影附近的边界很弱（红色蒙版的左下角）。

使用我们的增强标签工具，用户再次首先单击四次鼠标（上图为红点）。然后，你有机会检查生成的分段掩码（上图为红色阴影区域）。您可以再次点击鼠标（下图中的绿色圆点）以使模型优化蒙版（底部图中的红色阴影区域）。

与该工具的原始版本相比，增强版在物体可变形、非凸起以及形状和外观变化时提供了改进的结果。

我们首先运行基线工具（仅需四次极限点击）来生成分割掩膜，然后评估其平均交叉点（MiOU），这是衡量分割掩码精度的常用指标，从而模拟了该改进工具在样本数据上的性能。然后，我们应用了模拟校正点击次数，并在每次模拟点击后评估了 MiOU 中的改进。下表总结了这些结果。第一行显示 MiOU，第二行显示错误（由 100% 减去 MiOU 得出）。只需再点击五次鼠标，我们就可以将此任务的错误减少9％！

.	.	Number of Corrective Clicks	.
.	Baseline	1	2	3	4	5
mIoU	72.72	76.56	77.62	78.89	80.57	81.73
Error	27%	23%	22%	21%	19%	18%

与 Ground Truth 和性能分析集成

为了将此模型与 Ground Truth 集成，我们遵循下图所示的标准架构模式。首先，我们将机器学习模型构建到 Docker 镜像中，然后将其部署到亚马逊弹性容器注册表 (Amazon ECR)，这是一个完全托管的 Docker 容器注册表，可以轻松存储、共享和部署容器镜像。使用 SageMaker 推理工具包构建 Docker 镜像使我们能够轻松使用最佳实践进行模型服务并实现低延迟推断。然后，我们创建一个 Amazon S ageMaker 实时端点来托管模型。我们在 SageMaker 端点之前引入了一个亚马逊云科技 Lambda 函数作为代理，以提供各种类型的数据转换。最后，我们使用 Amazon API Gateway 作为与前端 Ground Truth 标签应用程序集成的一种方式，为后端提供安全认证。

对于专门构建的 ML 工具，您可以根据自己的用例遵循这种通用模式，并将其与自定义 Ground Truth 任务用户界面集成。有关更多信息，请参阅使用亚马逊 SageMaker Ground Truth 构建自定义数据标签工作流程。

在预置此架构并使用亚马逊云科技云开发套件 (亚马逊云科技 CDK) 部署我们的模型后，我们使用不同 SageMaker 实例类型评估了模型的延迟特征。这非常简单，因为我们使用 SageMaker 实时推理端点来为我们的模型提供服务。SageMaker 实时推理端点与 Amazon CloudWatch 无缝集成，无需设置即可发出内存利用率和模型延迟等指标（更多详情请参阅 SageMaker 端点调用指标）。

在下图中，我们显示了 SageMaker 实时推理端点原生发出的模型延迟指标。我们可以轻松地在 CloudWatch 中使用各种指标数学函数来显示延迟百分位数，例如 p50 或 p90 延迟。

下表汇总了我们用于语义分割的增强型极限点击工具针对三种实例类型的结果：p2.xlarge、p3.2xlarge 和 g4dn.xlarge。尽管 p3.2xlarge 实例提供了最低的延迟，但 g4dn.xlarge 实例提供了最佳的成本性能比。 g4dn.xlarge 实例仅比 p3.2xlarge 实例慢 8%（35 毫秒），但按小时计算，它比 p3.2xlarge 便宜了 81%（有关 SageMaker 实例类型和定价的更多详细信息，请参阅亚马逊 SageMaker 定价）。

		SageMaker Instance Type	p90 Latency (ms)
1	p2.xlarge	751
2	p3.2xlarge	424
3	g4dn.xlarge	459

结论

在这篇文章中，我们介绍了用于语义分割注释任务的 Ground Truth 自动分段功能的扩展。尽管该工具的原始版本允许您精确点击四次鼠标，从而触发模型提供高质量的分段掩码，但该扩展程序使您能够进行更正的单击，从而更新和指导机器学习模型做出更好的预测。我们还介绍了一种基本的架构模式，您可以使用该模式将交互式工具部署和集成到 Ground Truth 标签用户界面中。最后，我们总结了模型延迟，并展示了如何使用 SageMaker 实时推理端点轻松监控模型性能。

要了解有关该工具如何降低标签成本和提高准确性的更多信息，请访问 Amazon SageMaker数据标签，立即开始咨询。

作者简介

乔纳森·巴克 （Jonathan Buck）是亚马逊网络服务的软件工程师，从事机器学习和分布式系统的交叉工作。他的工作包括制作机器学习模型和开发由机器学习提供支持的新型软件应用程序，以将最新功能交到客户手中。

李二然是亚马 逊亚马逊云科技 AI 人类在环服务的应用科学经理。他的研究兴趣是三维深度学习以及视觉和语言表现学习。此前，他是 Alexa AI 的资深科学家、Scale AI 的机器学习负责人和 Pony.ai 的首席科学家。在此之前，他曾在Uber ATG的感知团队和优步的机器学习平台团队工作，致力于自动驾驶、机器学习系统和人工智能战略计划的机器学习。他的职业生涯始于贝尔实验室，曾是哥伦比亚大学的兼职教授。他在ICML'17和ICCV'19上共同教授教程，并在Neurips、ICML、CVPR、ICCV共同组织了多个研讨会，内容涉及自动驾驶的机器学习、三维视觉和机器人、机器学习系统和对抗性机器学习。他在康奈尔大学拥有计算机科学博士学位。他是 ACM 研究员和 IEEE 研究员。