使用 PyTorch 模型动物园创建亚马逊 SageMaker 模型

部署经过训练的高质量机器学习 (ML) 模型来执行批量或实时推理是为客户创造价值的关键部分。但是，机器学习实验过程可能很乏味——有许多方法需要大量时间才能实施。这就是为什么预训练的机器学习模型（如 PyTorch 模型库中提供的模型）如此有用的原因。亚马逊 S ageMaker 提供了一个统一的界面来实验不同的机器学习模型，而 PyTorch 模型动物园允许我们以标准化的方式轻松地交换模型。

这篇博客文章演示了如何在 SageMaker 中使用 PyTorch 模型库中的对象检测模型执行机器学习推断。来自 PyTorch 模型库的预训练机器学习模型是现成的，可以轻松地用作 ML 应用程序的一部分。按照本博客文章中概述的步骤，可以轻松地将这些机器学习模型设置为 SageMaker 端点或 SageMaker 批量转换作业，用于在线或离线推理。我们将使用更快的 R-CNN 物体检测模型来预测预定义对象类的边界框。

我们举一个端到端的示例，从加载 Faster R-CNN 对象检测模型权重，到将其保存到亚马逊简单存储服务 (Amazon S3) 存储桶，再到编写入口点文件并理解 PytorchModel API 中的关键参数。最后，我们将部署机器学习模型，使用 SageMaker 批量转换对其进行推断，检查机器学习模型输出并学习如何解释结果。此解决方案可以应用于 PyTorch 模型动物园上的任何其他预训练模型。有关可用模型的列表，请参阅 PyTorch 模型动物园文档。

解决方案概述

这篇博客文章将介绍以下步骤。有关所有步骤的完整工作版本，请参阅 create _pytorch_model_sagemaker.ipynb

步骤 1：设置
第 2 步：从 PyTorch 模型库加载机器学习模型
步骤 3 保存机器学习模型工件并将其上传到 Amazon S3
步骤 4：构建 ML 模型推理脚本
第 5 步：启动 SageMaker 批量转换作业
步骤 6：可视化结果

架构图

目录结构

可以在此 GitHub 存储库中找到此博客的代码。代码库包含我们构建 ML 模型工件、启动转换作业和可视化结果所需的一切。

这是我们使用的工作流程。以下所有步骤都将引用此结构中的模块。

sagemaker_pytorch_model_zoo --> root directory
    |- inference.py --> entry point file
    |- create_pytorch_model_sagemaker.ipynb --> walks through all steps in this blog post
    |- cars.jpg --> input image

sagemaker_torch_model_zoo 文件夹应包含 inference.py 作为入口点文件，并包含 create_ pytorch_model_sagemaker.ipynb 以加载和保存模型权重，创建 SageMaker 模型对象，最后将其传递给 SageMaker 批量转换作业。要自带机器学习模型，请更改笔记本的 “步骤 1：设置” 部分中的路径，并在 “步骤 2：从 PyTorch 模型库” 部分加载机器学习模型中加载新模型。以下步骤的其余部分将保持不变。

步骤 1：设置

IAM 角色

SageMaker 在由 SageMaker 管理的基础架构上执行操作。SageMaker 只能执行笔记本附带的 SageMaker IAM 执行角色中定义的允许操作。有关创建 IAM 角色和管理 IAM 权限的更详细文档，请参阅 A WS SageMaker 角色文档。我们可以创建一个新角色，也可以通过运行以下几行代码来获取 SageMaker (Studio) 笔记本的默认执行角色：

import sagemaker

session = sagemaker.Session()

# Set a default S3 bucket
default_bucket = session.default_bucket()

# Get the region
region = boto3.Session().region_name

# Get the SageMaker Execution Role
role_arn = sagemaker.get_execution_role()

上面的代码获取了笔记本实例的 SageMaker 执行角色。这是我们为 SageMaker 或 SageMaker Studio 笔记本实例创建的 IAM 角色。

用户可配置的参数

以下是构建和启动 SageMaker 批处理转换作业所需的所有可配置参数：

INSTANCE_TYPE= "ml.m5.xlarge"
INSTANCE_COUNT= 1
BUCKET = os.path.join("s3://", default_bucket)

DATA_PATH= os.path.join(BUCKET, "images")
IMAGE_NAME = "cars.jpg"
RANDOM_STRING_LENGTH= 16
MODEL_NAME= "FasterRCNNResnet50"

# Needs to be set to version 1.2 or higher to enable automatic PyTorch model repackaging
FRAMEWORK_VERSION= "1.2"
ENTRY_POINT_FILE_NAME= "inference.py"

SAGEMAKER_EXECUTION_ROLE_ARN= role_arn
MODEL_ARTIFACTS_FILE_NAME= os.path.join(BUCKET, "modelzoo/fasterrcnn_resnet50_fpn/model.tar.gz")
IMAGE_URI= sagemaker.image_uris.retrieve(framework="pytorch",
region=region,
version="1.9.1",
py_version="py38",
image_scope='inference',
instance_type=INSTANCE_TYPE)

第 2 步：从 PyTorch 模型库加载机器学习模型

接下来，我们从 PyTorch 模型库中指定一个物体检测模型并保存其 ML 模型权重。通常，我们使用.pt 或.pth 文件扩展名保存 PyTorch 模型。下面的代码片段从 PyTorch 模型动物园下载了预训练的 Faster R-CNN Resnet50 ML 模型：

模型 = torchvision.models.detection.fasterrcnn_resnet50_fpn（预训练=True）

SageMaker 批量转换需要一些模型权重作为输入，因此我们将预训练的机器学习模型保存为 model.pt。如果我们想加载自定义模型，则可以将另一个 PyTorch 模型中的模型权重保存为 model.pt。

H = 1080
W = 1920
scripted_fn = torch.jit.script(model, torch.randn(1, 3, H, W))
scripted_fn.save("model.pt")

第 3 步：将机器学习模型工件保存并上传到 Amazon S3

由于我们将使用 SageMaker 进行 ML 推断，因此我们需要将模型权重上传到 S3 存储桶。我们可以使用以下命令来完成此操作，也可以直接将文件下载并拖放到 S3 中。以下命令将首先将 model.p t 中的文件组压缩为 tarball，然后将模型权重从我们的本地计算机复制到 S3 存储桶。

注意：要运行以下命令，您需要安装亚马逊云科技命令行接口 (亚马逊云科技 CLI) 。

tar -czvf model.tar.gz model.pt
aws s3 cp model.tar.gz $MODEL_ARTIFACTS_FILE_NAME

接下来，我们将输入图像复制到 S3。以下是图像的完整 S3 路径。

car_image_path = os.path.join(DATA_PATH, IMAGE_NAME)

我们可以使用另一个 aws s3 cp 命令将此映像复制到 S3。

aws s3 cp cars.jpg $car_image_path

步骤 4：构建 ML 模型推理脚本

现在我们将浏览我们的入口点文件 inference.py 模块。我们可以使用 pytorchModel 类部署在 SageMaker 之外训练的 PyTorch 模型。首先，我们对 pytorchModelZoo 对象进行实例化。然后，我们将构造一个 inference.py 入口点文件，使用 SageMaker 批量转换对托管在 Amazon S3 中的样本数据进行机器学习推断。

理解 pytorchModel 对象

SageMaker Python API 中的 pytorchModel 类允许我们使用下载的模型工件进行机器学习推断。

要启动 pytorchModel 类，我们需要了解以下输入参数：

名称 ：型号名称；为了保持唯一性，我们建议使用模型名称+日期时间或随机字符串+日期时间。
模型_数据 ：打包的 ML 模型工件的 S3 URI。
entry_point ：用户定义的 Python 文件，供推理 Docker 映像用来定义传入请求的处理程序。该代码定义了模型加载、输入预处理、预测逻辑和输出后处理。
framework_version ：需要设置为 1.2 或更高版本才能启用 PyTorch 模型的自动重新打包。
source_dir ：入口点文件的目录。
角色 ：发出亚马逊云科技服务请求的 IAM 角色。
image_uri ：使用这个 Amazon ECR Docker 容器镜像作为机器学习模型计算环境的基础。
sagemaker_session：Sagemaker 会话 。
py_version ：要使用的 Python 版本

以下代码片段将 PytorchModel 类实例化，以便使用预训练的 PyTorch 模型进行推理：

model = PyTorchModel(
               name=RANDOM_STRING,
               model_data=MODEL_ARTIFACTS_FILE_NAME,
               entry_point=ENTRY_POINT_FILE_NAME,
               framework_version=FRAMEWORK_VERSION,
               role=SAGEMAKER_EXECUTION_ROLE_ARN,
               sagemaker_session=sagemaker_session,
               image_uri=IMAGE_URI,
        )

了解入口点文件 (inference.py)

入口点参数指向一个名为 inference.py 的 Python 文件。 此入口点定义模型加载、输入预处理、预测逻辑和输出后处理。它补充了在预构建的 PyTorch SageMaker 深度学习容器映像中提供代码的机器学习模型。

Inference.py 将包含以下函数。 在我们的示例中，我们实现了 model_fn、 input_fn 、p redict_fn 和 output_fn 函数来覆盖默认的 PyTorch 推理处理程序。

model_fn ：进入推理图像中包含静态模型检查点的目录。从指定路径打开并加载模型并返回 PyTorch 模型。
input_fn ：将传入请求（request_body）的负载和传入请求的内容类型（request_content_type）作为输入。处理数据解码。需要根据模型期望的输入调整此函数。
predict_fn ：根据在 input_fn 中反序列化的数据调用模型。使用加载的 ML 模型对反序列化对象执行预测。
output_fn ：将预测结果序列化为所需的响应内容类型。将从 predict_fn 函数获得的预测转换为 JSON、CSV 或 NPY 格式。

第 5 步：启动 SageMaker 批量转换作业

在此示例中，我们将通过 SageMaker 批量转换作业获得 ML 推理结果。当我们想要从数据集获得一次推论而无需永久端点时，批量转换作业最有用。我们实例化了一个 Sagemaker.Trans former.Transformer 对象，用于创建 SageMaker 批量转换作业并与 SageMaker 进行交互。

transformer = model.transformer(instance_type=INSTANCE_TYPE, 
                                instance_count=INSTANCE_COUNT
                                )
transformer.transform(data=DATA_PATH,
                      data_type="S3Prefix",
                      content_type="application/x-image",
                      wait=True
                      )

请参阅 createTransformJob 上有关创建批处理转换作业的文档。

步骤 6：可视化结果

SageMaker 批量转换任务完成后，我们可以从 Amazon S3 加载机器学习推理输出。为此，请导航到亚马逊云科技管理控制台并搜索 Amazon SageMaker。在左侧面板的 “ 推理 ” 下，请参阅 批量转换作业 。

选择 批量转换 后，请参阅列出所有 SageMaker 批量转换作业的网页。我们可以查看最近任务执行的进度。

首先，该作业的状态将为 “进行中”。完成后，看到状态更改为 “已完成”。

状态标记为已完成后，我们可以单击作业来查看结果。该网页包含任务摘要，包括我们刚刚执行的作业的配置。

在 输出数据配置 下，我们将看到 S3 输出路径。我们将在此处找到 ML 推理输出。

选择 S3 输出路径并查看 [image_name]。[file_type] .out 文件，其中包含我们的输出数据。我们的输出文件将包含映射列表。输出示例：

[
  {
    "boxes": [
      [
        214.32322692871094,
        192.18418884277344,
        830.3932495117188,
        521.6996459960938
      ],
      [
        235.6244354248047,
        301.3315734863281,
        253.6448516845703,
        312.3525695800781
      ],
      [
        183.92031860351562,
        291.7759704589844,
        207.28196716308594,
        312.1448669433594
      ],
    ],
    "labels": [
      3,
      3,
      9,
    ],
    "scores": [
      0.8823906183242798,
      0.7710548639297485,
      0.4969744384288788,
    ]
  }
]

In order to visualize these predictions, we first read the output path from our transformer object.

def get_output_from_s3(s3uri, file_name):
    parsed_url = urlparse(s3uri)
    bucket_name = parsed_url.netloc
    prefix = parsed_url.path[1:]
    s3 = boto3.resource('s3')
    obj = s3.Object(bucket_name, '{}/{}'.format(prefix, file_name))
    return obj.get()["Body"].read().decode('utf-8')
    
# Output path from Batch Transform job
output_path = transformer.output_path

# Get the output file from S3
predictions = get_output_from_s3(output_path, "car.jpg.out")

接下来，我们处理这个输出文件并可视化我们的预测。下面我们指定我们的置信度阈值。我们从 COCO 数据集对象映射中获取类列表。在推理期间，该模型只需要输入张量，并以 List [Dict [Tensor]] 的形式返回经过后处理的预测，每张输入图像对应一个。字典的字段如下所示，其中 N 是检测次数：

方框（floaTensor [N，4]）：以 [x1、y1、x2、y2] 格式显示的预测方框，其中 0 <= x1 < x2 <= W 和 0 <= y1 < y2 <= H，其中 W 是图像的宽度，H 是图像的高度
标签（ Int64Tensor [N] ）：每次检测的预测标签
分数（ 张量 [N] ）：每次检测的预测分数

有关输出的更多详细信息，请参阅 PyTorch Faster R-CNN F PN 文档。

模型输出包含具有相应置信度分数的边界框。我们可以通过移除模型不确信的边界框来优化误报的显示。以下代码片段处理输出文件中的预测，并在分数高于我们的置信度阈值的预测上绘制边界框。在此示例中，我们将概率阈值 CONF_THRESH 设置为 .75。

def procress_batch_transform_output(predictions):
    predictions = eval(predictions)
    for pred in predictions[1:]:
        pred = pred[0]
        boxes = np.array(pred["boxes"])
        labels = np.array(pred["labels"])
        scores = np.array(pred["scores"])

        scores_idx = scores >= CONF_THRESH
        boxes_meet = boxes[scores_idx, :]
        labels_meet = labels[scores_idx]
        scores_meet = scores[scores_idx]

        labels_str = [CLASSES[i] for i in labels_meet]
        
        # Return a tuple containing labels, label index, score, and bounding box
        processed_predictions =  list(zip(labels_str, labels_meet, scores_meet, boxes_meet))
        return processed_predictions
    
    
def visualize_batch_transform_output(input_image, processed_predictions):
    # read input image from computer
    img = read_image(input_image)
    for label, label_index, score, box in processed_predictions:
        label = label + ", score: " + str(round(score, 2))
        # draw bounding box and fill color
        box = torch.tensor(box)
        box = box.unsqueeze(0)
        img = draw_bounding_boxes(img, box, width=5,labels=[label], font_size=16)

    # transform this image to PIL image
    img = torchvision.transforms.ToPILImage()(img)

    # display output
    img.show()

# Process the predictions in the output file
processed_predictions = procress_batch_transform_output(predictions)
visualize_batch_transform_output("car.jpg", processed_predictions)

最后，我们将这些映射可视化以了解我们的输出。

注意：如果图像未显示在笔记本中，请在 JupyterLab 左侧的目录树中找到它，然后从那里将其打开。

运行示例代码

要查看完整的工作示例，请克隆亚马逊 sagemaker-examples GitHub 中的代码，然后运行 create_pytorch_model_sagemaker.ip ynb 笔记本中的单元格。

结论

在这篇博客文章中，我们展示了使用 PyTorch Model Zoo 中的物体检测模型使用 SageMaker 批量转换执行机器学习推理的端到端示例。我们介绍了加载 Faster R-CNN 对象检测模型权重、将其保存到 S3 存储桶、编写入口点文件以及理解 PytorchModel API 中的关键参数。最后，我们部署了模型并执行了机器学习模型推断，对模型输出进行了可视化，并学习了如何解释结果。

SageMaker JumpStart 还提供来自热门模型动物园（包括 PyTorch、TensorFlow 和 HuggingFace 模型动物园）的 500 多个预训练模型，用于解决物体检测、图像分类、文本分类、问题解答等常见的机器学习任务。后续博客将解释如何使用 SageMaker JumpStart 部署和微调 PyTorch 对象检测模型，包括 Faster R-CNN 和 SSD。

作者简介

Dipika Khullar 是亚马逊机器学习解决方案实验室的一名机器学习工程师。她帮助客户整合机器学习解决方案来解决他们的业务问题。最近，她为媒体客户建立了培训和推理管道，并为营销建立了预测模型。

Marcelo Aberle 是亚马逊云科技 AI 组织的一名机器学习工程师。他在亚马逊机器学习解决方案实验室领导 m LOP 工作，帮助客户设计和实施可扩展的机器学习系统。他的使命是指导客户踏上企业机器学习之旅，加快他们的 ML 生产之路。

Ninad Kulkarni 是亚马逊机器学习解决方案实验室的应用科学家。他通过构建解决方案来解决客户的业务问题，帮助他们采用机器学习和人工智能。最近，他为体育、汽车和媒体客户建立了预测模型。

Yash Shah 是亚马逊 ML 解决方案实验室的科学经理。他和他的应用科学家和机器学习工程师团队致力于医疗保健、体育、汽车和制造业等一系列机器学习用例。

快速注册账号　享用免费套餐

跟随注册步骤详解，三分钟快速创建账号，领取免费权益 立即注册 »

1 进入注册页面
1. 打开中国区

账号注册页面

输入邮箱 - 邮箱验证

1. 打开中国区账号注册页面

输入邮箱 - 邮箱验证

立即开始注册立即开始注册

01

填写您

注册账号的邮箱

点击“继续”

01

填写您

注册账号的邮箱

点击“继续”

02

查看您的

注册账号邮箱

发件箱 no-reply@register.signin.amazonaws.com.cn

02

查看您的

注册账号邮箱

发件箱 no-reply@register.signin.amazonaws.com.cn

03

输入

邮箱中收到的验证码

点击“继续”

03

输入

邮箱中收到的验证码

点击“继续”

注：该链接中的内容显示语言是与您的网页浏览器设置相一致的，您可以根据需要自行调整语言栏。 *图片点击可放大
2 设置用户名及密码
2. 填写用户名密码

设置用户名 - 设置密码 - 确认密码

2. 填写用户名密码

设置用户名 - 设置密码 - 确认密码

立即开始注册立即开始注册

01

请设置您的

账号用户名

*例如: webchina

01

请设置您的

账号用户名

*例如: webchina

02

为您的帐号

设置密码

02

为您的帐号

设置密码

03

重新

输入密码

03

重新

输入密码

*图片可点击放大
3 填写企业信息
3. 填写账号联系人以及公司信息

3. 填写账号联系人以及公司信息

填写姓名 - 填写联系电话 - 填写公司名称 - 填写办公地址 - 选择是否需要发票 - 点击查看客户协议

填写姓名 - 填写联系电话 - 填写公司名称 - 填写办公地址 - 选择是否需要发票 - 点击查看客户协议

立即开始注册立即开始注册

01

填写公司联系人

姓名全称

01

填写公司联系人

姓名全称

02

填写公司联系人的

联系电话

02

填写公司联系人的

联系电话

03

填写

公司名称

*重要！！！公司名称请务必与您所提供的营业执照公司名称保持一致

03

填写

公司名称

*重要！！！公司名称请务必与您所提供的营业执照公司名称保持一致

04

填写

公司办公地址

省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码

04

填写

公司办公地址

省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码

05

请选择

是否需要发票

*附件-申请发票流程供您参考

05

请选择

是否需要发票

*附件-申请发票流程供您参考

06

点击查看

客户协议

勾选方框表示您已阅读，并同意客户协议的条款

06

点击查看

客户协议

勾选方框表示您已阅读，并同意客户协议的条款

*图片可点击放大
4 企业信息验证
4. 企业信息验证

上传企业执照 - 填写负责人姓名 - 填写联系方式 -上传身份证件

4. 企业信息验证

上传企业执照 - 填写负责人姓名 - 填写联系方式 -上传身份证件

立即开始注册立即开始注册

01

在此上传

企业注册执照

01

在此上传

企业注册执照

02

请填写网络安全负责人的

姓名

请注意：该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

02

请填写网络安全负责人的

姓名

请注意：该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

03

请填写网络安全负责人的

联系方式

有效的电子邮件地址 - 有效的中国内地手机号码 - 座机号码（如无座机，请填写正确有效的手机号码）

03

请填写网络安全负责人的

联系方式

有效的电子邮件地址 - 有效的中国内地手机号码 - 座机号码（如无座机，请填写正确有效的手机号码）

04

在此上传网络安全负责人的

身份证件

请注意：当您选择证件类型为“身份证”时，您需要填写正确的身份证号码，选择其他证件类型时，您需要上传证件扫描稿

04

在此上传网络安全负责人的

身份证件

请注意：当您选择证件类型为“身份证”时，您需要填写正确的身份证号码，选择其他证件类型时，您需要上传证件扫描稿

*图片可点击放大
5 完成手机验证
5. 完成手机验证

输入手机号 - 输入验证码

5. 完成手机验证

输入手机号 - 输入验证码

立即开始注册立即开始注册

01

在此填写

手机号

01

在此填写

手机号

02

请输入您收到的

4 位

验证码

02

请输入您收到的 4 位

验证码

03

请点击

继续

03

请点击

继续

*图片可点击放大
6 选择支持计划
6. 选择支持计划

选择一个亚马逊云科技支持计划

6. 选择支持计划

选择一个亚马逊云科技支持计划

立即开始注册立即开始注册

请根据需求

选择一个支持计划

请根据需求

选择一个支持计划

*图片点击可放大

免费试用 Amazon EC2 T4g 实例