发布于: Aug 26, 2022

 

使用机器学习处理表格数据时,我们往往需要引入人工审核流程,协助管理工作流中需要人工加以判断的敏感环节

 

针对表格数据进行 AI 需求预测一直是一个热门话题。表格类数据一直是众多行业(包括金融、医疗保健以及制造业等)所采取的主要数据存储方法。大多数机器学习(ML)用例也主要面向传统的结构化或表格数据。例如,欺诈检测用例会通过表格形式的输入内容——包括客户账户的历史记录或付款明细——以检测交易中是否存在欺诈风险。客户流失检测或产品需求预测等也都属于这类依赖于表格数据的用例。而在使用机器学习处理表格数据时,我们往往需要引入人工审核流程,协助管理工作流中需要人工加以判断的敏感环节。

在此类用例的工作流中,人工审核人员需要查看 ML 模型中以静态表格格式(通常被称为「数据框」)作为输入的全部或部分数字化特征,同时对输出结果中的某些行做出动态修改。在前一种情况下,负责构建工作 UI 的开发人员可能要求将表格数据作为静态、不可变的对象直接摄取至 UI 当中。而在后一种用例内,我们则可以对表进行动态摄取。这时表将作为 UI 的一部分生成,并供审查者随时对其做出修改。

在本文中,我们将了解如何使用 Amazon SageMaker 来构建、训练及部署基于表格数据的 ML 模型;同时使用 Amazon Augmented AI(Amazon A2I)构建并呈现自定义工作模板,帮助审查人员随时查看静态或动态表。Amazon SageMaker 是一项全托管服务,能够将快速构建、训练以及部署 ML 模型的能力交付至每一位开发人员及数据科学家手中。Amazon SageMaker 消除了机器学习流程中各环节所带来的繁重工作,帮助客户构建起人工审核工作流,借此审查并验证 ML 模型的预测结果。Amazon A2I 则消除了构建这些人工检查工作流所带来的种种系统管理负担。

其他常见的人工工作流程还包括图像与视频内容审核,以及从文档中提取文本与实体等。我们可以直接使用 ML 模型识别不当内容或者提取实体,但在实践中往往仍然需要工作人员结合具体用例及业务环境对模型预测加以验证。在这方面,Amazon A2I 能够帮助大家快速设计并建立起此类人工工作流。我们还可以通过 Amazon A2I 将 ML 预测出的随机样本发送给人工审查员,或者使用这些结果向利益相关方展示模型性能并审核模型预测能力。

 

要完成本文的演练,大家需要满足以下先决条件:

  1. IAM 角色——要创建人工审核工作流,大家需要提供一个 Amazon Web Services Identity and Access Management (IAM) 角色,用于向 Amazon A2I 授予访问 Amazon Simple Storage Service (Amazon S3) 的权限,进而编写人工审核结果。此角色还需要具备其他信任策略,保证 Amazon SageMaker 有权使用该角色。如此一来,Amazon A2I 即可根据角色对应的权限执行操作。关于如何对用于创建工作流定义的角色进行策略修改与添加,请参阅如何创建流定义。
  2. Amazon SageMaker notebook 实例——关于创建 Amazon SageMaker notebook 实例的详细说明,请参阅创建一个 Notebook 实例。
  3. S3 存储桶——创建一个 S3 存储桶以保存您的人工工作流输出结果。请记录该存储桶的 ARN,以供后续在随附的 Jupyter notebook 中使用。
  4. 专项团队——即负责对文档进行人工审核的员工。您可以指定内部员工组建审核团队,也可以选择由 Amazon Mechanical Turk 聘用的员工、供应商的员工或者以外包形式募集的其他人员。在本文中,我们将指定内部员工组建审核团队,由他们审查 Amazon A2I 工作流。关于更多详细信息,请参阅创建专项团队。请记录该团队的 ARN,以供后续在随附的 Jupyter notebook 中使用。
  5. Jupyter notebook ——本文直接使用 GitHub 上提供的 Jupyter notebook。在数据集方面,我们使用 scikit-learn 提供的 UCI 乳腺癌检测数据集,即使用医学诊断数据预测病变属于良性还是恶性。
 

相关文章