Amazon SageMaker Clarify

检测机器学习模型中的偏差并了解模型预测

Amazon SageMaker Carify 让机器学习开发人员可以更好地了解其训练数据和模型，从而识别和限制偏差并解释预测。

偏差是指训练数据或模型预测行为在不同群体（例如年龄或收入档次）中的不平衡。偏差可能来自用于训练模型的数据或算法。例如，如果机器学习模型主要根据中年人的数据进行训练，那么在做出涉及年轻人和老年人的预测时，可能会不太准确。机器学习领域提供了一个通过检测偏差并在数据和模型中对其进行测量来解决偏差的机会。您还可以查看模型输入的重要性，以解释模型为什么做出预测。

Amazon SageMaker Clarify 通过检查您指定的属性，可在数据准备期间、模式训练后和部署的模型中检测潜在的偏差。例如，您可以在初始数据集或训练过的模型中检查与年龄相关的偏差，并且会收到一份详细报告，报告对不同类型的可能偏差进行了量化。SageMaker Clarify 还包括功能重要性图表，这些图表可帮助您解释模型预测并生成报告，而这些报告可用于支持内部演示或识别模型中的问题，以便您采取措施进行纠正。

检测数据和模型中的偏差

识别数据中的不平衡

SageMaker Clarify 与 Amazon SageMaker Data Wrangler 进行了集成，可以在数据准备期间更轻松地识别偏差。您可以指定感兴趣的属性，例如性别或年龄，SageMaker Clarify 则会运行一组算法来检测这些属性中是否存在偏差。算法运行后，SageMaker Clarify 会提供可视化报告，其中包含潜在偏差的来源和测量值的描述，以便您可以确定补救偏差的步骤。例如，再一个与其他数据集相比只包含了一个年龄组的几个商业贷款示例的金融数据集中，SageMaker 会标记出不平衡，以便您可以避免不适合此年龄组的模型。

数据准备期间 SageMaker Data Wrangler 中的偏差指标屏幕截图

检查已训练的模型是否存在偏差

您还可以检查训练过的模型是否存在偏差，例如，对一个组产生负面结果比对另一个组更频繁的预测。SageMaker Clarify 与 SageMaker Experiments 进行了集成，因此，在模型训练完成后，您可以识别您想要检查偏差的属性，例如年龄。SageMaker 运行一组算法来检查训练模型，并为您提供可视化报告，以识别每个属性的不同类型的偏差，例如相比年轻人群体，老年人群体得到的预测是否更积极。

监控模型是否存在偏差

尽管您的初始数据或模型可能没有偏差，但世界的变化可能会对已经过训练的模型带来偏差。例如，如果某些群体在原始训练数据中没有出现或准确地表示出来，购房者人口统计数据的重大变化可能会导致住房贷款申请模型出现偏差。SageMaker Clarify 与 SageMaker Model Monitor 进行了集成，使您可以配置 Amazon CloudWatch 之类的警报系统，以在您的模型超出特定的偏差指标阈值时通知您。

注册开启免费试用热门云产品任你选

免费体验 40+ 款企业级云服务，一次性试用多款云产品，迅速找到适配您业务的解决方案

立即注册

解释模型行为

了解您的模型

在生成预测时，经过训练的模型对一些模型输入的考虑可能会比对其他模型输入更强。例如，贷款申请模型对信用历史记录的看重程度可能比其他因素更重。SageMaker Clarify 与 SageMaker Experiments 进行了集成，以提供一个图表，详细说明哪些特征在模型训练完成后对模型的整体预测过程贡献最大。这些详细信息可能有助于符合合规性要求，也可以帮助确定特定模型输入对整体模型行为的影响是否大于其应有的程度。

监控模型的行为变化

真实世界数据的变化可能会导致模型为模型输入赋予不同的权重，进而随着时间的推移改变其行为。例如，房价下跌可能会导致模型在进行贷款预测时减弱对收入的看重。Amazon SageMaker Clarify 与 SageMaker Model Monitor 进行了集成，可在模型输入的重要性发现变化从而导致模型行为改变时提醒您。