使用亚马逊 SageMaker Canvas 构建机器学习模型来预测学生的表现
教育客户的思维模式发生了变化,他们现在愿意探索新技术和分析。多年来,大学和其他高等教育机构已经收集了大量数据,现在他们正在探索使用这些数据来获得更深入的见解和更好的教育成果的备选方案。
您可以使用机器学习 (ML) 来生成这些见解并构建预测模型。教育工作者还可以使用机器学习来识别学习成果方面的挑战,提高学生的成功率和留存率,并扩大在线学习内容的覆盖面和影响力。
但是,高等教育机构通常缺少机器学习专业人员和数据科学家。基于这一事实,他们正在寻找现有业务分析师可以迅速采用的解决方案。
Ama@@
在这篇文章中,我们将介绍如何使用 SageMaker Canvas 构建机器学习模型来预测学生的表现。
解决方案概述
在这篇文章中,我们将讨论一个具体的用例:大学如何使用 SageMaker Canvas 预测学生的辍学情况或在期末考试之前继续考试。我们预测学生在课程结束时是退学、注册(继续)还是毕业。我们可以利用预测结果采取积极行动来提高学生的表现并防止潜在的辍学。
该解决方案包括以下组件:
- 数据提取 — 将数据从本地计算机导入 SageMaker Canvas
- 数据准备 — 在 SageMaker Canvas 中清理和转换数据(如果需要)
- 构建机器学习模型 — 在 SageMaker Canvas 中构建预测模型以预测学生的表现
- 预测 -生成批量或单个预测
- 协作 — 使用 SageMaker Canvas 的分析师和使用
亚马逊 S ageMaker Studio 的数据科学家可以在各自的设置中进行互动,共享领域知识并提供专家反馈以改进模型
下图说明了解决方案架构。
先决条件
对于这篇文章,你应该完成以下先决条件:
- 拥有 A
WS 账户 。 - 设置 SageMaker 画布。有关说明,请参阅
设置亚马逊 SageMaker Canvas 的 先决条件 。 - 将以下
学生数据集 下载 到您的本地计算机。
该数据集包含学生背景信息,例如人口统计、学术旅程、经济背景等。该数据集包含 37 列,其中 36 列是特征,1 列是标签。标签列名称为 Target,它包含分类数据:辍学、注册和毕业。
该数据集受
数据提取
任何 ML 流程的第一步都是摄取数据。完成以下步骤:
- 在 SageMaker 画布控制台上,选择 “导入” 。
- 将
Dropout_Academic Success-Sheet1.csv
数据集导入 SageMaker 画布 - 选择数据集并选择 创建模型 。
- 命名
学生 表现模型模型
。
数据准备
对于机器学习问题,数据科学家分析数据集中的异常值,处理缺失值,添加或删除字段,并执行其他转换。分析师可以使用可视界面在 SageMaker Canvas 中执行相同的操作。请注意,主要数据转换超出了本文的范围。
在以下屏幕截图中,第一个突出显示的部分(在屏幕截图中注释为 1)显示了 SageMaker Canvas 的可用选项。IT 人员可以对数据集应用这些操作,甚至可以通过选择数据可 视化工具 浏览 数据 集以获取更多详细信息。
第二个突出显示的部分(在屏幕截图中注释为 2)表示数据集没有任何缺失或不匹配的记录。
构建 ML 模型
要继续训练和构建 ML 模型,我们需要选择需要预测的列。
- 在 SageMaker 画布界面上,对于 选择要预测的列 ,选择目标。
一旦你选择了目标列,它就会提示你验证数据。
- 选择 “ 验证 ” ,SageMaker Canvas 将在几分钟内完成对数据的验证。
现在是构建模型的时候了。你有两个选择: 快速构建 和 标准构建 。分析师可以根据您的要求选择任一选项。
- 在这篇文章中,我们选择 标准版本 。
除了速度和准确性外,标准构建和快速构建之间的一个主要区别是,标准构建提供了与数据科学家共享模型的功能,而快速构建却没有。
SageMaker Canvas 花了大约 25 分钟来训练和建造模型。您的模型可能需要更多或更少的时间,具体取决于输入数据的大小和复杂性等因素。该模型的准确率约为80%,如以下屏幕截图所示。您可以浏览底部部分,查看每列对预测的影响。
到目前为止,我们已经上传了数据集,准备了数据集,并建立了预测模型来衡量学生的表现。接下来,我们有两个选择:
- 生成批量或单个预测
- 与数据科学家共享此模型以获得反馈或改进
预测
选择 “ 预测 ” 开始生成预测。您可以从两个选项中进行选择:
- 批量预测 — 您可以在此处上传数据集,让 SageMaker Canvas 预测学生的表现。你可以使用这些预测来采取主动行动。
- 单项预测 -在此选项中,您可以为单个学生提供值。SageMaker Canvas 将预测该特定学生的表现。
协作
在某些情况下,作为分析师的你可能希望在进行预测之前获得专家数据科学家对模型的反馈。为此,请选择 “ 共享 ” 并指定要共享的 Studio 用户。
然后,数据科学家可以完成以下步骤:
- 在 Studio 控制台的导航窗格中 ,选择 模型 下的 共享模型 。
- 选择 “ 查看模型 ” 以打开模型。
他们可以通过以下任一方式更新模型:
- 共享新模型 -数据科学家可以更改数据转换,重新训练模型,然后共享模型
- 共享备用模型 — 数据科学家可以从经过训练的
亚马逊 SageMaker A utopilot 模型列表中选择一个备用模型,然后将其分享给 SageMaker Canva s 用户。
在此示例中,我们选择 “ 共享备用模型 ”, 并假设推理延迟作为关键参数与 SageMaker Canvas 用户共享第二好的模型。
数据科学家可以将 F1 分数、精度、召回率和日志丢失等其他参数作为决策标准,与 SageMaker Canvas 用户共享备用模型。
在这种情况下,最佳模型的准确率为 80%,推理延迟为 0.781 秒,而次优模型的准确率为 79.9%,推理延迟为 0.327 秒。
- 选择 “ 共享 ” 可与 SageMaker Canvas 用户共享备用模型。
- 添加要与之共享模型的 SageMaker Canvas 用户。
- 添加可选笔记,然后选择 “ 共享 ” 。
- 选择要共享的备用模型。
- 添加反馈并选择 “ 共享 ” 与 SageMaker Canvas 用户共享模型。
数据科学家与您共享更新的模型后,您将收到通知,SageMaker Canvas 将开始将模型导入控制台。
SageMaker Canvas 将花点时间导入更新的模型,然后更新后的模型将反映为新版本(本例中为 V3)。
现在,你可以在版本之间切换,并从任何版本生成预测。
如果管理员担心管理分析师和数据科学家的权限,他们可以使用
清理
为了避免将来产生费用,请删除您在关注这篇文章时创建的资源。SageMaker Canvas 会在会话期间向您收费,我们建议您在不使用 Canvas 时将其注销。有关更多详情,请参阅
结论
在这篇文章中,我们讨论了 SageMaker Canvas 如何帮助高等教育机构在不需要 ML 专业知识的情况下使用机器学习功能。在我们的示例中,我们展示了分析师如何在不编写任何代码的情况下快速构建高度准确的预测机器学习模型。大学现在可以根据这些见解采取行动,专门针对有退学风险的学生,提供个性化的关注和资源,使双方都受益。
我们演示了从将数据加载到 SageMaker Canvas、在 Canvas 中构建模型以及通过 Studio 接收数据科学家反馈等步骤。整个过程是通过基于 Web 的用户界面完成的。
作者简介
Ashutosh Kumar 是公共部门教育团队的解决方案架构师。他热衷于通过数字解决方案实现业务转型。他在数据库、AI/ML、数据分析、计算和存储方面拥有丰富的经验。