重温 2024 年亚马逊云科技 re:Invent 的精彩瞬间,一键查看主题演讲及创新讲座的精彩回放

 ✕

使用 Amazon Sagemaker 构建

Amazon SageMaker 提供标记训练数据、访问和共享笔记本以及使用内置算法和框架所需的所有内容,因此您可以大规模轻松构建机器学习 (ML) 模型并为训练做好准备。

功能

协作笔记本体验

Amazon SageMaker Notebooks 提供一键式 Jupyter 笔记本,可以快速启动弹性计算。Notebooks 包含运行或重新创建机器学习工作流程所需的一切,并集成在 Amazon SageMaker Studio 中。Notebooks 预装了所有常用的 CUDA 和 cuDNN 驱动程序、Anaconda 软件包以及框架库。

笔记本环境可让您浏览和可视化数据,并记录您在可重复使用的工作流程中的发现。在笔记本中,您可以引入存储在 Amazon S3 中的数据。此外,您还可以使用 Amazon Glue 轻松将数据从 Amazon RDS、Amazon DynamoDB 和 Amazon Redshift 移动到 S3 以进行分析。

全面托管的大规模数据处理

通常,机器学习的数据处理和分析工作负载是在自行管理的基础设施上运行的,而这一基础设施很难随着业务需求的变化分配和扩展。使用不同的工具来实现这一目标会变得很麻烦,从而导致性能达不到最优,资本和运营费用增加。为了克服这一挑战,Amazon SageMaker Processing 在 SageMaker 的易用性、可扩展性和可靠性基础上进行扩展,形成一种可大规模运行数据处理工作负载的全面托管体验。借助 SageMaker Processing,您可以连接到现有的存储或文件系统数据源,启动运行作业所需的资源,将输出保存到持久性存储中,并提供日志和指标。您还可以使用自己选择的框架引入自己的容器,并充分利用运行数据处理和分析工作负载的优势。

内置的高性能算法

Amazon SageMaker 提供的机器学习算法不仅性能高、可扩展,还针对速度、规模和准确性进行了优化,可以在 PB 级的数据集上执行训练。您可以从监督算法中选择,其中的正确答案在训练时是已知的,您也可以在模型出错的位置指示模型。SageMaker 提供了一些监督算法(如 XGBoost 和线性/逻辑回归或分类),以解决建议和时间序列预测问题。SageMaker 还提供了对非监督式学习(即算法必须自行发现正确答案)的支持,例如 K-Means 集群分析和主成分分析 (PCA),从而解决基于购买行为识别客户群等问题。

SageMaker 自动为您提供最常用的机器学习算法。您只需指定数据源,即可开始运行用于数据分割的 K-Means 集群分析,用于建议的因子分解机,时间序列预测,线性回归或主成分分析,或者许多其他立等可用的算法。

算法 说明
BlazingText Word2Vec Word2Vec 算法的 BlazingText 实施,用于扩大从大量文档生成词向量的规模并加速。
DeepAR 通过使用递归神经网络 (RNN) 从许多相关时间序列中学习模式来生成准确预测的算法。
因子分解机 即使通过很少量的数据也能够估算特征之间所有交互的模型
梯度提升树 (XGBoost) “极端梯度提升”的简称,XGBoost 是一个优化的分布式梯度提升库。
图像分类 (ResNet) 用于开发图像分类系统的常用神经网络。
IP Insights 用于检测恶意用户或学习 IP 地址使用模式的算法。
K-Means 集群分析 最简单的机器学习算法之一,用于在未标记的数据中查找组。
K-Nearest Neighbor (k-NN) 一种基于索引的算法,用于解决分类和基于回归的问题。
Latent Dirichlet Allocation (LDA) 一种非常适合自动发现一组文本文件中存在的主要主题的模型。
Linear Learner(分类) 线性分类使用对象的特征来识别对象所属的适当组。
Linear Learner(回归) 线性回归用于预测两个变量之间的线性关系。
Neural Topic Modeling (NTM) 一种基于神经网络的方法,用于从文本和图像数据集中学习主题。
Object2Vec 一种神经嵌入算法,用于计算最近邻并对自然集群进行可视化显示。
对象检测 检测图像中的多个对象,进行分类并在其周围放置边界框。
主成分分析 (PCA) 此算法通常用于数据预处理,先取一个包含许多特征的表或矩阵,然后将其简化为数量较少的代表性特征。
Random Cut Forest 一种用于异常检测的非监督式机器学习算法。
语义分割 通过为图像的各个像素分配标签对图像进行分割,以标识相关的位置。
Sequence2Sequence 适用于文本的通用编码器-解码器,通常用于机器语言翻译、文本摘要等。

了解更多 »

您还可以通过 Docker 容器引入自己的框架或算法。

广泛框架支持

Amazon SageMaker 支持许多常用的深度学习框架,例如 TensorFlow、Apache MXNet、PyTorch、Chainer 等。这些框架会自动配置和优化以实现高性能。您无需手动设置这些框架,就可以在内置容器中使用它们。您也可以将所需的任何框架引入到 SageMaker,方法是将其内置到您可以存储在 Amazon EC2 Container Registry 中的 Docker 容器。

在本地执行测试和构建原型

Amazon SageMaker 中使用的开源 Apache MXNetTensorFlow Docker 容器在 Github 上可用。您可以将这些容器下载到本地环境,使用 SageMaker Python 软件开发工具包测试脚本,然后再部署到 SageMaker 训练或托管环境。当您已完成本地测试并准备好部署到生产训练和托管环境时,只需更改一行代码即可。 

强化学习

除传统的监督和非监督式学习外,Amazon SageMaker 还支持强化学习。SageMaker 具有内置、完全托管的强化学习算法,包括学术文献中的一些最新和最佳表现的算法。SageMaker 在多个框架(包括 TensorFlow 和 MXNet)以及为强化学习从头设计的更新的框架(如 Intel Coach 和 Ray RL)中都支持 RL。支持多个 2D 和 3D 物理特性模拟环境,包括基于开源 OpenGym 接口的环境。此外,SageMaker RL 将允许您使用 Amazon Sumerian 和 Amazon RoboMaker 中内置的虚拟 3D 环境进行训练。为帮助您入门,SageMaker 还提供了一系列示例笔记本和教程。

大多数机器学习都属于监督学习这一类别。此方法需要大量带标签的训练数据,但是您构建的模型能够做出复杂的决策。这是计算机视觉、语音和语言模型的常用方法。另一种常见但使用较少的机器学习类别称为非监督式学习。这种类别的算法尝试识别未标记数据中的隐藏结构。训练非监督式模型的门槛要低得多,但是需要权衡的是,该模型只能做出不太复杂的决策。非监督式模型通常用于识别数据中的异常,例如温度的异常波动或网络入侵迹象。

强化学习 (RL) 已经成为第三种补充的机器学习方法。RL 采用了一种迥然不同的训练模型方法。它几乎不需要任何带标签的训练数据,但仍然可以达到(在某些情况下甚至超过)人类的复杂水平。RL的最大优势在于,它可以学习为一系列复杂的行为建模以达到期望的结果,而不是简单地做出一个决定。目前 RL 的一个最常见应用是训练自动驾驶汽车导航到目的地。

要理解 RL 的工作原理,一种简单的方法就是想成一个简单的视频游戏,里面的人物需要在迷宫中穿行以收集旗帜并避开敌人。游戏不是给人类玩,而是由算法来控制人物并玩数百万次游戏。要开始游戏,算法只需要知道人物可以上下左右移动,并且可以通过得分获得奖励。然后,算法会学习如何玩才能获得尽可能高的分数。它会学习提高得分的行为(例如捡起旗帜或利用分数加成),并尽量减少惩罚(例如被敌人击中)。 RL 算法逐渐可以学会驾驭游戏的高级策略,例如首先清除迷宫的下面部分,如何以及何时使用威力升级,还有如何利用敌人的行为等等。

RL 可以成为传统机器学习技术的力量倍增器。例如,人们已经将 RL 和监督学习相结合,在医疗保健领域打造个性化的治疗方案,优化制造供应链,改善风力涡轮机性能,驱动自动驾驶汽车,安全地操作机器人,甚至为学生制定个性化的课程和学习计划。

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域