机器学习技术文章 - 亚马逊云科技中国官网

TensorIoT公司为何选择Amazon Web Services服务「机器学习」

发布于: Mar 14, 2022

各项元素如何融合于一处

首先，TensorIoT 部署了自定义 Amazon Lex 搜索 intent，其将在聊天机器人接收到无法回答的问题或话语时触发。该团队使用 Amazon Web Services Lambda 开发出 intent 对话与实现代码 hook，用以管理对话流程与实现 API。经过开发、测试与合并之后，这一全新搜索 intent 被正式纳入 Citibot的开发版本，用以确保所有原始 intent 皆可正常起效。

接下来，TensorIoT 需要创建搜索查询引擎。之所以选择 Amazon Kendra，是因为这项服务能够将各类数据源与数据类型集成至 Citibot 的现有技术栈当中。TensorIoT 与 Citibot 开发团队确定了政府数据源目标组，其中包括负责常规检查的疾控中心网站（用于获取 COVID-19 数据）与多个城市网站（用于获取市政数据）。以此为基础，聊天机器人即可随时更新关于病毒传播及社交隔离的最新指南。

下图所示，为 Citibot 通用搜索解决方案中所使用的各个数据源。

阅读更多 »

使用 Amazon Personalize 建立个性化优惠券--新旧架构对比「机器学习」

发布于: Jan 29, 2022

使用统计方法生成规模化推荐

阅读更多 »

人工智能和机器学习的关系「机器学习」

发布于: Aug 11, 2022

关于人工智能 (AI) 和机器学习 (ML) 的关系的文章都关注这样一个事实，即 ML 是 AI 中的一个研究领域。尽管在过去确实如此，但两者之间存在着更紧密的关系，即成功的人工智能应用程序几乎都使用 ML 技术作为基础来实现。机器学习已经成为现代 AI 的基础，而不是它的组成部分。

阅读更多 »

企业级机器学习的案列——建立同形异义词攻击检测模型「机器学习」

发布于: Aug 12, 2022

今天为大家介绍一个企业级机器学习的案列——利用 Amazon SageMaker 建立一套同形异义词攻击检测模型。相较于政府颁发的身份证号码或电话号码，我们当然更习惯于通过姓名来识别一个人的身份。同样的，域名系统（DNS）也帮助我们更便捷地通过名称指向并访问对应 IP 地址背后的互联网服务或资源。也正因为 DNS 本身广泛存在，在网络连接体系中扮演着至关重要的角色，且大多数网络安全策略往往没有做到对 UDP 53 端口的网络流量进行监控——种种原因，导致 DNS 成为不少恶意攻击者眼中的理想目标。事实上，不少已知的传统安全解决方案确实无法检测到DNS恶意软件中所使用的命令与控制通信（C&C）、数据窃取、Fast Flux 与域名生成算法。

阅读更多 »

人工智能云平台--连接不同需求人员「机器学习」

发布于: Jan 7, 2022

为了使各种组织中具有不同背景的人员更好地利用机器学习，研发人员开发了人工智能云平台。

阅读更多 »

通过机器学习提升视觉搜索能力实战演练「机器学习」

发布于: Jan 7, 2022

在本次提升视觉搜索能力的演练中，您需要准备一个具有适当 IAM 权限的亚马逊云科技账户，用于启动 CloudFormation 模板。

阅读更多 »

机器学习与人工智能商业新探索：如何利用机器学习提升视觉搜索能力「机器学习」

发布于: Jan 7, 2022

机器学习与人工智能相结合给我们的生活带来了诸多便利，今天我们将介绍如何利用机器学习提升视觉搜索能力。有时候，我们可能很难找到合适的词汇来描述自己想要寻找的东西。正如俗语所言，“一图抵千言。”一般来说，展示真实示例或者图像，对于目标的表达效果确实要比纯文字描述好上不少。这一点，在使用搜索引擎查找所需内容时显得尤其突出。接下来我们将在一个小时的演练中从零开始构建一款视觉图像搜索应用程序，其中包含用于提供视觉搜索结果的全栈 Web 应用程序。视觉搜索能够提高客户在零售业务与电子商务中的参与度，这种功能对于时尚及家庭装饰零售商而言尤其重要。视觉搜索允许零售商向购物者推荐与主题或特定造型相关的商品，这是传统纯文本查询所无法做到的。根据 Gartner 公司的报告，“到 2021 年，重新设计网站以支持视觉及语音搜索的早期采用者品牌，将推动数字商务收入增长 30% 。

阅读更多 »

人工智能图像检测实际操作：Amazon Rekognition PPE 识别「机器学习」

发布于: Aug 11, 2022

Amazon Rekognition 是一个人工智能图像检测平台，下面我们就以个人防护设备的识别为例，详细介绍一下他的工作原理。

阅读更多 »

如何利用云托管服务检测网络中的欺诈活动——数据集预处理「机器学习」

发布于: Oct 30, 2022

在本节中，我们将介绍如何对示例数据集预处理，借此确定异构图中各节点间的关系。

阅读更多 »

机器学习的发展——模型的简化「机器学习」

发布于: Oct 14, 2022

机器学习的发展是艰难却又不断上升的过程。今天，我们高兴地宣布，Amazon SageMaker 已经在大型深度学习模型的训练方面迎来简化，帮助更多缺少丰富硬件资源的客户踏入高阶深度学习之门。

过去十年以来，作为机器学习技术的重量级子集，深度学习（DL）席卷了整个世界。深度学习算法以神经网络为基础，具有非凡的效能，可以提取隐藏在大量非结构化数据（例如图像、视频、语音或文本）当中的信息模式。实际上，深度学习在各种以往只能由人类完成的高复杂度任务上，特别是计算机视觉与自然语言处理方面，已经迅速取得令人瞩目的成就。实际上，随着深度学习在 ImageNet 大规模视觉识别挑战赛（ILSVRC）、通用语言理解评估（GLUE）或者斯坦福问题解答数据集（SQUAD）等参考任务上不断提升自身能力，其创新速度也全面进入新的层级。

为了应对越来越复杂的任务，深度学习研究人员设计出愈发精妙的模型、添加更多神经元层与更多连接，旨在提高模式提取能力与预测准确性，而这一切又直接影响到模型的体量。例如，使用 100 MB 的 ResNet-50 模型已经能够在图像分类方面取得良好结果。但如果要实现对象检测或者实例区分等更为困难的任务，我们就得使用更大的模型，例如大小约为 250 MB 的 Mask R-CNN 或者YOLO v4。

毫无疑问，模型体量的增长也会影响到模型训练所需要的时间及硬件资源。也正因为如此，图形处理单元（GPU）才成为长期以来大型深度学习模型训练与调优方面的首选方案。为了适应 GPU 当中的大规模并行架构与庞大的内置内存，行业开发出分批训练技术。相关方案会向 GPU 一次性发送多个数据样本，借此减少通信开销，大大加快了训练速度。例如，Amazon Elastic Compute Cloud (EC2) p4 家族提供的英伟达 A100 包含 7000 多个计算核心与 40 GB 的高速内存，看来足以支持用大量数据训练超大模型，是不是？

遗憾的是，没这么简单……OpenAI GPT-2 拥有约 15 亿项参数，T5-3B 拥有约 30 亿项参数，GPT-3 甚至包含约 1750 亿项参数，这些专司自然语言处理的庞然大物需要占用几十甚至数百 PB 的 GPU 内存。同样的，处理高分辨率 3D 图像的最新模型同样远超 GPU 内存的容纳能力，甚至就连单一批次都很消化。

为了应对这样的严苛挑战，深度学习研究人员只能尝试将多种技术整合起来，例如：

购买更多强大的 GPU，但对于某些特定模型，使用顶级 GPU 已经成为一种必选项。
转而使用功能较弱的模型，牺牲一定准确性。
建立梯度检查点，即将中间训练结果保存至磁盘上（而非将所有内容留存在内存内），但这会将训练速度降低 20% 至 30%。
实现模型并行，即手动拆分模型，并在不同 GPU 上训练模型的某个部分。毫无疑问，即使对于专家来说，这也是一项极度困难、耗时且充满不确定性的任务。

阅读更多 »

实例教学：如何运用上下文信息提升 Amazon Personalize 推荐结果的相关性「机器学习」

发布于: Nov 30, 2022

【概要】如何提升 Amazon Personalize 推荐结果的相关性，是不少用户关注的问题，尤其是顾客的选择往往具有不确定性，那么如何根据顾客的操作，迅速作出反应更新推荐结果呢？本文将会问你阐述这一操作。

阅读更多 »

智能数据湖架构与数据来源「机器学习」

发布于: Nov 30, 2022

【概要】介绍数据湖就不得不提到其基础架构，那么智能数据湖架构又有何不同呢？下面，我们将具体介绍智能湖仓的五个层级。但在此之前，不妨先来聊聊智能湖仓架构的数据来源。

阅读更多 »

如何使用 Amazon Personalize 在 StockX 上拓展个性化用户体验「机器学习」

发布于: Feb 8, 2022

在决定将推荐程序的核心模型开发与生产推理扩展交由 Amazon Web Services 负责之后，我们开始使用 Amazon Personalize 进行开发，并很快感受到将其集成至全扩展机器学习工作流所带来的卓越便捷性。下图所示，为这套解决方案的基本架构。

阅读更多 »

如何在 Amazon Web Services 上构建云原生机器学习训练平台「机器学习」

发布于: Nov 30, 2022

【概要】下面我们将一步步给大家演示，如何在 Amazon Web Services 上构建云原生机器学习训练平台

阅读更多 »

Amazon Web Services 在简化机器学习模型上的探索「机器学习」

发布于: Jul 22, 2022

Amazon Web Services 致力于简化机器学习模型，为客户提供便利，他们希望获得一种更简单、更具成本效益的解决方案

阅读更多 »

ML 开发者学习框架「机器学习」

发布于: Jul 29, 2022

与机器学习服务并行的是开发者学习框架层。这一层侧重于向用户传授 ML 技术和技巧，因此不适用于大规模生产。

Amazon Web Services DeepRacer

Amazon Web Services DeepRacer 是一个 1/18 比例的赛车，它提供了一种使用强化学习 (RL) 的入门方法。Amazon Web Services DeepRacer 通过在 Amazon SageMaker 中生成模型，在模拟器中进行测试并将 RL 模型部署到汽车中，提供了一种进行 RL 实验和了解 RL 的方法。

阅读更多 »

通过 GPU 实例实现 Amazon EMR 的高性能与低成本目标「机器学习」

发布于: Nov 30, 2022

【概要】相较于使用 EC2 R5 内存优化型实例，运行 G4dn 实例上的 EMR 集群成本仅为前者的约 18.5%，性能却提升达 4.5 倍。

阅读更多 »

如何利用Amazon Web Services云计算服务提高数据驱动洞见力「机器学习」

发布于: Oct 30, 2022

德甲联赛的领导层、管理团队以及开发部门一直在采用云计算服务的过程中与 Amazon Web Services 专业服务团队通力配合，希望借助机器学习的力量增强观众体验。Amazon Web Services 数据科学顾问的任务，正是通过高效运用机器学习技术加速客户业务成果。客户需要首先参与初步评估，并从业务及技术两个方面认真研究希望达成的结果与相应可行性。Amazon Web Services 专业服务顾问则为客户的内部团队提供专业技能与行业经验、开发概念验证（POC）项目、打造最低可行性产品（MVP）并最终将机器学习解决方案投入生产。在此期间，我们还将持续推动学习与知识的转移，保证技术层面的尝试始终能够与明确的商业价值对应起来。

除了在德甲联赛下辖子公司 Sportec Solutions 中进行的内部实验与原型开发之外，我们也在全力建设独立的完善研究社区，致力于进一步提升 xGoals 计算的性能与准确率。将这一领域的知识与正确的技术栈上结合，再配合上最佳实践，我们将能够在保证卓越运营、安全性、可靠性、性能效率与成本优化的同时，更快推动大规模创新与实际执行。

足球比赛的历史数据无疑是基于机器学习技术的 xGoals 模型的训练基础。我们使用这些数据训练机器学习模型，根据赛场上的特定条件推理 xGoals 可能得出的结论。为了进行数据质量评估与初步实验，我们需要进行探索性数据分析、数据可视化、数据转换以及数据验证。这方面工作，可以通过 Amazon SageMaker notebook 等方案进行。下一步自然就是将机器学习工作负载从研究阶段转移至开发环境。这一部署流程需要使用跨学科工程方法，包括将数据工程、数据科学与软件开发结合起来。生产设置还需要配合错误处理、故障转移与恢复计划等多项举措。总体而言，机器学习系统的开发与运营（MLOps）涉及一系列复杂流程，包括代码重构、重新设计与优化、自动化、设置云基础设施基础、实施 DevOps 与安全模式、执行端到端测试、监控并保证使用正确的系统设计。我们的目标，始终是尽可能在更多系统组件中实现自动化，最大程度减少人工干预与手动维护需求。

在下一节中，我们将进一步探讨 Amazon Web Services 为德甲比赛 Match Facts 提供的底层技术栈，以及在将 xGoals 投入生产环境时的基本注意事项。

阅读更多 »

亚马逊云科技上的智能湖仓应用实例「机器学习」

发布于: Aug 9, 2022

人们收集数据的最终目的都是为了利用数据，下面就为大家介绍亚马逊云科技上的智能湖仓是如何助力机器学习与商务智能的。

阅读更多 »

机器学习与市场营销——通过 Amazon Personalize 与 Braze 为客户提供精准推荐「机器学习」

发布于: Oct 14, 2022

机器学习与市场营销的结合日益密切，如今的营销服务商掌握着多种客户交流渠道。然而，如何在正确的时间以正确的渠道向正确的客户发出正确的信息，仍是营销人员面临的一项重大挑战。在本文中，我们将介绍如何将 Braze（一套以 Amazon Web Services 为基础，面向即时需求且强调持续联系的客户参与平台）与 Amazon Personalize 结合起来，尝试解决营销活动参与度难题，进而为客户提供充满惊喜的使用体验。

Braze 能够帮助营销人员轻松将客户组织为受众，并根据其行为及个人资料特征进行实时更新，进而创建消息交付宣传，通过电子邮件、短信及推送通知等渠道定位目标受众。您也可以使用 Braze Canvas 设计出多步骤、多渠道参与流程。Campaign 与 Canvas 可以根据计划，甚至是客户的实际操作手动触发。当然，向客户发送个性化消息的实际效果，直接取决于客户个人资料中透露出的倾向性内容。大家需要根据每位客户在 Web 与移动端应用互动时表现出的偏好，据此组织产品与内容推荐，从而真正在每一条宣传消息中引入个性化元素。

Amazon Personalize 是一项 Amazon Web Services 服务，使用机器学习算法根据客户的行为数据创建推荐系统。这款推荐器为 Amazon Web Services 账户专有，且仅根据您提供的数据进行内容生成。配合 Braze Connected Content 功能，您可以将 Braze 接入用于在 Web 及移动端应用中提供推荐消息的同一套 Amazon Personalize 推荐器，借此通过 Braze 发送的消息准确反映受众的当前偏好与意图。

阅读更多 »

通过 A/B 测试衡量 Amazon Personalize 和现有推荐系统的性能差异「机器学习」

发布于: Nov 30, 2022

【概要】我们将提出一种实验方法论与参考架构，供大家借此确定以随机方式向用户提供多种推荐策略（例如 Amazon Personalize 与现有推荐系统）的实现方法，并以科学合理的方式（A/B 测试）衡量二者之间的性能差异。

阅读更多 »

人工智能大数据预测：以零售数据集为例「机器学习」

发布于: Aug 11, 2022

人工智能大数据预测最常用的平台便是 Amazon Forecast，Forecast 为您提供多种不同的模型准确性指标，供您评估预测模型。我们为每个指定的分布点提供加权分位数损失（wQL）指标，以及在平均预测时计算的加权绝对百分比误差（WAPE）与均方根误差（RMSE）。对于每项指标，较低的值表示误差较小，即代表模型准确性更高。所有这些准确性指标都将保持在非负区间。

下面，我们通过一份表格以零售数据集为例，了解这些不同的准确性指标。在此数据集中，我们面向未来两天做出三项预测。

阅读更多 »

AI 人工智能图片处理——图片的分类「机器学习」

发布于: Jun 16, 2022

AI人工智能图片分类训练实验步骤：

阅读更多 »

如何优化网络中的数据传输服务「机器学习」

发布于: Mar 14, 2022

在本文中我们将介绍一些技巧，探讨如何通过网络操作（例如从 Amazon S3 处下载数据、使用 Amazon EBS 以及 Amazon Elastic Files System（简称 Amazon EFS）等文件系统）优化数据传输服务。

阅读更多 »

Citibot 聊天机器人搜索引擎如何运用 AI 技术查找更多答案「机器学习」

发布于: Mar 11, 2022

本文为 TensorIoT 公司的 Francisco Zamora 与 Nicholas Burden，以及 Citibot 公司 Bratton Riley 共同撰写的客座文章。援引他们的表述，“TensorIoT 是 Amazon Web Services 高级咨询合作伙伴，在物联网、机器学习、工业物联网以及零售等领域具有竞争力。作为前 Amazon Web Services 员工建立的企业，TensorIoT 已经为全球客户提供端到端的物联网与机器学习解决方案。Citibot 则为民众及政府机构提供工具，借此实现高效、有效的沟通与民事改革。”

Citibot 是一家科技企业，专为美国各级地方政府构建基于 AI 技术的聊天解决方案。借助 Citibot，当地居民可以通过文本回复快速获取市政相关问题的答案、上报新问题并接收实时警报。为了增强这些交互操作，Citibot 选择使用 Amazon Lex 服务，借此为文本及语音类应用程序构建对话界面。Citibot 开发出一款聊天机器人，专门负责处理最基础的呼叫查询，保证政府雇员可以将更多时间与精力投入到更为重要的社区工作当中。

COVID-19 疫情带来的挑战，再次凸显出公共事业机构对高扩展性自助服务工具的迫切需求，他们需要依靠这类工具向成员发布可靠信息。在 COVID-19 爆发之际，市民们开始大规模查询关于病毒预防与失业保险的信息，Citibot 呼叫中心的等待时间也随之急剧增加。为了提升聊天机器人在处理全新查询类型时的灵活性与健壮性，Citibot 开始向其中添加通用型搜索功能。Citibot 希望超越第三方解决方案的樊篱，保证使用精心挑选的常见问答内容，同时结合来自疾控中心、联邦、各州及地方政府多个网站的发布数据，打造出一套能够切实服务民众的呼叫体系。

下图所示，为 Citibot 示例对话场景截屏。

阅读更多 »

我的云学习平台：手把手教你如何创建 Amazon SageMaker 主动学习标签「机器学习」

发布于: Nov 30, 2022

【概要】创建主动学习标签听上去似乎有一些复杂，不过只要利用我的云学习平台 Amazon SageMaker 并且按照我们的流程操作，您也可以轻松完成。

阅读更多 »

Amazon Web Services 在简化机器学习模型上的探索「机器学习」

发布于: Jul 22, 2022

Amazon Web Services 致力于简化机器学习模型，为客户提供便利，他们希望获得一种更简单、更具成本效益的解决方案

阅读更多 »

如何使用 Amazon Forecast 检测机器学习模型的准确性

发布于: Oct 18, 2022

通过 CreatePredictor API 与 GetAccuracyMetrics API ，或者使用 Forecast 控制台在 Forecast 中衡量模型的准确性。我们将分步介绍控制台的使用步骤。

阅读更多 »

Amazon Web Services 服务助力深度学习模型训练「机器学习」

发布于: Jul 22, 2022

深度学习的应用程序有多种类型，包括用于整理用户照片存档、推荐书籍、检测欺诈行为以及感知自动驾驶车辆周边环境的应用程序

阅读更多 »

如何通过自动关闭 Amazon SageMaker Studio 中的闲置资源来节省机器学习成本「机器学习」

发布于: Oct 30, 2022

本文将会为你介绍三种方式以减少 Amazon SagerMaker Studio 机器学习成本：

使用可以手动和自动安装的自动关闭 Jupyter 扩展程序检测和阻止 Studio 中产生成本的空闲资源
启用事件通知以跟踪 Studio 域中尚未安装自动关闭扩展程序的用户配置文件
使用已安装的自动关闭扩展程序自动关闭可能导致高于预期成本的实例以管理 Amazon SageMaker Data Wrangler 成本

阅读更多 »

如何运用 Amazon Web Services 云计算系统架构提升 F1 洞见能力「机器学习」

发布于: Nov 30, 2022

【概要】本文介绍了 Amazon Web Services 专业服务团队与 F1 共同使用这些数据，并配合机器学习与分析技术帮助粉丝们获取洞见、更好地理解赛场形势。

阅读更多 »

Amazon SageMaker 引领 Machine Learning，构建自己的 ML 模型「机器学习」

发布于: Jun 29, 2022

自 2006 年以来，Amazon Web Services 一直在帮助数百万客户构建和管理他们的 IT 工作负载。从初创公司到大型企业，再到公共部门，各种规模的组织都在使用我们的云计算服务，它们实现了前所未有的安全性、弹性和可扩展性水平。每天，他们都能够以比以往更少的时间和更低的成本进行试验、创新和生产部署。因此，他们可以探索、抓住商业机会，并将其转化为工业级产品和服务。

随着 Machine Learning 成为客户日益关注的重点，他们要求我们构建具有同样的敏捷性和稳健性的 ML 服务。于是便产生了 Amazon SageMaker，这是一项完全托管的服务，在 Amazon Web Services re:Invent 2017 上推出，该服务为每位开发人员和数据科学家提供快速构建、训练和部署 ML 模型的能力。

阅读更多 »

Amazon Personalize 在个性化优惠券上的实践--以乐天玛特为例「机器学习」

发布于: Jun 23, 2022

个性化优惠券推荐：

阅读更多 »

如何使用 Amazon Personalize 在 StockX 上拓展个性化用户体验「机器学习」

发布于: Feb 8, 2022

在决定将推荐程序的核心模型开发与生产推理扩展交由 Amazon Web Services 负责之后，我们开始使用 Amazon Personalize 进行开发，并很快感受到将其集成至全扩展机器学习工作流所带来的卓越便捷性。下图所示，为这套解决方案的基本架构。

阅读更多 »

云计算与深度学习：云计算给深度学习模型训练带来巨大的便利「机器学习」

发布于: Aug 9, 2022

发展至今，云计算与深度学习的联系日益紧密，无服务器环境的使用带来了许多机会，可以简化开发和生产代码的部署。打包代码及其依赖项的步骤因运行时环境而异，因此需要熟悉这些内容，避免在首次部署期间出现问题。Python 是非常流行的语言，可供数据科学家用来构建机器学习模型。要在 Amazon Web Services Lambda 下· 上运行期间实现最佳性能，依赖于旧 C 和 Fortran 的 Python 库应该使用 Amazon Linux Amazon 系统映像 (AMI) (随后可以导出其生成的文件) 在 Amazon Elastic Compute Cloud 上构建和安装。在这篇博客文章中，我们已经完成了这个步骤。您可以随意利用这些库来构建最终的部署程序包。

模型训练通常需要密集的计算工作，在专用硬件上使用大量 GPU 资源。幸好，推理相比训练所需的计算量要小得多，可以使用 CPU 并利用 Lambda 无服务器计算模型。如果您确实需要 GPU 进行推理，可以考虑使用容器服务，例如 Amazon ECS 或 Kubernetes，这可以让您更好地控制您的推理环境。

随着您的项目越来越多地迁移到无服务器架构，很快您就会学习到这一计算方法带来的机会和挑战：

无服务器可以显著地简化计算基础设施的使用，避免管理 VPC、子网、安全性、构建和部署 Amazon EC2 服务器的复杂性等等。
Amazon Web Services 会为您处理容量。
经济高效 – 您只需在使用计算资源时付费，计费以 100 毫秒为增量。
异常处理 – Amazon Web Services 会处理重试，并将出现问题的数据/消息存储在 Amazon SQS/Amazon SNS 中供以后处理。
在 Amazon CloudWatch Logs 中收集和存储所有日志。
可以使用 Amazon Web Services X-Ray 工具监视性能。

如果您计划处理较大的文件/对象，请确保使用输入流方法，而不是在内存中加载全部内容。在工作中，我们通常会使用 Amazon Web Services Lambda 函数，利用传统文件/对象流式处理方法来处理非常大的文件 (甚至超过 20 GB)。为了改进网络 I/O，请确保使用压缩，因为在多数情况下这会显著减少文件/对象大小 (特别是 CSV 和 JSON 编码)。

阅读更多 »

人工智能：Amazon Transcribe 如何成为视频云服务平台为视频添加字幕「机器学习」

发布于: Aug 9, 2022

你知道哪些视频云服务平台？你知道这些平台各有什么功能吗？去年，突如其来的疫情给我们的生活和学习,带来了极大的影响。一方面需要减少人员聚集、降低疫情传播风险,同时又需要兼顾好日常工作推进,很多客户把线下会议转移到线上举办，亚马逊云科技也不例外。尤其是去年底的 re:Invent 2020, 史无前例采用免费线上会议的方式举办，同时，为了中国客户更好的观看体验，我们也推出了本地化的亚马逊 re:Invent 国内站点，方便国内的客户观看，相信不少的粉丝已经通过国内的站点观看了最新的 fable 和技术画。

由于 re:Invent 在全球主要采用英语进行直播，尤其是来自不同国家的英语口音对国内的开发者去学习和了解 re:Invent 的技术内容会有较大的挑战。在收到全球站点传来视频之后，我们既需要第一时间在国内站点播出，又希望能够为中国客户和开发者的体验增加英文字幕，这就需要我们能极短的时间内为每天新增的数十个甚至上百个视频增加英文字幕。在以往，为一个1小时的英文视频增加字幕，就需要翻译人员数小时的工作，去听取英文文本，同时还需要借助一些专业的工具，为听录的文本增加时间轴，这个过程成本极高，也无法满足我们第一时间希望能够发布的需求。

细心的小伙伴们可能已经发现了，在国内站点的视频英文字幕前面都有一句话：“字幕由 Amazon Transcribe 服务提供”，那么这是一个怎样神奇的服务，又是如何快速帮助我们解决视频的英文字幕问题呢？

阅读更多 »

Amazon personalize 的工作流程及最佳实践「机器学习」

发布于: Jun 23, 2022

将数据添加至 Personalize：

阅读更多 »

如何通过Amazon A2I将表格数据引入人工审核工作流「机器学习」

发布于: Oct 30, 2022

如何通过 Amazon A2I 将表格数据引入人工审核工作流，首先我们要明确训练与部署阶段中的关键步骤：

导入必要的库并加载数据集。
将数据集划分为训练数据集与测试数据集，而后训练 ML 模型。在本文中，我们将使用 Amazon SageMaker 中内置的 XGBoost 算法训练模型，以得出二元预测结果。
创建一个端点，用以生成关于测试数据的推理示例。

我们可以使用 scikit-learn 中的内置实用程序导入数据、导入数据集、生成训练与测试数据集，并最终完成模型训练以及预测结果生成。Scikit-learn 还提供另外一款实用程序，可根据固定比率（在大部分数据科学应用中通常为 80：20）以及随机状态将数据集划分为训练集与测试集，借此确保结果的可重现性。数据集详情，参见以下截屏中的表格。

阅读更多 »

如何利用智能湖仓进行实时数据处理，提高数据利用率？「机器学习」

发布于: Oct 30, 2022

获取数据只是数据库系统所要面对的第一步，一个性能完备的数据系统主要在于他的实时数据处理能力，那么智能湖仓是如何优化这一过程的呢？这里我们将会详细介绍智能湖仓架构中的数据处理层。

阅读更多 »

Amazon SageMaker Operator 自动化机器学习平台如何创建管理机器学习任务「机器学习」

发布于: Jul 22, 2022

我们将演示一个具体的例子，从而更好地说明如何如何利用 Amazon SageMaker Operator 自动化机器学习平台来实现机器学习任务的创建和管理

阅读更多 »

金融和云计算：金融服务领域的机器学习最佳实践「机器学习」

发布于: Oct 10, 2022

金融和云计算已经成为金融行业的蓝海领域，在最近发布的白皮书《金融服务中的机器学习最佳实践（ Machine Learning Best Practices in Financial Services）》中，我们概述了在构建机器学习工作流的过程中，金融机构需要关注的安全性与模型治理注意事项。这份白皮书还涵盖了常见的安全性与合规性要素，旨在配合上手演示与研习班共同为您介绍端到端的示例。虽然这份白皮书主要着眼于金融服务行业，但其中涉及的身份验证与访问管理、数据与模型安全以及 ML 实施（MLOps）最佳实践等内容，也同样适用于医疗保健等其他受到严格监管的行业。

如下图所示，典型的机器学习工作流中往往涉及多个利益相关方。为了成功管理并运营这类工作流，我们需要推动跨团队协作，将业务相关方、系统运营管理员、数据工程师以及软件 /DevOps 工程师纳入这套体系中来。

阅读更多 »

如何利用云平台监管机器学习的过程已达到避免非必要成本的目的「机器学习」

发布于: Oct 30, 2022

利用云平台监管机器学习的过程需要注意到某些 Amazon SageMaker 资源（例如处理、训练、调优以及批量转换实例）具有显著的临时性特征，Amazon SageMaker 会自动启动实例并在作业完成后将其撤销。但是，也有一部分资源（例如构建计算资源或托管端点）拥有持久性特征，需要由用户控制何时停止/终止这部分资源。因此，我们需要明确了解如何识别闲置资源，并通过及时关停进一步实现成本优化。本节将向大家介绍实现此类流程的几种重要自动化方法。

阅读更多 »

机器学习训练与应用：以Amazon SageMaker训练H2O模型并对其服务化为例「机器学习」

发布于: Oct 14, 2022

本文中的解决方案提供由 Amazon Step Functions 编排、并由 Amazon SageMaker 实现的机器学习训练与应用流程。下图所示，为这套工作流的基本架构。

阅读更多 »

如何创建无服务器架构的机器学习运营（MLOps）管道

发布于: Oct 10, 2022

本文探索了如何创建无服务器架构的机器学习运营（MLOps）管道，并借此开发及可视化由 Amazon Forecast 构建的预测模型。由于机器学习（ML）工作负载需要规模伸缩，因此我们需要打破不同相关方之间的孤岛，最终获取业务价值。MLOps 模型能够保证数据科学、生产与运营团队最大程度利用自动化工作流进行无缝协作，保证顺利部署预测模型并持续对其实施有效监控。

与软件开发中的 DevOps 模型类似，机器学习中的 MLOps 模型亦有助于跨机器学习工具与框架构建代码与集成。您可以对数据管道进行自动化、运营以及监控，且完全无需重写自定义代码或者重新设计现有基础设施。MLOps 帮助我们扩展了现有分布式存储与处理基础设施，让机器学习模型的大规模部署与管理更加简单易行。此外，MLOps 还能够立足单一中央位置跟踪并可视化组织内所有模型随时间漂移的情况，同时实现自动数据验证策略。

MLOps 通过持续集成、持续部署与持续训练，将 DevOps 与机器学习领域的最佳实践充分结合起来，帮助我们简化生产环境中机器学习解决方案的生命周期。关于更多详细信息，请参阅《机器学习Lens：Amazon Web Services 良好架构框架》白皮书。

在以下各节中，我们将了解如何利用 MLOps 管道（包括 Amazon Forecast、Amazon Web Services Lambda 以及 Amazon Web Services Step Functions）构建、训练及部署时间序列预测模型。为了对所生成的预测结果进行可视化，大家还需要使用 Amazon Web Services 提供的无服务器分析服务，例如 Amazon Athena与 Amazon QuickSight。

阅读更多 »

机器学习引擎Amazon SageMaker Studio组件与计费方式介绍「机器学习」

发布于: Oct 14, 2022

机器学习引擎 Amazon SageMaker Studio 提供了一个基于 Web 的统一可视化界面，您可以在其中执行所有机器学习开发步骤，使数据科学团队的工作效率提高 10 倍。该 Studio 还可以为您提供构建、训练和部署模型所需每个步骤的完全访问权限、控制及可见性。Studio 笔记本是协作式笔记本，由于不需要事先设置计算实例和文件存储，因此可以快速启动。Amazon SageMaker 是一项完全托管式服务，它提供的功能可以将基础设施管理的繁重工作抽象化，并针对您对大规模 ML 活动的敏捷性和可扩展性需求提供各种不同功能和按用量付费的定价模型。

阅读更多 »

如何利用神经网络机器翻译服务实现异步批量翻译「机器学习」

发布于: Oct 30, 2022

神经网络机器翻译在经济全球化的浪潮下迅速崛起，出于商业和个人原因，越来越多的数字文本文件在全世界共享，在此趋势下，对翻译功能的需求变得越来越迫切。人们可以使用多种在线工具复制/粘贴文本，然后获得他们所选择语言的等效译文。虽然这是对（有限）文本进行临时翻译的好办法，但如果频繁执行，可能会很繁琐费时。

您的组织可能会在很大程度上依赖内容来记录产品和服务，教客户如何与您互动，或者只是分享您在做的一些比较好的事情。这种内容通常偏重于文本，而且几乎都用英文撰写。这样一来，语言知识不充分的人就很难理解它，从而可能会直接影响您与客户的关系。您需要一种自动化解决方案，它可以将一组文档从一种语言快速且经济高效地翻译成另一种语言。

在此博文中，我们将逐步介绍使用异步批量翻译对一批文档进行异步翻译的简单方法。

阅读更多 »

如何缩小深度学习模型：模型剪枝「机器学习」

发布于: Oct 30, 2022

过去十年以来，深度学习模型已经在众多领域取得长足进展，特别是计算机视觉与自然语言处理。如今，最先进的模型已经在图像分类等任务当中实现了与人类水平相当的性能表现。深度神经网络之所以能够实现这样的壮举，是因为它们包含数百万个由人类利用大型训练数据集训练得出的参数。以 BERT（Large）模型为例，其中包含 3.4 亿个参数；Resnet-152 则包含 6000 万个参数。可以想见，从零开始训练此类模型需要巨大的计算量，而且往往耗时数小时、数天甚至数周。

一般来说，数据科学家会尽可能使用迁移学习技术，即将某一个问题转化为另一个相关但又有所不同的问题，并借此使得模型获取新知识的过程。通过迁移学习，您可以在相对较小的数据集上对经过预训练的模型进行微调，进而提高其准确性。在这种情况下，模型可能不再需要规模惊人的参数储备——换言之，较小的模型也可以带来良好的学习效果。

在边缘机器学习场景下，这种为模型“瘦身”的做法至关重要。对于边缘设备来说，硬件限制（包括延迟、内存占用量以及计算时间等）的意义与模型准确性同样重要。例如，无人驾驶汽车就需要一套准确性高且延迟低的模型。在这种情况下，模型不可能为了将准确性提升 1% 而把预测处理时长增加 1 倍。

模型剪枝能够在不牺牲准确性的前提下，显著降低模型的大小。其基本思路非常简单：在模型当中找出对训练过程几乎没有帮助的冗余参数。

阅读更多 »

图像视频人工智能工具——Amazon Rekognition「机器学习」

发布于: Aug 23, 2022

在本文的案例中我们将通过图像视频人工智能工具 Amazon Rekognition 对我们的照片进行人脸检测，再将检测到的人脸与私有人脸集合进行比对，来识别特定库中的人物，进而对图片做分类关联，如通过班级学生照片、家庭人员照片构建人脸集合，再将任意合照作为输入时，可以标注出照片中特定班级、家庭人员信息，在功能上我们主要使用面孔检测、分析、搜索、验证相关功能。

Amazon Rekognition 是亚马逊基于面部识别的一个项目，以人工智能和机器学习为中心。借助 Amazon Rekognition 我们可以在图像和视频中识别对象、人物、文本、场景和活动，也可以检测任何不适宜的内容。Amazon Rekognition 还提供高度精确的面孔分析和面孔搜索功能，可以使用这些功能来检测、分析和对比面孔，以处理各种用户验证、人员计数和公共安全使用案例。

阅读更多 »

如何在 Amazon SageMaker 上进行迭代模型剪枝「机器学习」

发布于: Nov 30, 2022

【概要】在本文中，我们将使用 SageMaker Experiments 跟踪不同的迭代剪枝。您也可以使用 Amazon SageMaker Studio 中的 “Experiments” 视图快速识别并部署在准确性与大小之间取得最佳平衡点的模型。

阅读更多 »

人工智能的冲击：传统零售业面临挑战「机器学习」

发布于: Aug 11, 2022

人工智能的冲击对各行各业都是一种挑战。新技术是如何改变我们的生活？传统行业面对这些挑战如何坚持下去呢？

阅读更多 »

代码审查官Amazon CodeGuru Profiler分析组介绍及操作流程「机器学习」

发布于: Aug 11, 2022

在 CodeGuru Profiler 代码审查中，分析组是可以进行一起分析的一组应用程序单元。通过上一文我们提到的 Profiler 代理将应用程序数据发送到单个分析组，然后对分析组中所有应用程序的数据进行聚合和分析。您可以通过 CodeGuru 控制台上的”分析组”页面对其进行管理，当然也可以通过 CLI和 API 的方式进行管理，您可以查看所有分析组、以及它的状态列表，或者创建或删除分析组。更多详细信息，请参阅 Setting up Amazon CodeGuru Profiler. 分析组支持对部署在多个主机上的单个应用程序进行分析，还可以分析两个相关的不同应用程序。

阅读更多 »

人工智能与体育分析：将基于机器学习的实时洞见分析引入英式橄榄球运动「机器学习」

发布于: Aug 9, 2022

随着人工智能与体育分析结合日益紧密，Amazon Web Services 决定与 Stats Perform 联手将机器学习驱动的实时统计数据系统引入英式橄榄球赛，旨在提高球迷参与度并提供关于比赛的更多宝贵洞见。

健力士六国锦标赛始于1883年，最初只是英格兰、爱尔兰、英格兰与威尔士之间组织的本国英式橄榄球锦标赛。法国与意大利先后于 1910 年和 2000 年正式加入。作为幸存下来的最古老的传统橄榄球项目之一，英式橄榄球成为全球参与人数最多的重量级体育赛事之一。COVID-19 疫情爆发导致 2020 年冠军赛被迫中止，余下的四场比赛于 10 月 24 日恢复举办。

本文总结了本届健力士六国英式橄榄球锦标赛上 Stats Perform 与 Amazon Web Services 的通力合作，使用 Amazon SageMaker 及其他多项 Amazon Web Services 服务开发出一种机器学习驱动型方法，用以在比赛期间实时预测结果并发布罚球得分的几率。Amazon Web Services 基础设施能够以个位数毫秒的延迟迅速完成推理计算，由此得出的结果以 Kick Predictor 统计信息的形式显示在 Amazon Web Services 设计的动态 Matchstat 结果当中，帮助球迷们对比赛中的关键节点建立更深入的理解。关于使用 Amazon Web Services 服务为英式橄榄球开发其他统计信息功能的详情，请参阅六国英式橄榄球网站。

英式橄榄球属于橄榄球的一个分支，每支队伍有 23 位球员。除了各队场上的 15 名球员之外，其他替补球员则随时准备接替上场。比赛的目标是拿下高分，而踢球射门正是得分的重要方法之一。准确的踢球能力也因此成为橄榄球场上最重要的技术，其得分方式又分两种：传/跑入端区（得 2 分）与罚球（得 3 分）。

预测踢球的成功几率非常重要，如果能够即时给出预测结果，那么球迷的参与度也将显著提升。球员准备踢球时，通常会有 40 到 60 秒的停顿时间，在此期间，球迷们会在屏幕上看到 Kick Predictor 给出的统计信息。评论员也会在此期间预测结果，描述当前的得分难度并比较类似情况下其他踢球手的表现。另外，球队还可能使用踢球概率模型来确定下一次得到罚球机会时应该派哪谁上场。

阅读更多 »

StockX 与 Amazon Personalize 的结识「机器学习」

发布于: Jul 29, 2022

我们将分享 StockX 使用 Amazon Personalize 的整个过程，探讨如何借此提供出色的定制化用户体验

阅读更多 »

为何要构建流式数据分析平台的考虑「机器学习」

发布于: Jul 29, 2022

Amazon Kinesis 流式数据处理服务凭借强大的实时处理功能、无需预置或管理任何基础设施、按实际用量付费这些特点，可以帮助企业快速构建流式数据处理、分析平台，获得对企业业务运营的洞察，并帮助企业实时响应业务和客户的需求，加速企业的数字化转型

阅读更多 »

如何利用 Amazon Forecast 进行数据分析预测

发布于: Oct 28, 2022

Amazon Forecast 是一种完全托管的服务，可使用机器学习进行数据分析预测，而用户无需事先具备任何机器学习经验。Forecast 适用于各种使用案例，包括能源需求预测、产品需求估算、员工规划以及云基础设施使用量的计算。
使用 Forecast，无需预先配置服务器或手动构建机器学习模型。此外，您只需按照使用量付费，没有最低费用或预先承诺。您只需提供所需预测事项的历史数据即可开始使用 Forecast，当然您还可以输入您认为可能影响预测的任何额外数据。相关数据可能包括价格、事件、天气等会随时间推移变化的数据，以及颜色、流派或区域等相关的数据。此服务会根据您的数据自动训练和部署机器学习模型，并且还将提供一个用于检索预测的自定义 API。
电力与公用事业提供商具有多个预测使用案例，但其中最主要的是预测客户层面和总体层面的用电量。为防止客户面临任何服务中断，并在保持较低价格的同时提供稳定的电网系统，必须准确预测用电量。
本文探讨了如何使用 Forecast 将历史时间序列数据与关键的外生变量（例如天气）相结合来处理此使用案例。

阅读更多 »

使用 Neuron SDK 编译 TensorFlow OpenPose 模型时如何提升机器学习任务的性能「机器学习」

发布于: Aug 26, 2022

本文建议大家使用 z1d.xlarge 实例类型，其拥有出色的单核性能与内存容量。

阅读更多 »

Amazon SageMaker 宣布使用 GPU 实例可将价格最高降低 18%「机器学习」

发布于: Jun 29, 2022

#1 – 降低成本

阅读更多 »

数据可视化怎么做？重要洞见如何提取？跟着我们一起做「机器学习」

发布于: Nov 30, 2022

【概要】数据可视化怎么做？重要洞见如何提取？在接下来的文章中我们会手把手教你如何操作。

阅读更多 »

如何使用 SageMaker 训练人机语音交互模型

发布于: Oct 10, 2022

在完成有关实验环境的准备工作后，接下来，我们就进入正题，利用SageMaker 完成人机语音交互模型训练工作。
WeNet 支持训练多种模型，如 Conformer、Transformer 等，这里我们会以unified transformer 为例展示整个训练流程。对于训练数据，WeNet 同样支持多种来源，只需要在训练的时候，按照格式整理数据即可，如 AIShell-1、AIShell-2 及 LibriSpeech 等，这里，我们会以 AIShell-1 为例。

阅读更多 »

数据挖掘和机器学习：机器学习模型中的数据准备过程「机器学习」

发布于: Nov 30, 2022

【概要】本文中，我们以机器学习中的图像分类算法为例，介绍典型的机器学习模型训练的输入数据准备过程

阅读更多 »

如何使用Deep Java Library深度学习框架缩短任务周期、解决内存溢出问题「机器学习」

发布于: Aug 23, 2022

深度学习框架决定了一个任务处理的能力，以 TalkingData 公司为例，该公司为了优化自己的大数据推理方案，采用 DJL（Deep Java Library）重构了他们的推理应用。DJL 提供了基于 Java 的 PyTorch 引擎库，这使得他们可以直接将这个库部署在 Spark 上。如下图所示，所有的任务都可以在 Spark 集群中实现：

阅读更多 »

机器学习前沿：如何置备一套安全的金融领域机器学习环境「机器学习」

发布于: Oct 14, 2022

掌握机器学习前沿动态，拥有良好治理机制的安全机器学习工作流，首先需要一套专用且隔离化的计算与网络环境。特别是在大量使用个人隐私信息（PII）进行模型构建与训练的高监管行业中，这方面需求将更为强烈。我们使用 Amazon Virtual Private Cloud 托管 Amazon SageMaker 及其相关组件（例如 Jupyter notebook、训练实例以及托管实例等），因此必须保证将这些 VPC 部署在不接入互联网的专用网络当中。

此外，大家可以将这些 Amazon SageMaker 资源与您的 VPC 环境相关联，借此使用网络层级的控制机制（例如安全组），牢牢掌控指向 Amazon SageMaker 资源的访问以及数据进出环境。再有，您也可以使用 VPC 端点或者 Amazon PrivateLink 在 Amazon SageMaker 与其他 Amazon Web Services 服务（例如 Amazon Simple Storage Service ，简称 Amazon S3）之间建立连接。下图所示，为 Amazon SageMaker 的一套安全部署参考架构。

阅读更多 »

如何提高Amazon Lex智能对话机器人的可用性「机器学习」

发布于: Oct 30, 2022

如今，众多 Amazon Web Services 客户利用 Amazon Lex 智能对话机器人在电话及其他多种渠道之上增强 Amazon Connect 自助服务的对话体验。借助 Amazon Lex，呼叫方（用 Amazon Connect 术语描述，即客户）能够快速获取问题的答案，几乎不需要人工客服的介入。但这同时也给服务可用性提出了更高的要求，因此引发了新的问题：我们该使用哪种架构模式提升机器人可用性？在本文中，我们将探讨一种跨区域方法，通过在多个区域中部署 Amazon Lex 机器人以提高服务可用性。

阅读更多 »

人工智能商业机器人XGBoost「机器学习」

发布于: Aug 11, 2022

毋庸置疑，人工智能商业机器人，在商业中有着广泛的应用场景，但是通常来讲我们却只能看到只有一些高级玩家、大公司才能在他们的业务场景中真正的使用机器学习（Machine Learning，后面用 ML 简写）来解决业务问题。这背后是有各种各样的原因的，其中最主要的两个原因：一个在于，相比传统的业务系统，机器学习的硬件价格高，一块 v100 的显卡价格昂贵，中小公司难以负担；另外一个难点在于，相比传统的业务系统，机器学习对于工程师的要求不同，专注于机器学习的数据科学家需要掌握特殊的技能，相关人才在市场上炙手可热，而且对于企业来说，即便找到了数据科学家，搭建和维护用于机器学习的相关系统也并非易事。Amazon Web Services 作为云计算的领导者，通过在 ML 方面的巨大投入，大大降低了 ML 的门槛。客户可以在 Amazon Web Services 上通过 EC2 的 P3 实例非常方便的使用到最尖端的显卡，并且是按照实际使用量（小时数）来计费，无需一次性的巨大投入；一方面，Amazon SageMaker 可以通过内置算法、自动调参等功能赋能我们的普通工程师，让他们更容易的来学习和使用 ML；另一方面，Amazon SageMaker 内置了模型的 A/B test，并且可以把训练得到的模型实现高可用部署，这些功能只需要通过点击鼠标就可以实现，从而极大的简化了数据科学家把模型应用到生产环境的门槛。此外，Amazon SageMaker 还提供了一系列的其他功能来进一步降低企业开展ML相关的费用，比如通过 Managed Spot Training 节省多达 90% 的成本。

在本篇 blog 中，我们会使用 XGBoost 算法为例，完整的展示 Amazon SageMaker 中一个 ML 工作流的全生命周期。使用到的数据是个公开的房价预测的数据集。

阅读更多 »

如何通过数据分析大数据学习来量化运动员的进球几率「机器学习」

发布于: Oct 30, 2022

数据分析大数据学习已广泛应用于诸多领域。很多朋友喜欢在业余时间观看足球比赛，而且能够快速根据当前球员射门的位置与角度，判断出这一脚有多大机会命中球门。如果是在电视上观看比赛，再配合上主持人的解说与充满情绪的引导，大家几乎能够预测出这临门一脚会有怎样的效果了。但以往，这样的判断只能通过肉眼观察实现，同时结合当前防守球员的数量（例如守门员所在位置，或者射门球员位于球门正面还是侧面）做出假设。现在，使用 xGoals（即「预期进球」的缩写）技术，Amazon Web Services 得以为德甲联赛提供强大的技术支持，充分发挥数据与洞见的强大力量，帮助球迷们即时判断在球场各个位置射门得分的确切概率。

德国足球甲级联赛是德国职业足球的组织与营销主办方。在每场比赛中，德甲联赛将收集到超过 360 万个数据点，旨在更深入地了解运动场上正在发生的一切。以此为基础，德甲联赛积累起为全球 5 亿多球迷及 70 多家合作媒体增强观赛体验的丰富经验，这也使其成为世界上最具创新性的体育联盟之一。德甲联赛希望通过新的方式使用技术成果，以机器学习（ML）为驱动力提供实时统计数据，最终为粉丝建立起个性化内容并将数据转化为洞见乃至实际行动。

xGoals 则是德甲联赛与 Amazon Web Services 在 2020 年 5 月底正式启动的两项全新 Match Facts 功能之一（另一项为 Average Positions），旨在增强全球球迷的观赛参与度，同时统计每场比赛的最高平均进球数。这项服务中使用的机器学习模型由全托管 Amazon SageMaker 负责构建、训练以及部署。xGoals 能够客观评估德甲球员在赛场上任意位置的射门得分几率，还可以确定当前传球（相较于当前球员坚持单刀、或者是传给其他球员）是否会提升得分几率。

xGoals 及其他德甲 Match Facts 服务以数据为基础建立分析洞见的尝试，也给整个足球领域建立起新的实时数据统计标杆。

阅读更多 »

机器学习性能调优工具——TensorFlow OpenPose「机器学习」

发布于: Oct 14, 2022

在本文中，我们将介绍一款机器学习性能调优工具——Amazon Inferentia，首先我们将使用 Amazon Neuron 编译一套开源的 TensorFlow 版本的 OpenPose，然后针对基于 Amazon Inferentia 的实例对推理性能进行调优。与基于 GPU 的实例相比，我们需要在本演练中设置基准测试环境、衡量图像处理管道的吞吐量，并量化该系统的性价比改进情况。

阅读更多 »

基于 Serverless 的无人驾驶程序整体架构设计「机器学习」

发布于: Aug 23, 2022

我们利用 Amazon Web Services Serverless 构建了一个无人驾驶程序的整体架构，其中用到了 API Gateway 、 Lambda 和等服务，在不到一周的时间内就重构了数据注入服务(Uploader)的相关后台 API。开发工程师只需要关注业务逻辑和相关的代码实现即可，并不需要关注底层的服务器维护等基础架构的运维细节，大大减轻了开发和运维的压力，如下是整体架构图：

阅读更多 »

Amazon Web Services 云服务功能在 F1 方程式赛车上的应用「机器学习」

发布于: Jul 22, 2022

Amazon 机器学习解决方案实验室（ML Solutions Lab）与专业服务团队同 F1 携手合作，共同动用 Amazon Web Services 技术构建起实时比赛策略预测应用程序，快速生成进站决策并据此规划赛车的竞技战术

阅读更多 »

机器学习在物联网领域的应用：创建设备实时监控平台「机器学习」

发布于: Oct 14, 2022

今天为大家介绍机器学习在物联网领域的应用，展示如何通过机器学习实现物联网设备的实时预测性维护。

阅读更多 »

机器学习云服务：初识Amazon Web Services上云原生机器学习流水线「机器学习」

发布于: Oct 14, 2022

近两年，机器学习云服务已经渗透到各行各业，各种人工智能和机器学习的应用蓬勃发展，在其背后实际上会有一个完善的机器学习平台和流水线来支撑模型的开发、测试和迭代。但是这样一个系统性的平台，往往需要通过整合基础架构层和平台层来完成，这样的工程是非常消耗人力和物力的。

而 Amazon Web Services 作为云计算的领导者，在基础架构层可以提供丰富的、充足的算力，在平台层提供全家桶式的机器学习平台服务，那么最后一步就是需要使用一条流水线将这些机器学习中各个环节串联在一起。

在本篇 Blog 中，我们将展现如果通过 Amazon Web Services 的服务构建云原生的机器学习流水线。本文中所有的代码您都可以从这个 Github Repo 中获取。

阅读更多 »

Amazon Personalize在个性化优惠券上的实践--以乐天玛特为例「机器学习」

发布于: Jul 11, 2021

乐天玛特的目标，在于提高那些以往从未使用过优惠券的客户们的参与度，由此带动他们对于新产品的需求。客户的兴趣与需求一直在不断变化，竞争格局也在这种变化中变得愈发激烈。乐天玛特可以主动发现客户群体中的未知需求，并响应其意图变化以提高客户的留存率与忠诚度。

下图所示为基于Amazon Personalize构建起的全新推荐与个性化优惠券架构。

阅读更多 »

你还在使用图像识别 APP 吗？通过 Amazon Rekognition 即可实现自动化图像合规审查「机器学习」

发布于: Aug 12, 2022

这套解决方案以无服务器栈为基础，如下图所示。其中图像上传经 Amazon API Gateway 到面向 Amazon Simple Storage Service 的上传 API，上传事件会触发以 Lambda 函数实现的工作流，运行一系列用于自动决策的机器学习模型和业务规则。

阅读更多 »

人工智能--基于机器学习的智能推荐系统「机器学习」

发布于: Aug 11, 2022

基于机器学习的智能推荐系统早已不是什么新鲜概念，但开发这类系统仍是一项需要投入大量资源的任务。无论是训练与推理期间的数据管理，还是运营具备可扩展性的机器学习实时 API 端点，都着实令人头痛。Amazon Personalize 将 Amazon.com 过去二十多年来使用的同一套机器学习技术体系交付至您手中，轻松将复杂的个性化功能引入到您的应用程序，且无需任何机器学习专业知识。当前，来自零售、媒体与娱乐、游戏、旅游乃至酒店等行业的无数客户都在使用 Amazon Personalize 为用户提供个性化的内容推荐服务。在 Amazon
Personalize 的帮助下，您可以实现一系列常见用例，包括为用户提供个性化商品推荐、显示相似商品以及根据用户喜好对商品进行重新排序等。

Amazon Personalize 能够自动使用您的用户-项目交互数据进行机器学习模型训练，并提供API以检索面向任意用户的个性化推荐结果。很多朋友都抱有这样的疑问：我们该如何将 Amazon Personalize 生成的推荐结果，与现有推荐系统进行性能比较呢？为了解答这个问题，我们将在本文中介绍如何使用 Amazon Personalize 执行 A/B 测试，这是一种用于对不同推荐策略进行有效性比较的常用技术。

阅读更多 »

如何使用 Amazon Web Services Lambda（无服务器计算服务）和实时翻译的高级方法「机器学习」

发布于: Aug 23, 2022

Amazon Web Services Lambda 是一种无服务器计算服务，在一般情况下您可以通过运行批量翻译作业轻松且经济高效地解决您的内容本地化问题。然而，有时候您没有时间积聚一批文档并为积聚的批量文档定期调用异步批量 API。在此情况下，您需要文档一准备好后马上就可以开始翻译，这时就会用到Amazon Web Services Lambda。

为了实现此目标，我们使用事件驱动的架构。当新文档上传到指定 S3 存储桶后，我们将配置此 S3 存储桶的设置，以将通知发送至 Amazon Web Services Lambda。收到通知后，Amazon Web Services Lambda 将按顺序执行以下事件，即读取上传到 S3 存储桶的文档、从可以通过实时翻译 API 传递的文档中提取短片段、通过实时翻译 API 传递这些片段、使用实时翻译 API 输出重建翻译好的输出文档，然后将输出保存在指定输出位置。

下图展示了此架构。

阅读更多 »

自然语言处理与人工智能：Amazon Web Services 在自然语言处理的云服务「机器学习」

发布于: Nov 30, 2022

【概要】在这篇博文中，我们演示了如何利用 NER 和主题建模将 Amazon 服务用于社交媒体数据分析。

阅读更多 »

个性化推荐与 CDN：深入人心的 Amazon Personalize「机器学习」

发布于: Jul 29, 2022

Amazon Personalize 将帮助客户在原有推荐机制当中纳入新的产品与内容，以更好的方式为最终用户提供远超其他推荐系统的发现、点击、购买或消费体验

阅读更多 »

如何使用 Amazon Forecast 准确预测耽搁客户用电量

发布于: Oct 21, 2022

本文对预测个人客户层面用电量的两种不同方法进行了评估，一种没有相关时间序列信息，另一种有相关时间序列信息。

对于预测问题，相关时间序列信息是与目标值相关联的变量（例如天气或价格），并为目标值的预测提供统计优势（本文中是指能源需求）。更准确地说，Forecast 将相关时间序列视为外生变量。这些变量不属于模型规范，但是您可以使用它们来捕获相关时间序列的当前值与目标时间序列的相应值之间的相关性。
您可能无法一直通过合并相关时间序列来提高准确性。因此，您必须在回测的基础上添加任何相关时间序列，以检查添加相同的时间序列是否可以提高或保持总体准确性。Forecast 不需要相关时间序列，但需要目标时间序列。如果相关时间序列缺少值或具有其他质量问题，最好不要包含相同的时间序列，以免将噪声引入模型。本质上，决定哪个相关时间序列有用或如何有效使用它们是一个关键的特征工程任务。

阅读更多 »

实例操作：利用 Amazon 实现 Amazon Lex 机器人跨区域的高可用性「机器学习」

发布于: Nov 30, 2022

【概要】本文提供一种跨区域形式的高可用性实现方法，保证能够在某一区域中的机器人或支持实现 API 不可用时，使用来自其他区域的资源以继续响应客户呼叫。

阅读更多 »

利用 Amazon Web Services 人工查看表格数据和 AI 需求预测「机器学习」

发布于: Aug 26, 2022

使用机器学习处理表格数据时，我们往往需要引入人工审核流程，协助管理工作流中需要人工加以判断的敏感环节

阅读更多 »

电子商务中的人工智能——如何实现任务的实时集成「机器学习」

发布于: Oct 14, 2022

阅读更多 »

如何检查分析组的 CodeGuru 控制台及最终步骤「机器学习」

发布于: Oct 10, 2021

若要验证应用程序是否正在分析，请返回到 CodeGuru 控制台。此时您应该会看到分析组从”非活动”状态变为”挂起”状态，然后变为”分析”状态后结束，最终状态显示如下图：

阅读更多 »

如何利用Amazon SageMaker降低机器学习计算工作负载及成本「机器学习」

发布于: Oct 30, 2022

计算工作负载与成本是进行机器学习中需要优先考虑的两个因素。根据不同应用对应的机器学习生命周期内各个阶段，您可以对实际使用的时长与资源进行成本细分，借此优化 Amazon SageMaker 的资源使用开销，保证仅为真正需要的资源付费。在本节中，我们将讨论一系列通行准则，借此为 Amazon SageMaker 机器学习生命周期选择正确的资源。

Amazon SageMaker 目前提供多种机器学习计算实例选项，具体包括以下实例家族：

T – 通用型峰值性能实例（适用于日常 CPU 资源使用量较低，但在必要时可爆发出极高性能的使用场景）
M – 通用型实例
C – 计算优化型实例（适用于高度依赖计算资源的应用场景）
R – 内存优化型实例（旨在为需要处理内存内大型数据集的工作负载提供强大性能）
P、G 与 Inf – 加速型计算实例（使用硬件加速器或协处理器）
EIA – 推理加速型实例 (用于 Amazon Elastic Inference)

运行在 Amazon SageMaker 机器学习计算实例上的计算类工作负载，与运行在 Amazon Elastic Compute Cloud (Amazon EC2)实例上的工作负载适用于相同的实例类型。关于实例规格的更多详细信息，包括虚拟 CPU 数据及内存容量，请参阅 Amazon SageMaker 计费标准。

阅读更多 »

如何低成本构建精确标记的机器学习数据集「机器学习」

发布于: Aug 23, 2022

借助 Amazon SageMaker Ground Truth 您可以轻松低成本地构建精确标记的机器学习数据集。为了降低标记成本，SageMaker Ground Truth 使用主动学习来区分难以标记和易于标记的数据对象（例如图像或文档）。难以标注的数据对象被发送给人工人员标记，而易于标注的数据对象则通过机器学习自动标记（auto-labeling）。

SageMaker Ground Truth 中的自动标记功能使用预定义的 Amazon SageMaker 算法来标记数据，并且仅当您使用受支持的 SageMaker Ground Truth 内置任务类型之一创建标记作业时才可用。

利用此博文，使用您自己的算法创建一个主动学习工作流程，在该工作流程中进行训练和推理。此示例可用作执行自定义标签作业主动学习和自动注释。

本文包含两个部分：

在第 1 部分中，我们演示了如何使用 Amazon SageMaker 内置算法 BlazingText 创建主动学习工作流程。
在第 2 部分中，我们用自定义 ML 模型替换 BlazingText 算法。

要运行和自定义这些部分中使用的代码，请在笔记本实例的 SageMaker 示例部分中使用笔记本

阅读更多 »

如何利用云托管服务检测网络中的欺诈活动——使用 Amazon SageMaker 训练神经网络模型「机器学习」

发布于: Oct 30, 2022

在进行了多重准备工作之后，我们就要开始训练神经网络模型了。大家可以使用 Amazon SageMaker Processing 执行数据预处理与特征提取步骤。Amazon SageMaker Processing 是 Amazon SageMaker 中的一项功能，允许大家在全托管基础设施之上运行预处理与后处理工作负载。关于更多详细信息，请参阅处理数据与评估模型。

首先，我们需要定义 Amazon SageMaker Processing 作业中使用的容器。此容器中应包含数据预处理脚本所需要的全部依赖项。由于本用例中的数据预处理只需要使用 pandas 库，因此可以使用最小 Dockerfile 实现容器定义。具体请参见以下代码：

阅读更多 »

如何利用 Amazon Rekognition视觉分析服务实现自动化图像合规审查

发布于: Oct 10, 2022

Amazon Rekognition 是一项基于机器学习技术的图像与视觉分析服务，可帮助用户识别图像及视频中的对象、人物、文本、场景及活动，并同步检测出是否存在不当内容。Amazon Rekognition 文本检测功能则能够从图像及视频中识别并提取出文本内容。例如，在图像共享与社交媒体应用中，我们可以使用图像内文本所包含的关键字实现图像索引以及可视化搜索。在媒体与娱乐类应用中，大家还可以根据屏幕上的文本，例如广告、新闻、体育赛事比分以及字幕等等，对视频内容进行分类。
以下截屏，展示了一个提取图像内文本的具体示例。

阅读更多 »

如何提升机器学习的效果——以Amazon Personalize为例「机器学习」

发布于: Oct 30, 2022

如何提升机器学习的效果，是人工智能发展道路上不断探索的问题。比如，选取适当的时机，在用户面前展示高相关性推荐，已经成为成功实现个性化策略的关键一步。但是，客户的决策过程可能根据推荐过程与具体交互方式而随时变化。在本文中，我们将介绍如何设置 Amazon Personalize，并在可以感知上下文的部署中进行查询。

Amazon Personalize 为大家提供 Amazon.com 二十多年来使用的同一套机器学习（ML）技术方案，可以轻松在应用程序当中添加复杂的个性化功能，且无需任何机器学习专业知识。Amazon Personalize 还支持根据用户的上下文信息（例如设备类型、所在位置、当前时间或者其他具体信息）自动调整推荐内容。

哈佛大学发布的研究论文《情境如何影响选择（How Context Affects Choice）》，将情境（或者上下文）定义为一类能够影响决策过程、进而改变选择结果的重要因素。作为业务经营者，您需要通过分析客户在手机和计算机上访问商品列表并进行购物时的不同表现，或者发现客户在晴天和阴天情况下的购物选择变化，整理出可靠的模式与消费偏好。

使用用户上下文信息，我们可以为现有用户提供个性化程度更高的体验，这也有助于缩短为新用户或匿名用户提供良好服务的冷启动时间。所谓冷启动时间，是指由于缺少对当前用户历史信息的了解，而导致推荐引擎无法提供个性化推荐预测的阶段。

阅读更多 »

新零售人工智能，你还没有体验过吗？「机器学习」

发布于: Nov 30, 2022

【概要】Amazon Go 就是以这个 “不用排队，拿了就走（no lines，no check out）” 的全新购物体验在零售行业和科技圈吸引了无数目光。今天我们就来一起看看这个拿了就走的新的零售体验是如何实现的。

阅读更多 »

如何利用 AI 人工智能语音系统将语音转录为文本信息

发布于: Oct 10, 2022

AI 人工智能语音系统在日常生活中运用到的领域越来越多，比如各类企业与组织正越来越多地在自身业务当中引入视频与音频内容，包括广告、客户服务、媒体后期制作、员工培训与教育等等。而随着此类活动所产生的多媒体内容数量的激增，企业开始对视频与音频转录能力提出更高要求，希望借此快速组织文件、实现文本查询并改善听力障碍者（截至目前，全球存在听力障碍的人群已达 4.66 亿）或语言学习者（全球英语学习者多达 15 亿）的使用体验。

传统语音到文本转录方法往往只能以手动方式进行，相关人工成本极高且执行速度缓慢。由机器学习（ML）技术支持的 Amazon Transcribe 是一项语音到文本服务，能够为商业用例及开发人员提供一种高质量、低成本、速度快的解决方案。在面对法律、金融、建筑、高等教育乃至工程学等领域的特定术语时，用户还可以配合自定义词汇表以提高转录质量。要使用这项功能，我们需要创建特定领域的术语清单，并在运行转录作业的过程中引用这份词汇表文件。

在本文中，我们将共同了解如何使用 Amazon Augmented AI（Amazon A2I）将 Amazon Transcribe 生成的低置信度预测结果发送给工作人员以供审核，借此快速生成特定领域的术语清单。我们在本轮演练中测量了转录作业的单词错误率（WER）与正确转录的术语数量，借此演示如何使用自定义词汇表改善Amazon Transcribe对于特定领域术语的转录效果。

要完成本次演练，请使用 Amazon A2I Sample Jupyter Notebook GitHub repo上的 A2I-Video-Transcription-with-Amazon-Transcribe.ipynb 笔记本。

阅读更多 »

带你体验如何利用语音云服务器完成语音的转录「机器学习」

发布于: Oct 14, 2022

语音云服务器为语音的转录提供了更为高效，便利的平台，那么具体我们应该如何操作呢？本文将会为您做详细的介绍。

阅读更多 »

如何设置机器学习中数据的获取以及存储「机器学习」

发布于: Oct 30, 2022

阅读更多 »

如何把图片上的文字转换成文字——Amazon Web Services 轻松做到「机器学习」

发布于: Oct 10, 2022

如何把图片上的文字转换成文字，首先我们需要部署一套 CloudFormation 模板，用于置备必要的 Amazon Web Services 身份与访问管理（Amazon Indentity and Access Management，简称 IAM）角色、服务，并提供解决方案所必需的Amazon S3, Lambda, Amazon Textract, Amazon Comprehend 以及 Amazon Lex 聊天机器人等组件。

在美国东部（北弗吉尼亚州）区域启动以下 CloudFormation 模板:
请不要修改栈名称或者参数 botname InvoiceBot。
在 Capabilities and transforms 部分，勾选全部三个复选项，确认由 Amazon CloudFormation 创建 IAM 资源并扩展模板。

阅读更多 »

深度学习与机器视觉：如何提取文档中的关键信息「机器学习」

发布于: Nov 30, 2022

【概要】深度学习与机器视觉的应用会逐步减小我们对文本审查的工作量。科研人员针对这一问题，借助深度学习模型，开发了一套可以用于识别文档内容的高效工具。

阅读更多 »

Amazon Web Services 与流数据处理技术如何影响我们的生活「机器学习」

发布于: Jul 22, 2022

流数据技术已经融入我们生活的方方面面。下文我们就介绍几例常见的应用。Amazon Kinesis 、Kinesis Data Streams、Kinesis Data Firehose、Kinesis Data Analytics

阅读更多 »

初步认知 Amazon SageMaker Operator 的应用场景及技术原理「机器学习」

发布于: Aug 26, 2022

Amazon SageMaker Operator 可以帮助数据科学家以及开发人员利用 Kubernetes 的接口来创建和管理 SageMaker 的任务，如机器学习的模型训练、超参优化、批量转换以及实时推理等。

阅读更多 »

如何使用 Amazon SageMaker 与 Amazon ES KNN 索引功能创建基于 KNN 的搜索应用程序

发布于: Oct 18, 2022

先决条件

在本演练中，我们需要一个拥有适当 Amazon Web Services 身份与访问管理（IAM）权限的 Amazon Web Services 账户，用以启动 Amazon Web Services CloudFormation 模板。

阅读更多 »

StockX 公司的传奇故事--早期发展「机器学习」

发布于: Feb 8, 2022

“StockX 是一家来自底特律的初创公司，希望以独特的竞价/出价市场革新电子商务体系。我们平台的设计灵感源自纽约证券交易所，并将运动鞋与街头潮牌服饰等商品视为高价值可交易商品。凭借运营透明化的市场交易体验，StockX 将帮助消费者以真实市场价购买备受追捧的真品。”

2019年，StockX 公司正经历高速增长，我们的机器学习（ML）工程师小组也开始尝试使用 Amazon Personalize 在主页上添加“为您推荐”产品推荐行。最终，这项新功能成了主页上最受欢迎的部分。在本文中，我们将分享 StockX 使用 Amazon Personalize 的整个过程，探讨如何借此提供出色的定制化用户体验。

我们的市场动态需要提供个性化的用户体验。StockX 网站的流量激增，在很大程度上源自相关商品市场供应量的下降。没错，在运动鞋与街头潮牌服饰市场上，最受欢迎的一定是那些需要提前预订的限量版产品。虽然客户对于产品多样性的追求一直在增加，但是客户经常搜索的还是那些最新发布的特定热门款式。最终，我们的平台开始经历一波又一波强度几乎接近 DDoS 的合法流量，让我们意识到再不扩大后端的规模伸缩能力、我们将无法顺利开展自身业务。另外，我们的团队还计划在黑色星期五之前上线“为您推荐”功能。这项功能的基础，自然是强大的推荐引擎——我们希望该引擎同样拥有强大的扩展能力，可以实时调整以适应不断变化的客户意图。

在公司成立的三年当中，我们逐渐将用户体验的个性化视为核心发展目标。我们的客户群体已经从单纯的运动鞋爱好者，逐步发展为越来越多休闲及抱有好奇心的新用户。感恩节购物季则为我们提供绝佳机会，以更具个性化的体验吸引这些新客户，最终提高整体客户忠诚度。尽管即将到来的 2019 年假期为我们的计划增加了额外的时间限制，但 Amazon Personalize 切实帮助我们为不断发展的用户群体打造精心设计且引人入胜的体验，最终顺利应对季节性流量激增带来的一系列挑战。

阅读更多 »

机器学习模型开发——PyTorch模型的支持「机器学习」

发布于: Oct 14, 2022

机器学习模型开发在不断地发展当中，2020 年 4 月，Amazon Web Services 与 Facebook 宣布推出 TorchServe ，帮助 PyTorch 社区的研究人员与机器学习（ML）开发人员更快将其模型投入生产，且无需编写任何自定义代码。 TorchServe 属于开源项目，很好地解答了业界关于如何使用 PyTorch 从 notebook 过渡至生产环境的问题。全球各地的客户（包括 Matroid）都亲身体验到由此带来的收益。同样，目前已经超过 10000 家客户采用 Amazon SageMaker 快速构建、训练并部署大规模机器学习模型，其中很多客户已经将 SageMaker 视为机器学习的标准平台。从模型支持的角度来看，Amazon SageMaker 对以基础设施为中心带来的所有繁重工作进行抽象化，允许您安全可靠地向全球数百万并发用户提供低延迟预测功能。

阅读更多 »

Amazon Web Services 最新功能提高预测模型的准确性「机器学习」

发布于: Jul 22, 2022

您可以使用 Amazon Web Services 最新功能来衡量预测模型的准确性，借此优化可能存在的预测成本过低或过高问题，进而提升实验的灵活性

阅读更多 »

如何创建一个人工智能语义分析搜索引擎

发布于: Oct 10, 2022

人工智能语义分析的发展推动了语义搜索引擎的兴起，使得电子商务与零售企业能够更轻松地为消费者提供搜索服务。基于自然语言理解（NLU）的搜索引擎使您可以通过首选会话语言直接表述自己的需求，而不再只能硬性依赖于以输入设备写下相应关键字。您可以使用母语以单词或句子执行查询，并由搜索引擎负责理解并提供最佳结果。
Amazon SageMaker 是一项完全托管服务，可为每位开发人员及数据科学家提供快速构建、训练以及部署机器学习（ML）模型的能力。Amazon Elasticsearch Service (Amazon ES) 同样是一项完全托管服务，可帮助您轻松以极具成本效益的方式大规模部署、保护并运行 Elasticsearch。Amazon ES提花 KNN 搜索功能，可以在多种用例（例如产品推荐、欺诈检测以及图像、视频等）以及某些特定的语义场景下（例如文档与查询相似性等）当中实现搜索增强。另外，您也可以选择使用 Amazon Kendra，这是一种高精度且易于使用的企业搜索服务，由机器学习技术提供支持，且无需用户具备任何机器学习经验。在本文中，我们将介绍如何使用 Amazon SageMaker 与 Amazon ES k最近邻（KNN）在某些类型的应用程序中实现基于NLU的产品搜索功能。
在《使用 Amazon SageMaker 与 Amazon ES 构建视觉搜索应用程序》一文中，我们已经探讨了如何使用 Amazon SageMaker 与 Amazon ES KNN 的欧氏几何距离指标构建视觉搜索应用程序。Amazon ES 现可支持开源 Elasticsearch 7.7版本，且包含 KNN 索引的余弦相似性指标。余弦相似度衡量的是两个向量在同一方向上夹角的余弦，余弦角越小、表示向量之间的相似度越高。通过余弦相似度，您可以测量两上向量之间的方向，并据此在某些特定语义搜索应用程序中做出理想选择。Amazon ES 的高度分布式架构使您能够实现增强的 KNN 排名、高召回率与高性能的企业级搜索引擎。
在本文中，我们将构建一款简单的搜索应用程序，借此展示与传统 Amazon ES 排名方法相比，将 KNN 与 Amazon ES 结合使用所将发展的巨大潜力。文中还将提供一款在浏览器中测试基于 KNN 的搜索查询结果的 Web 应用程序。此应用程序还能够将搜索结果与 Elasticsearch 匹配查询进行比较，以证明 KNN 搜索与全文搜索之间的区别。

阅读更多 »

海量数据存储在哪里？数据湖仓存储层「机器学习」

发布于: Oct 14, 2022

海量数据存储问题一直是数据库使用中关心的问题，随着数据的不断增多，传统的数据库已经无法满足基本要求，智能的云数据库是如何存储并保管这些数据的呢？

阅读更多 »

使用 Neuron 编译完成的 CMU 模型已达到提升图像处理能力的目的「机器学习」

发布于: Aug 26, 2022

在调优之后，Neuron 编译的 TensorFlow 模型较现有费率最低的 GPU 实例实现 72% 的成本节约，且性能仍旧保持一致

阅读更多 »

利用 Amazon SagerMaker 训练语音交互技术的前期准备「机器学习」

发布于: Aug 26, 2022

要实现人与机器间的语音交互，需要首先让机器能够识别声音内容，但通用的语音识别服务无法完全满足不同场景下的需求，因此客户需要根据自己的需求训练模型

阅读更多 »

如何进行深度学习模型部署与训练「机器学习」

发布于: Oct 30, 2022

深度学习模型部署是一个比较复杂的过程，因为你需要像搭积木一样的来去搭建一个多层的网络，每层的网络又有不同的目的，比如距离输入侧较近的层要承担很多类似特征工程的工作。但是对于我们现在要使用的 XGBoost 这个传统的 ML 算法来说，这个模型可以理解成就是算法本身，是一个开箱即用的东西。我们只要打开箱子直接用就行了，怎么用呢？我们要做的就是按照要求，设置输入数据的格式，然后给算法配置参数就可以了。上面我们对 XGBoost 的输入格式做过说明，下面我们先按照格式要求把数据准备好：

阅读更多 »

基于大数据的机器学习如何处理数据集呢？「机器学习」

发布于: Aug 23, 2022

基于大数据的机器学习不可避免的会遇到海量数据，如何存储、发现并共享这些数据呢？最新推出的 Amazon SageMaker Feature Store 功能可帮你解决这一问题。

阅读更多 »

如何利用云托管服务检测网络中的欺诈活动——构建架构「机器学习」

发布于: Oct 30, 2022

欺诈用户与恶意账户每年可能给企业造成数十亿美元的营收损失。尽管不少企业已经在使用基于规则的筛选器防止系统中存在的各类恶意活动，但这类筛选器往往相当脆弱，而且无法捕捉到全部恶意行为。

在另一方面，也有部分解决方案（例如图技术）在检测欺诈者与恶意用户方面表现突出。欺诈者可以调整自身活动以骗过基于规则的系统或者基于特征的简单模型，但却很难伪造图结构，特别是用户与事务/交互日志中其他实体之间的关系。图神经网络（GNN）能够将图结构中的信息同用户或事务的属性相结合，从中提取出有意义的表示形式，最终将恶意用户及事件同合法用户及事件明确区分开来。

阅读更多 »

数据安全防护技术在 Amazon Web Services 上的实现「机器学习」

发布于: Nov 30, 2022

【概要】随着 Amazon Web Services 不断推出更多激动人心的全新机器学习服务，Amazon FGBS 团队也期待不断增强这套解决方案，运用现代化、自动化成果逐步取代传统财会工作用例。

阅读更多 »

了解机器学习生命周期以及数据采集和预处理——以房价预估工作为例「机器学习」

发布于: Aug 8, 2022

在学习数据采集和预处理之前，我们先来了解一下机器学习的生命周期。如图，一个典型的ML工作流包含从数据标注到最后部署监控，一个复杂的工作流程。从这个图里我们还可以观测到这个 ML 工作流中有两个迭代，中间的一个迭代发生在模型训练和 evaluation 之间，这个过程是用来做超参（hyperparameter）调整，避免过拟合（overfitting）；另外一个迭代是当模型部署后，持续的获取新的数据，然后根据这些新的数据更新模型的过程。下面我们借助样例，一步一步分开来讲。

阅读更多 »

如何使用 Amazon SageMaker 原生 TorchServe 集成在生产中支持 PyTorch 模型

发布于: Oct 10, 2022

通过以下示例 notebook 可以看到，Amazon SageMaker Python SDK 能够大大简化 TorchServe 与 Amazon SageMaker 连接的操作步骤。
使用经过调优的 HuggingFace transformer base（RoBERTa）
在本文中，我们使用 HuggingFace transformer, 由其提供可实现自然语言理解（NLU）的通用架构。具体而言，我们将为大家提供 RoBERTa base transformer，此 transformer 已经过调优以执行情感分析。预训练的检查点会加载其他头层，而模型则输出文本内的正面、中立及负面情绪。

阅读更多 »

如何利用深度学习图像处理识别系统中的图片？「机器学习」

发布于: Oct 30, 2022

在本文中，我们重点介绍如何利用深度学习图像处理识别模拟生产系统的类似于暂存的环境中的图片。

阅读更多 »

金融和云计算：金融服务领域的机器学习最佳实践

发布于: Oct 10, 2022

金融和云计算已经成为金融行业的蓝海领域，在最近发布的白皮书《金融服务中的机器学习最佳实践（ Machine Learning Best Practices in Financial Services）》中，我们概述了在构建机器学习工作流的过程中，金融机构需要关注的安全性与模型治理注意事项。这份白皮书还涵盖了常见的安全性与合规性要素，旨在配合上手演示与研习班共同为您介绍端到端的示例。虽然这份白皮书主要着眼于金融服务行业，但其中涉及的身份验证与访问管理、数据与模型安全以及 ML 实施（MLOps）最佳实践等内容，也同样适用于医疗保健等其他受到严格监管的行业。

如下图所示，典型的机器学习工作流中往往涉及多个利益相关方。为了成功管理并运营这类工作流，我们需要推动跨团队协作，将业务相关方、系统运营管理员、数据工程师以及软件 /DevOps 工程师纳入这套体系中来。

阅读更多 »

如何利用 Amazon Transcribe 服务使视频自动翻译生成字幕「机器学习」

发布于: Oct 30, 2022

视频自动翻译生成字幕对于一些想要了解国外最新科技成果，而又苦于英语水平有限的同学的来说，无疑具有巨大的诱惑力，借助 Amazon Transcribe 便可轻松实现这一过程，下面我们就来看看具体如何操作吧。

阅读更多 »

智能语音 ai 测评需要考虑哪几方面？「机器学习」

发布于: Nov 30, 2022

【概要】在本文中，我们介绍了如何使用 Amazon A2I 人工审核工作流与 Amazon Transcribe 自定义词汇表改善自动视频的转录效果。

阅读更多 »

如何收集数据：智能湖仓的基础架构「机器学习」

发布于: Oct 30, 2022

无论是普通数据库还是智能数据仓，如何收集数据，是我们需要解决的首要问题，下面我们就一起来看看亚马逊云科技上的智能湖仓是如何从不同来源中摄取数据并保存下来的。

阅读更多 »

人工智能 AI 是指什么--人工智能的演变「机器学习」

发布于: Aug 9, 2022

人工智能 AI 是指什么？在今天这个各行各业都不断提及人工智能的时代，大家真正理解人工智能吗？本文就为大家介绍什么是人工智能。

阅读更多 »

用户行为分析应用面临的瓶颈——内存的溢出「机器学习」

发布于: Nov 30, 2022

【概要】在这个博客中，我们将带领大家了解 TalkingData 部署的模型，以及他们是如何利用 DJL 在 Apache Spark 上实现生产环境部署深度学习模型。

阅读更多 »

如何部署托管环境以便节约成本「机器学习」

发布于: Oct 10, 2022

在大多数情况下，高达九成的机器学习应用开发与运行开支源自推理阶段；换句话说，我们需要一套性能强大、经济高效的机器学习推理基础设施。之所以存在如此明确的区分，是因为构建与训练作业在执行频繁方面相对更低，您只需要在构建与训练期间支付成本；但端点实例却一直在运行，意味着推理设施将持续产生运营成本。因此，能否选择正确的托管方式与实例类型将对机器学习项目的总体成本产生决定性的影响。
在模型部署方面，从用例出发逆推需求最为重要。您预计的运行频率如何？是否要求应用程序处理实时流量，并对客户做出实时响应？您是否针对同一用例面向不同数据子集训练出多套模型？您的预计流量会产生波动吗？您的用例对于推理延迟是否敏感？
Amazon SageMaker 为每一种情况提供了对应的托管选项。如果您的推理数据为批量交付，则 Amazon SageMaker 是一种理想的高成本效益方式，可随时启动及撤销全托管基础设施以实现灵活的预测能力。如果您已经针对同一用例训练出多套模型，则多模端点能够为按用户或其他细分条件训练而成的机器学习模型带来更优运营成本。关于更多详细信息，请参阅使用 Amazon SageMaker 多模端点节约推理成本。

在确定了模型的托管方式之后，大家还需要通过确定适当的实例类型与集群大小。您可以在活动端点上启用自动规模伸缩功能，也可以禁用自动规模伸缩，借此避免过度配置或为非必要容量支付额外费用。另外需要注意的是，在 GPU 上具有最高训练效率的算法，也许无法在 GPU 实例上获得最好的推理计算效果。总而言之，负载测试已经成为确定最经济解决方案当中的一项最佳实践。以下流程图，对整个决策过程做出了总结。

阅读更多 »

Amazon Personalize在零售领域的应用--乐天玛特的尝试「机器学习」

发布于: Jul 7, 2021

如今，消费者们拥有着极为丰富的日用品购买渠道，包括大卖场、电商平台、便利店以及超市等等。韩国大型超市乐天玛特则决定使用 Amazon Personalize 为老客户们提供个性化推荐，借此提高其参与度、增强新产品购买率，并最终强化客户忠诚度。本文将与大家分享乐天玛特在使用 Amazon Personalize 之前面临的困境，以及如何改进产品推荐机制以增加新产品购买率。

乐天玛特在韩国、印度尼西亚以及越南的多达189家实体店面售卖各类日用百货、服装、玩具、电子产品及其他商品，其日均到店顾客60万，2019年的营收达到51亿美元。

乐天玛特拥有独家手机优惠券系统 M-coupon，旨在通过提供店内优惠信息鼓励顾客购物。由于客户在大卖场中的单次平均到店消费支出一般在50到200美元之间，因此客户前往实体店面的频率直接影响到乐天玛特的运营绩效。

从传统角度来看，M-coupon 会根据客户的以往购买记录进行推荐。例如，如果客户以往曾购买过某品牌方便面，则下一次再次向其推荐该产品。这类基于购买历史的规则性推荐是有意义的，能够帮助客户使用即时发放的优惠券完成商品回购，从而提高重复购买率并保持良好的客户忠诚度。但这种方式无法推动新产品的消费率，也无法根据客户需求的不断变化创造出更具个性化的消费体验。面对每天增加的众多新产品，卖场方面必须迅速生成针对这些产品的新需求。但为了保证客户体验，卖场方面又不能用狂轰滥炸的方式向客户一股脑发布新产品信息。这种盲目的宣传策略只会让客户感到不知所措。因此，乐天玛特需要制定长期发展战略，以增加店面客流量并引导新产品的购买决策。为此，乐天玛特决定选择 Amazon Personalize 作为解决方案，借此为 M-coupon 用户提供精心设计的个性化产品推荐内容，借此提高客户忠诚度并增强其对于新产品的购买意愿。

阅读更多 »

一套完整的智能零售解决方案需要面对哪些问题呢？「机器学习」

发布于: Jul 29, 2022

“Just Walk Out” 技术是整个 Amazon Go 无人商店的的大脑。这是构建在深度学习算法方面最重要的技术部分，其目的是解决“谁拿了什么” 的问题

阅读更多 »

Amazon Personalize 在零售领域的应用--乐天玛特的尝试「机器学习」

发布于: Jun 23, 2022

如今，消费者们拥有着极为丰富的日用品购买渠道，包括大卖场、电商平台、便利店以及超市等等。韩国大型超市乐天玛特则决定使用 Amazon Personalize 为老客户们提供个性化推荐，借此提高其参与度、增强新产品购买率，并最终强化客户忠诚度。本文将与大家分享乐天玛特在使用 Amazon Personalize 之前面临的困境，以及如何改进产品推荐机制以增加新产品购买率。

乐天玛特在韩国、印度尼西亚以及越南的多达 189 家实体店面售卖各类日用百货、服装、玩具、电子产品及其他商品，其日均到店顾客 60 万，2019 年的营收达到 51 亿美元。

乐天玛特拥有独家手机优惠券系统 M-coupon，旨在通过提供店内优惠信息鼓励顾客购物。由于客户在大卖场中的单次平均到店消费支出一般在 50 到 200 美元之间，因此客户前往实体店面的频率直接影响到乐天玛特的运营绩效。

从传统角度来看，M-coupon 会根据客户的以往购买记录进行推荐。例如，如果客户以往曾购买过某品牌方便面，则下一次再次向其推荐该产品。这类基于购买历史的规则性推荐是有意义的，能够帮助客户使用即时发放的优惠券完成商品回购，从而提高重复购买率并保持良好的客户忠诚度。但这种方式无法推动新产品的消费率，也无法根据客户需求的不断变化创造出更具个性化的消费体验。面对每天增加的众多新产品，卖场方面必须迅速生成针对这些产品的新需求。但为了保证客户体验，卖场方面又不能用狂轰滥炸的方式向客户一股脑发布新产品信息。这种盲目的宣传策略只会让客户感到不知所措。因此，乐天玛特需要制定长期发展战略，以增加店面客流量并引导新产品的购买决策。为此，乐天玛特决定选择 Amazon Personalize 作为解决方案，借此为 M-coupon 用户提供精心设计的个性化产品推荐内容，借此提高客户忠诚度并增强其对于新产品的购买意愿。

阅读更多 »

人工智能与内容提取：以合约条款的处理为例「机器学习」

发布于: Aug 9, 2022

人工智能与内容提取的结合大大提高了我们的工作效率，以处理合约等文档资料为例。以往，处理合约及协议等文档资料是一项费时费力的任务。在传统意义上，对典型的合约签订工作流进行审计往往涉及合约条款的加载、阅读及提取等多个步骤，这往往需要耗费大量人工与劳力。

以往，Amazon Web Services Finance and Global Business Services(Amazon Web Services FGBS)每月也曾投入150多个人工处理这方面工作。在此期间，众多分析师需要将上百份合约一次性手动输入至Excel表格当中。

最近，专门负责分析合约协议的 Amazon Web Services FGBS 团队开发建立一条自动化工作流，借此高效处理传入文档。其目标非常简单——把专业财会资源从繁琐的日常劳作中解放出来，将更多精力投入到增值性财务分析当中。

最终，该团队构建了一套解决方案，能够在 1 分钟之内以高保真度与可靠的安全性持续解析并存储整个合同中的重要数据。现在，整个自动化流程每月只需要 1 位分析师工作30小时即可完成平台的维护与运行。处理时长缩短至之前的五分之一，生产效率得到显著提高。

整个应用由两项 Amazon Web Services 支持的机器学习（ML）托管服务实现，分别为 Amazon Textract（可高效实现文档内容提取）以及 Amazon Comprehend（可提供下游文本处理，负责提取关键术语）。

本文将介绍整套解决方案的基本架构，深入研究架构设计并简要探讨其中的设计取舍。

阅读更多 »

手把手教你如何通过 Rekognition 实现无服务器智能相册「机器学习」

发布于: Nov 30, 2022

【概要】整个方案采用无服务器架构，无需客户运维管理，按请求计费，降低了服务成本。最后借助于 Cloudformation 可在全球区域进行部署与迁移，增加了速度和灵活性。

阅读更多 »

如何利用Amazon Serverless启动数据注入流程，自动管理数据「机器学习」

发布于: Oct 30, 2022

将数据注入管理平台是利用已有数据的第一步，今天我们将会介绍一种现代化的数据管理模式。Serverless (无服务器) 是一种用于描述服务、实践和策略的方式，开发人员可以使用 Serverless 构建更敏捷的应用程序，从而能够更快地创新和响应变化。通过 Serverless，开发人员可以将容量预置和补丁等基础设施管理任务交由 Amazon Web Services 来处理，从而专注于编写为客户服务的代码。现代应用程序在“Serverless First （即无服务器优先)”的基础上进行构建，而 Amazon Web Services 在计算、应用程序集成和数据存储等方面均提供了丰富的服务帮助开发人员快速构建现代化的应用。

本博客以自动驾驶初创公司文远知行 WeRide 为例，介绍文远知行是如何利用 Lambda, API Gateway, S3 和 Fargate 等 Serverless 相关服务，实现对自动驾驶数据注入管理平台的应用现代化改造。

阅读更多 »

Amazon SageMaker Studio 正式推出，打造完全集成的机器学习开发环境「机器学习」

发布于: Jun 29, 2022

我们推出了新的 Amazon SageMaker Studio，这是第一个完全集成的机器学习开发环境。SageMaker Studio 是基于 Web 的 IDE，让您可以在一个位置集中存储和收集所需的所有内容，包括代码、笔记本、数据集、设置和项目文件夹。

SageMaker Studio 的部分新功能包括: SageMaker Notebook 是具有弹性计算功能的一键式笔记本，让您无需预配置实例即可在几秒钟内快速启动笔记本。SageMaker Experiments 让您能够自动捕获、组织和搜索用于构建、训练和调优模型的每个步骤。SageMaker Debugger 让开发人员可以调试和分析模型训练，从而提高机器学习模型的准确性。SageMaker Model Monitor 可以让您通过监控部署到生产中的模型，实现概念偏差的自动检测。SageMaker Autopilot 是一款提供全方位掌控力和可见性的自动机器学习。

我们非常高兴，上个月在中国北京区域和宁夏区域，我们已正式推出了 Amanzon SageMaker 和 SageMaker Studio。中国的两个区成为全球 24 个区域中第 5 和第 6 个发布 SageMaker Studio 的区域。

我们将机器学习堆栈的顶层称为 AI 服务，因为这些服务拥有模仿人类认知的能力，而我们拥有广泛的 AI 服务。在视觉方面，我们推出了 Amazon Rekognition。在语音方面，Amazon Polly 提供文本到语音转换功能，Amazon Transcribe 可用于记录语音的内容，这两项服务在中国已经向用户提供。在文本方面，Amazon Translate 可以将转录后的文本翻译成多种语言。我们的 OCR++ 服务 Amazon Textract 不仅能够识别印刷品上的信息，而且还能识别复杂的公式、表格和图形中的信息。我们在 Alexa 中采用了自然语言理解和自动语音识别功能，通过 Amazon Lex 服务将这些功能提供给您。

在 2018 年 re:Invent 大会上，我们还推出了提供深度定制化服务的 Amazon Personalize 以及提供预测服务的 Amazon Forecast。而在 2019 年的 re:Invent 上，我们推出了 Amazon Fraud Detector，这项机器学习服务帮助您进行欺诈管理。我们发布了 Amazon CodeGuru，这项机器学习服务可以自动执行代码评审并找出最有价值的代码行。亚马逊内部有 80000 个应用程序正在使用 CodeGuru，此服务已为我们节省了数千万美元。我们构建了 Contact Lens for Amazon Connect，一项适用于 Amazon Connect 的机器学习支持的联络中心分析服务，它会自动转录并分析客户来电内容，并支持搜索文本中的关键词和特定短语，还能通过分析对话中较长的静默期或通话方的交谈方式等内容来进行情绪分析。我们还构建了 Amazon Kendra，可以通过机器学习和自然语言处理来重塑企业搜索位于企业内部不同位置的不同数据，让您从企业内部所有数据中获得的价值。最近 A mazon Kendra 已在全球正式上线。

机器学习不是一两项服务，企业需要在机器学习堆栈的所有三层中都拥有高度安全、高度可靠、功能完善的数据存储，以及适当的访问控制、适当的安全性、最广泛的分析集以及真正可靠的产品及服务。我们相信将来大多数具有现代技术能力的公司都会在该堆栈的所有三个层的框架中运行。在这方面，Amazon Web Services 将成为你最好的帮手。欢迎您联系我们。

阅读更多 »

如何使用 Amazon EMR 运行 Amazon Elastic Compute Cloud (Amazon EC2) G4 实例

发布于: Oct 28, 2022

本文为英伟达集团解决方案架构师 Kong Zhao 撰写的特约文章。

本文分享了英伟达集团如何使用 Amazon EMR 运行 Amazon Elastic Compute Cloud (Amazon EC2) G4 实例。

梯度提升是一种强大的机器学习算法，能够在回归分析、分类以及排名等任务场景下实现最理想的准确率水平。事实上，深度神经网络与梯度提升已经成为解决此类问题的两大首选技术方案。

目前，来自各个行业的数据科学家们都在使用开源 XGBoost 库：

金融服务——预测贷款绩效与其他金融风险。
零售——预测客户流失率。
广告宣传——预测点击率。

阅读更多 »

使用 Jetson nano 结合 Amazon Web Services 机器学习和 IoT 实现边缘智能「机器学习」

发布于: Aug 26, 2022

今天为大家介绍如何使用 Jetson nano 结合 Amazon Web Services 机器学习和 IoT 实现边缘智能

阅读更多 »

什么是托管？Amazon SageMaker全托管服务的初步介绍「机器学习」

发布于: Aug 11, 2022

什么是托管？Amazon SageMaker 是一项全托管服务，可帮助您轻松构建、训练、部署以及监控机器学习（ML）模型。SageMaker 采用的模块化设计，使您能够在机器学习生命周期中的不同阶段随时选择适合当前用例的功能。Amazon SageMaker 可以将基础设施管理层面的繁重工作抽象剥离，配合多种不同功能与按实际使用量付费的计费标准，为您的大规模机器学习活动提供必要的敏捷性与可扩展性支持。

在本文中，我们将介绍 Amazon SageMaker 的计费模型，同时分享一系列最佳实践，旨在阐述如何对 Amazon SageMaker 的资源使用加以优化，借此有效控制机器学习模型的构建、训练与部署开销。此外，本文还提供相应编程方法，能够自动停止或检测出正在产生成本的闲置资源，帮助大家避免这部分非必要成本。

阅读更多 »

如何利用 Amazon Comprehend 构建命名实体抽取及主题建模的数据分析系统

发布于: Oct 10, 2022

实验数据
本文中选用的实验数据来自第三方工作室所提供的 W-NUT17 的实体识别任务数据集。W-NUT 数据在源数据的基础上，增加了人工合成的噪声文本已满足自然语言处理的需要。其中源数据包括，社交媒体，在线评估，众筹数据，网络论坛，临床诊断以及学习笔记等等。
数据集中包含了 1000 条带标注的 tweets，一共 65124 个 tokens。评论文本来自 Twitter， Stack Overflow， YouTube 以及 Reddit。命名实体的标注包括类别如下：

人名
地点（包括地理位置和机构位置）
分组（如乐队，体育团队，以及非企业单位）
创造性的工作（歌曲，电影，书籍等等）
企业
产品（有形的产品或者定义良好的服务）

阅读更多 »

利用 Amazon SageMaker 对 GPU 运算能力进行优化「机器学习」

发布于: Aug 26, 2022

GPU 运算能力决定了深度学习的训练速度，强大的 GPU 有望将训练周期由几个礼拜缩短至数小时

阅读更多 »

如何使用人工智能技术进行文本数据处理

发布于: Oct 10, 2022

文本数据处理是办公一族每日都会面临的问题，各行各业的组织都需要处理大量纸质文件，其中又以发票类票据居多。以往，对于包含表格、表单、段落以及复选框的各类扫描文档，我们往往很难从中提取出有效信息。虽然目前不少组织已经通过人工、自定义代码或者光学字符识别（OCR）等技术解决了信息提取难题，但其中仍然需要借助完善的表单提取与自定义工作流模板。
此外，在从文档中提取到文本或其他形式的内容之后，用户还希望从收据或发票中帮助最终用户整理出更多深层洞见。但这又需要构建起复杂的自然语言处理（NLP）模型，模型的训练又要占用大量训练数据与计算资源。机器学习模型的构建与训练往往既昂贵、又极为耗时。
再有，对于最终用户来说，提供类似于人的界面来与这些文档交互是很麻烦的。虽然最终用户可以通过给服务台打电话的方式得到不少帮助，但随着时间的推移，组织成本总会因此而不断提升。
本文将向大家介绍如何使用 Amazon Web Services AI 服务自动实现文本数据处理与洞见发现。借助 Amazon Web Services AI 服务（包括Amazon Textract, Amazon Comprehend 以及 Amazon Lex），您可以设置自动化无服务器解决方案以满足上述要求。我们将分步引导您完成以下操作流程：

使用 Amazon Textract 从收据或发票扫描件（pdf 或图片格式）中提取文本。
通过 Amazon Comprehend 得出洞见。
使用 Amazon Lex 以自然语言形式实现与这些洞见的交互。

接下来，我们将介绍用于构建这样一套解决方案的具体服务与架构选项。

阅读更多 »

人工智能图像识别再无人零售商店上的应用「机器学习」

发布于: Aug 11, 2022

无人零售商店需要运用多种技术，其中应用领域最为广泛的便是人工智能图像识别技术。无论是识别顾客还是识别所购商品都离不开这项技术，那么他是如何应用到无人商店中的呢，我们会为您简略介绍。

阅读更多 »

机器学习训练模型的步骤——以Infoblox 公司建立同形异义词攻击检测模型为例「机器学习」

发布于: Oct 14, 2022

如何构造自己的机器学习训练模型呢？今天我们就以 Infoblox 公司与 Amazon SageMaker 的合作为例，为您讲解模型训练的全过程。

阅读更多 »

计算机视觉在农业领域应用（二）：操作指南：使用 Amazon Rekognition 自定义标签对猕猴桃进行分类「机器学习」

发布于: Mar 31, 2021

【概要】本篇博文我们将为您揭开亚马逊云科技 AI/ML 服务如何协同工作的神秘面纱，并特别说明如何生成带标记的图像，针对该图像训练计算机视觉模型，以及如何使用 Amazon Rekognition 自定义标签部署自定义图像识别模型。按照教程进行操作，您应该能够在大约一小时内启动并运行自定义计算机视觉模型，并根据与您的特定需求相关的数据，做出关于进一步投资 AI/ML 创新的更明智的判断。

阅读更多 »

Amazon Web Services 在简化机器学习模型上的探索「机器学习」

发布于: Jul 22, 2022

Amazon Web Services 致力于简化机器学习模型，为客户提供便利，他们希望获得一种更简单、更具成本效益的解决方案

阅读更多 »

计算机视觉在农业领域应用（一）：概述「机器学习」

发布于: Mar 31, 2021

【概要】计算机视觉是人工智能 (AI) 的一个领域，将机器学习管道简化为一致且可观察的工作流程，以便规模较小的业务部门能够更轻松地访问，这仍然是一个很有挑战的目标。这一点在农业科技领域尤为明显。亚马逊云科技的客户采用的农业应用包括根据产品的等级和缺陷对农产品进行分类，以及尽早有效地主动确定害虫控制措施，这些都是计算机视觉大有可为的一些领域。

阅读更多 »

使用 Amazon SageMaker Feature Store 优化机器学习数据处理「机器学习」

发布于: Aug 26, 2022

作为 Amazon SageMaker 中的一项新功能，Feature Store 将帮助数据科学家与机器学习工程师轻松安全地存储、发现并共享训练与预测工作流中使用的被选中数据

阅读更多 »

亚马逊智能湖仓如何实现大数据应用数据的管理「机器学习」

发布于: Aug 9, 2022

无论是什么数据库，最终目的都是为了建立一个大数据应用数据管理平台，智能湖仓是如何实现这一最终目的呢？这离不开其架构中的最后一层——数据消费层。

阅读更多 »

模型训练与服务化：机器学习的两大基本环节「机器学习」

发布于: Oct 10, 2022

模型训练与服务化可以说是成功建立端到端机器学习流程的两大基本环节。这两个步骤通常需要不同的软件与硬件设置，才能为生产环境提供最佳组合。模型训练优化的目标是低成本、训练时间长度可行、科学上的灵活性以及良好的模型可解释性等；而模型服务化的优化目标是低成本、高吞吐以及低延迟。

因此，目前使用的普遍方法是通过流行的数据科学语言（例如 Python 或 R）训练模型，并创建某种模型格式，例如 Model Object, Optimized (MOJO), Predictive Model Markup Language (PMML) 或者 Open Neural Network Exchange (ONNX) 等，并在基于 Open Java Development Kit (OpenJDK) 的微服务（例如 Spring Boot 应用程序）之上实现模型服务化。

本文将向大家演示如何使用 Amazon SageMaker 以端到端方式为流行开源机器学习框架 H2O 实施上述方法。Amazon SageMaker 是一项完全托管服务，可为每位开发人员及数据科学家提供快速构建、训练及部署机器学习模型的能力。Amazon SageMaker 是一项多功能机器学习服务，您可以在其中使用自己选定的机器学习框架及编程语言。H2O 框架由 Amazon Web Services 合作伙伴网络（APN）高级合作伙伴 H2O.ai 打造，您可以在多种选项中做出选择，借此在 Amazon Web Services 云上训练及部署 H2O 模型。此外，H2O 还提供一系列示例设计模式的示例以演示如何把 H2O 机器学习管道用于生产。

H2O 框架支持三种模型格式，具体如下表所示。

阅读更多 »