基于 Graviton 的 Amazon EC2 T4g 限时免费试用中

基于 Graviton 的 Amazon EC2 T4g 限时免费试用中，开始试用»

什么是强化学习？

强化学习是机器学习的范式和方法论之一，一般用于：描述和解决智能体在和环境交互的过程中，通过学习策略以达成回报最大化或者实现特定目标的问题。强化学习一般被分为基于模式的强化学习和无模式的强化学习，在有些情况下也被分为主动和被动的强化学习。

创建免费帐户

联系云计算专家

热门云产品

免费试用 12 个月

云服务器 EC2

每月免费使用 750 小时，两种实例类型可选，并可免费获得 750 小时公网 IPv4 地址

立即注册领取

无服务器计算 Lambda

每月 100 万次免费请求和每月高达 320 万秒计算时间

立即注册领取

免费试用 12 个月

对象存储 S3

免费试用 5GB 标准存储空间、20000 个 Get 请求和 2000 个 Put 请求

立即注册领取

强化学习的原理

强化学习的基本原理

强化学习是一种基于奖惩机制的机器学习范式，其基本原理是：如果智能体（代理）的行为导致环境给出正向奖赏，那么智能体后续产生这个行为策略的趋势就会得到强化。强化学习将学习视为一个试探和评价的过程，其中智能体选择一个动作应用于环境，环境接受这个动作后状态就会发生变化，并给出相应的奖赏或惩罚反馈。通过不断尝试不同的行为并根据环境反馈进行调整，智能体逐步学习到最优的行为策略。

强化学习的关键要素包括：智能体、环境、状态、行为、奖赏函数等。
智能体与环境进行交互，根据当前状态选择行为，环境根据行为给出奖赏或惩罚，并转移到新的状态。
智能体的目标是通过学习，找到一个策略，使得在环境中获得的累积奖赏最大化。

强化学习的学习目标

强化学习的学习目标是从环境状态到行为的映射，让智能体所选择的行为获得环境最大的奖赏反馈，使得外部环境对学习系统在某种意义下的评价达到最佳。具体来说：

学习一个策略 (policy)，即状态到行为的映射函数，指导智能体在每个状态下选择最优行为。
最大化预期的累积奖赏 (expected cumulative reward)，即在环境中获得的长期收益。
在强化学习系统中需要有某种探索机制（如 ε-greedy、软更新等），通过使用这种探索机制，智能体能够在动作空间中进行搜索并发现正确的动作序列。
强化学习算法通过试错和奖惩反馈，不断优化策略，使智能体的行为逐步趋向于最优。

强化学习的优点

强化学习能够通过采样优化性能，并使用函数逼近处理大型环境；
强化学习能够应用于已知环境模型但无法获得解析解的情况，或者只给出模拟模型，或者唯一获取信息的方式是与环境交互的情况；
强化学习已成功应用于多个领域，如储能运营、机器人控制、光伏发电调度、棋类游戏以及自动驾驶系统等；
强化学习算法能够快速适应不断变化的环境，并找到新的策略优化结果；
强化学习需要较少的人工交互，算法可以自主学习和发现最优结果，无需标注数据；
强化学习非常适合具有长期后果的场景，因为它可以优化长期回报的最大化。

强化学习特点

强化学习是一种机器学习范式，具有以下独特特点：

缺少监督者角色：与监督学习不同，强化学习没有外部监督者提供正确答案。智能体 (agent) 必须通过与环境的交互来学习，并根据从环境获得的反馈来调整其行为。
延迟反馈：强化学习中，智能体的行为并不会立即获得反馈。相反，反馈（奖励或惩罚）可能会在一段时间后才出现，这就需要智能体具有长期规划和预测的能力。
时间序列性质：强化学习问题涉及一系列决策，每个决策都会影响后续状态和奖励。因此，强化学习具有时间序列的特性，需要考虑动态决策过程。
行为影响后续数据：在强化学习中，智能体的行为会直接影响环境的状态，从而影响后续获得的数据。这与监督学习和无监督学习形成鲜明对比，后两者的训练数据是固定的。

强化学习具有以下四大核心要素：

策略 (Policy)：定义了在给定环境状态下，智能体应该采取何种行为。策略是强化学习的核心，目标是找到一个最优策略。
奖励 (Reward)：环境在每个时间步骤向智能体发出的标量反馈，用于指导智能体朝着正确方向学习。奖励函数定义了强化学习的目标。
价值 (Value)：对长期收益的衡量，用于评估当前行为的收益。价值函数能够从长期角度评判行为的好坏。
模型 (Model)：对环境的模拟或表示。强化学习可以选择基于模型（有模型）或不基于模型（无模型）两种方法。

通过与环境的反复交互，并根据奖励信号调整策略，强化学习算法能够找到最优策略，从而解决复杂的序列决策问题。

强化学习算法分类

1

ModelFree 算法

这类算法不需要了解环境的转移概率模型，只依赖于通过与环境交互获得的经验数据。ModelFree 算法可以进一步分为两种：

基于策略优化的算法：这些算法直接优化策略函数，例如策略梯度算法。它们试图找到可以最大化期望回报的最优策略。
基于 Qlearning 的算法：这些算法不直接学习策略，而是学习状态行为值函数 Q（s，a），然后根据 Q 值贪婪地选择行为。Qlearning 和深度 Q 网络 (DQN) 就属于这一类。

2

ModelBased 算法

这类算法需要了解或学习环境的转移概率模型。拥有环境模型的优势在于智能体可以基于模型预测未来状态，从而更好地规划行动路径。ModelBased 算法也可分为两种：

模型学习算法：这些算法需要从与环境交互的数据中学习环境的转移概率模型，例如使用监督学习技术。
给定模型算法：这些算法假设环境的转移概率模型是已知的，例如一些经典的规划算法。

强化学习应用

强化学习作为一种通用的机器学习范式，在各个领域都有广泛的应用前景，可以帮助智能体学习最优的决策和控制策略，以完成复杂的任务。

无人驾驶领域

轨迹优化：强化学习可用于优化无人驾驶车辆的行驶路径和轨迹，以实现更高效、更安全的行驶。
运动规划：通过强化学习，无人驾驶系统可以学习规划车辆的运动和动作序列，以应对复杂的交通环境。
动态路径规划：强化学习可用于动态调整车辆的行驶路径，以避开障碍物并适应实时交通状况。
最优控制：强化学习可用于优化车辆的控制策略，如加速、减速、转向等，以实现更平稳、更高效的驾驶体验。

工业自动化

基于强化学习的机器人可以被用于执行各种任务，如装配、搬运、焊接等。
强化学习可以帮助机器人学习最优的动作序列，以完成复杂的任务。

金融贸易

强化学习可以用于自动化交易决策，如何时持有、购买或出售金融资产。
通过强化学习，智能体可以学习最优的交易策略，以最大化回报并控制风险。

自然语言处理

强化学习可用于文本摘要任务，生成高质量的文本摘要。
在问答系统中，强化学习可用于优化答案生成策略，提高答案的准确性和相关性。

医疗保健

强化学习可用于诊断和治疗决策，无需先验信息，而是通过以往的经验直接找到最优策略。
在药物开发中，强化学习可用于优化分子结构，以提高药物的疗效和安全性。

强化学习与监督学习的区别

数据标注需求不同

监督学习需要大量标注好的输入输出数据对来训练模型，强化学习则不需要这种标注数据。强化学习的目标是通过与环境的交互，探索不同行为策略，从而最大化长期累积奖励，即使奖励反馈是不完整或延迟的。

学习目标不同

监督学习的目标是从给定的输入中推断出期望的输出，其代价函数通常与消除错误推断相关。而强化学习的目标是找到一个策略，使得在与环境交互时获得的长期累积奖励最大化。

环境建模需求不同

强化学习算法不需要事先了解环境的精确数学模型，而是将环境表示为马尔可夫决策过程。这使得强化学习可以应用于难以建模的复杂环境。相比之下，监督学习并不对环境做这种假设。

应用场景不同

强化学习擅长处理需要长期规划、短期牺牲以获得长期利益的复杂动态环境，如无人驾驶汽车在城市交通中的导航。监督学习则更适用于简单的输入输出映射任务。

亚马逊云科技中国峰会

6 月 19 日 - 20 日｜上海世博中心

聚焦生成式 AI 从技术爆发迈向行业深耕的跨越

抢占免费席位

强化学习的挑战

在现实世界中实验奖惩系统可能不切实际，因为可能导致意外后果，如无人机损坏；现实环境往往不可预测，使得强化学习算法在实践中更加困难；复杂的强化学习算法可解释性较差，很难理解导致最优结果的一系列行为背后的原理。

亚马逊云科技热门云产品

Amazon SageMaker

大规模构建、训练和部署机器学习模型

中国区域免费套餐

免费享用 40 项核心云服务，最长 12 个月

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务，获取更多官方开发资源及培训教程

快速上手训练营

第一课：亚马逊云科技简介

本课程帮助您初步了解云平台与本地环境的差异，以及亚马逊云科技平台的基础设施和部分核心服务，包括亚马逊云科技平台上的弹性高可用架构，架构设计准则和本地架构迁移上云的基本知识。

亚马逊云科技技术讲师：李锦鸿

第二课：存储与数据库服务

您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

亚马逊云科技资深技术讲师：周一川

第三课：安全、身份和访问管理

在这个模块，您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识，责任共担模型以及身份和访问管理服务， Identity and Access Management (IAM) 。同时，通过讲师演示，您将学会如何授权给 EC2 实例，允许其访问 S3 上的资源。

亚马逊云科技技术讲师：马仲凯

了解更多入门学习计划 »

账单设置与查看

视频：快速完成税务设置

部署时间：5 分钟

视频：账户账单信息

部署时间：3 分钟

视频：如何支付账单

部署时间：3 分钟

 了解更多入门学习计划 »

动手实操

快速上手云上无服务器化的 MySQL 数据库

本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

部署时间：10 分钟

启动一台基于 Graviton2 的 EC2 实例

本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

部署时间：5 分钟

使用 Amazon Systems Manager 进行云资源统一跟踪和管理

在这个快速上手教程中，您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

部署时间：10 分钟

 查看更多教程 »

准备好体验亚马逊云科技提供的云服务了吗？

注册账号

新用户注册即可享受中国区域 40 余款产品免费套餐

联系我们

想深入了解亚马逊云科技专业服务与解决方案，请联系我们

在线咨询

一键连线亚马逊云科技技术专家，实时对话解疑

快速注册账号享用免费套餐

跟随注册步骤详解，三分钟快速创建账号，领取免费权益

打开中国区账号注册页面

01 填写您 注册账号的邮箱，点击“继续”

02 查看您的 注册账号邮箱

注：发件箱 no-reply@register.signin.amazonaws.com.cn

03 输入 邮箱中收到的验证码，点击“继续”

注：该链接中的内容显示语言是与您的网页浏览器设置相一致的，您可以根据需要自行调整语言栏。

立即开始注册 »

填写用户名密码

01 请设置您的 账号用户名

02 为您的帐号 设置密码

03 重新 输入密码

立即开始注册 »

填写账号联系人以及公司信息

01 填写公司联系人 姓名全称

02 填写公司联系人的 联系电话

03 填写 公司名称

注：公司名称请务必与您所提供的营业执照公司名称保持一致

04 填写 公司办公地址

注：省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码

05 请选择 是否需要发票

注： *附件-申请发票流程供您参考

06 点击查看 客户协议 勾选方框表示您已阅读，并同意客户协议的条款

立即开始注册 »

企业信息验证

01 在此上传 企业注册执照

02 请填写网络安全负责人的姓名

注：该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

03 请填写网络安全负责人的 联系方式

注：有效的电子邮件地址 - 有效的中国内地手机号码 - 座机号码（如无座机，请填写正确有效的手机号码）

04 在此上传网络安全负责人的 身份证件

注：当您选择证件类型为“身份证”时，您需要填写正确的身份证号码，选择其他证件类型时，您需要上传证件扫描稿

立即开始注册 »

手机验证与支持计划

01 在此填写 手机号

02 请输入您收到的 4 位 验证码

03 请点击继续

04 请根据需求 选择一个支持计划

立即开始注册 »

✕

亚马逊云科技产品入门

产品的用户指南、培训和教程

立即查看 »

轻量应用服务器

国内外轻量应用服务器全解析，从分区到安全挑战一网打尽，助力高效部署

立即了解 »

新老用户现可享受每月 750 小时的免费 t4g.small 实例使用时长，优惠期至 2025 年 12 月 31 日！

立即构建 »

Summit

亚马逊云科技中国峰会即将开幕！

6 月 19 日 - 20 日｜上海世博中心

与 12,000+ 云计算从业者齐聚一堂，探索全球行业应用实践，共话未来！

立即报名