强化学习的原理
强化学习的优点
- 强化学习能够通过采样优化性能,并使用函数逼近处理大型环境;
- 强化学习能够应用于已知环境模型但无法获得解析解的情况,或者只给出模拟模型,或者唯一获取信息的方式是与环境交互的情况;
- 强化学习已成功应用于多个领域,如储能运营、机器人控制、光伏发电调度、棋类游戏以及自动驾驶系统等;
- 强化学习算法能够快速适应不断变化的环境,并找到新的策略优化结果;
- 强化学习需要较少的人工交互,算法可以自主学习和发现最优结果,无需标注数据;
- 强化学习非常适合具有长期后果的场景,因为它可以优化长期回报的最大化。

强化学习特点
强化学习是一种机器学习范式,具有以下独特特点:
- 缺少监督者角色:与监督学习不同,强化学习没有外部监督者提供正确答案。智能体 (agent) 必须通过与环境的交互来学习,并根据从环境获得的反馈来调整其行为。
- 延迟反馈:强化学习中,智能体的行为并不会立即获得反馈。相反,反馈(奖励或惩罚)可能会在一段时间后才出现,这就需要智能体具有长期规划和预测的能力。
- 时间序列性质:强化学习问题涉及一系列决策,每个决策都会影响后续状态和奖励。因此,强化学习具有时间序列的特性,需要考虑动态决策过程。
- 行为影响后续数据:在强化学习中,智能体的行为会直接影响环境的状态,从而影响后续获得的数据。这与监督学习和无监督学习形成鲜明对比,后两者的训练数据是固定的。
强化学习具有以下四大核心要素:
- 策略 (Policy):定义了在给定环境状态下,智能体应该采取何种行为。策略是强化学习的核心,目标是找到一个最优策略。
- 奖励 (Reward):环境在每个时间步骤向智能体发出的标量反馈,用于指导智能体朝着正确方向学习。奖励函数定义了强化学习的目标。
- 价值 (Value):对长期收益的衡量,用于评估当前行为的收益。价值函数能够从长期角度评判行为的好坏。
- 模型 (Model):对环境的模拟或表示。强化学习可以选择基于模型(有模型)或不基于模型(无模型)两种方法。
通过与环境的反复交互,并根据奖励信号调整策略,强化学习算法能够找到最优策略,从而解决复杂的序列决策问题。

强化学习算法分类
1
ModelFree 算法
这类算法不需要了解环境的转移概率模型,只依赖于通过与环境交互获得的经验数据。ModelFree 算法可以进一步分为两种:
- 基于策略优化的算法:这些算法直接优化策略函数,例如策略梯度算法。它们试图找到可以最大化期望回报的最优策略。
- 基于 Qlearning 的算法: 这些算法不直接学习策略,而是学习状态行为值函数 Q(s,a),然后根据 Q 值贪婪地选择行为。Qlearning 和深度 Q 网络 (DQN) 就属于这一类。
2
ModelBased 算法
这类算法需要了解或学习环境的转移概率模型。拥有环境模型的优势在于智能体可以基于模型预测未来状态,从而更好地规划行动路径。ModelBased 算法也可分为两种:
- 模型学习算法: 这些算法需要从与环境交互的数据中学习环境的转移概率模型,例如使用监督学习技术。
- 给定模型算法: 这些算法假设环境的转移概率模型是已知的,例如一些经典的规划算法。
强化学习应用
强化学习作为一种通用的机器学习范式,在各个领域都有广泛的应用前景,可以帮助智能体学习最优的决策和控制策略,以完成复杂的任务。
强化学习与监督学习的区别
数据标注需求不同
监督学习需要大量标注好的输入输出数据对来训练模型,强化学习则不需要这种标注数据。强化学习的目标是通过与环境的交互,探索不同行为策略,从而最大化长期累积奖励,即使奖励反馈是不完整或延迟的。

学习目标不同
监督学习的目标是从给定的输入中推断出期望的输出,其代价函数通常与消除错误推断相关。而强化学习的目标是找到一个策略,使得在与环境交互时获得的长期累积奖励最大化。

环境建模需求不同
强化学习算法不需要事先了解环境的精确数学模型,而是将环境表示为马尔可夫决策过程。这使得强化学习可以应用于难以建模的复杂环境。相比之下,监督学习并不对环境做这种假设。

应用场景不同
强化学习擅长处理需要长期规划、短期牺牲以获得长期利益的复杂动态环境,如无人驾驶汽车在城市交通中的导航。监督学习则更适用于简单的输入输出映射任务。

强化学习的挑战
在现实世界中实验奖惩系统可能不切实际,因为可能导致意外后果,如无人机损坏;现实环境往往不可预测,使得强化学习算法在实践中更加困难;复杂的强化学习算法可解释性较差,很难理解导致最优结果的一系列行为背后的原理。

欢迎加入亚马逊云科技培训中心
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
快速上手训练营
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿
第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川
第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯
了解更多入门学习计划 »

账单设置与查看

动手实操
快速上手云上无服务器化的 MySQL 数据库
本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。
部署时间:10 分钟
启动一台基于 Graviton2 的 EC2 实例
本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。
部署时间:5 分钟
使用 Amazon Systems Manager 进行云资源统一跟踪和管理
在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。
部署时间:10 分钟
查看更多教程 »

准备好体验亚马逊云科技提供的云服务了吗?
快速注册账号 享用免费套餐
跟随注册步骤详解,三分钟快速创建账号,领取免费权益
打开中国区账号注册页面
01 填写您 注册账号的邮箱,点击“继续”
02 查看您的 注册账号邮箱
注: 发件箱 no-reply@register.signin.amazonaws.com.cn
03 输入 邮箱中收到的验证码,点击“继续”
注: 该链接中的内容显示语言是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。

填写用户名密码
.04e59cc081d6b1b4de2e80dca972273ad0cd7ace.jpg)
填写账号联系人以及公司信息
01 填写公司联系人 姓名全称
02 填写公司联系人的 联系电话
03 填写 公司名称
注: 公司名称请务必与您所提供的营业执照公司名称保持一致
04 填写 公司办公地址
注: 省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码
05 请选择 是否需要发票
注: *附件-申请发票流程 供您参考
06 点击查看 客户协议 勾选方框表示您已阅读,并同意客户协议的条款
.dcb511571e7913a6581f0ae803797a01c918ac61.jpg)
企业信息验证
01 在此上传 企业注册执照
02 请填写网络安全负责人的 姓名
注: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致
03 请填写网络安全负责人的 联系方式
注: 有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)
04 在此上传网络安全负责人的 身份证件
注: 当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿
.8252245bf937985f0b90aaa376899e8932e71a49.jpg)
手机验证与支持计划
.7122fd576282aebfbd9ed8927a918a378c59550d.jpg)