发布于: Sep 4, 2022
如何快速理解「强化学习」这一概念?驯只猫就行。比如下面这位爷,巨皮!整天就是跑酷、尿炕、抓沙发,搞到人头皮发麻、心态爆炸。直到你忍不了了,决定对它进行残酷的猫德教育。方案是:
以后在家,每当它表现出一次守猫德的行为,就奖励一根猫条;而每当它皮一次,你就立刻扑过去,咬它的头…...
这样反复拉扯两个月之后,你的猫再也不敢皮了——这个过程里发生的事情就是:强化学习
一个智能体(你的猫)在与环境(有你的你家)互动的过程中,在奖励(猫条)和惩罚(咬头)机制的刺激下,逐渐学会了一套能够最大化自身收益的行为模式(安静,躺平)。
所以其实,养猫跟搞人工智能,道理是一样的。
如何训练AI司机
那么,如何真的实现像养猫一样,来搞人工智能呢?
接下来就有请 Amazon DeepRacer 闪亮登场~
Amazon DeepRacer 是亚马逊云科技推出的1/18比例自动驾驶赛车,能够通过构建强化学习模型,快速学习并掌握人工智能的知识。车上安装了处理器、摄像头,甚至还可以配置激光雷达,为的就是实现自动驾驶。
当然,前提就是我们先在车上部署训练好的强化学习算法。
算法的训练需要在虚拟环境中进行,为此 Amazon DeepRacer 配套了一个管理控制台,里面包含一个3D 赛车模拟器,能让人更直观地看到模型的训练效果。
有了这套东西,我们就能自己尝试从零开始训练一个 AI 司机。
具体怎么做呢?重点来了:
假设这是模拟器里的一条完全笔直的赛道,以及虚拟环境里的 Amazon DeepRacer 赛车。
我们的目标是让赛车以最短的时间冲刺到终点——那么对于这条赛道而言,最好的选择就是让车尽量沿着中线跑,避免因绕路或出界而导致增加时长。
为此,我们可以把赛道切分成多个网格,然后给这些网格赋予不同的分数:
靠近中间的,给更高的分;在两侧的,稍微意思一下;超出赛道范围的部分属于无效区域,如果碰到,就要从头再来。
开跑之后,一开始,赛车并不知道哪一条是最佳路线,只是在像无头苍蝇一样四处乱撞,很多时候还会冲出赛道。
但后面,随着试错的次数越来越多,在奖励函数的“指挥”下,赛车会逐渐探索出一条能够获得最高累积分数的路线。
理想状况下,一段时间的训练、迭代之后,算法就会学会“直线”最快这条真理。
而再把算法部署到车上,我们就能收获一辆会跑直线的赛车。
当然跑直线只是一种最简单的情形,实际的赛道一般都更加复杂,很多时候沿中心线跑也并不是最快的路线,为此我们就需要调整训练的策略和奖励函数的设计。
实际操作中,具体函数的编写同样通过 Amazon DeepRacer 的管理控制台完成。
在写函数之前,我们可以在上面调整模型的超参数,然后定义它的行动空间,规定赛车行驶的速度和转向时的角度,甚至……还能选择赛车的皮肤,等等。
Amazon DeepRacer 这一整套服务,蛮像一套入门强化学习的可视化教学工具,新手跟着提示也能一步步做下来,大家如果有兴趣,不妨自己试试。
挑战吉尼斯?
当然,既然说了是赛车,自然要追求速度,越快越好。
而如果你想测试一下,自己“培养”出来的 AI 司机到底够不够快的话……
欢迎加入亚马逊云科技在中国发布的首个 Amazon DeepRacer 自动驾驶赛车联赛!
从2018年开始, 亚马逊云科技开始举办全球的Amazon DeepRacer 联赛,到现在为止,总共有超过10万人参加,覆盖了线上的模拟竞赛与线下的实体挑战赛。
而中国联赛正是为中国的开发者与机器学习爱好者量身打造的专属联赛,今年中国联赛分为了两个赛季,每个赛季的月赛根据赛道的难易程度和模型训练难度的不同,分成了大众组和专业组。月赛组别排名靠前的选手,会有机会晋级到下一组别或参加线下比赛。
比赛奖品涵盖:耳机、键盘、音箱……而你如果有幸获得赛季总冠军的话,恭喜你,你将获得一张去拉斯维加斯的机票(还有酒店、大会门票)。
Amazon DeepRacer 联赛的报名是免费的,也没有职业要求。只不过你没满16周岁就来卷,就得需要监护人允许了……
今年的比赛还在进行中,现在在官网上注册账号,就会自动获得亚马逊云服务上10个小时的训练时间,并且可以通过Amazon DeepRacer小助手申请30美元的Amazon DeepRacer专属折扣券(需要在竞赛中提交模型哦)。
与之同时,我们还正式基于 Amazon DeepRacer 发布“挑战吉尼斯世界纪录”的活动,目标是突破4387这个参赛人数数字,申请成为全世界“最大规模的机器学习竞赛”。
今年的每个参赛选手都会成为纪录的一部分——甚至,每人都有机会得到一张吉尼斯世界纪录的挑战证书。
至于这次挑战的最终结果,我们预计将会在十月份公布。
欢迎每一位开发者与 AI 爱好者加入我们的挑战之中,通过 Amazon DeepRacer 构建自己的第一个强化学习模型,并与我们携手冲击吉尼斯!