发布于: Aug 9, 2022
随着人工智能与体育分析结合日益紧密,Amazon Web Services 决定与 Stats Perform 联手将机器学习驱动的实时统计数据系统引入英式橄榄球赛,旨在提高球迷参与度并提供关于比赛的更多宝贵洞见。
健力士六国锦标赛始于1883年,最初只是英格兰、爱尔兰、英格兰与威尔士之间组织的本国英式橄榄球锦标赛。法国与意大利先后于 1910 年和 2000 年正式加入。作为幸存下来的最古老的传统橄榄球项目之一,英式橄榄球成为全球参与人数最多的重量级体育赛事之一。COVID-19 疫情爆发导致 2020 年冠军赛被迫中止,余下的四场比赛于 10 月 24 日恢复举办。
本文总结了本届健力士六国英式橄榄球锦标赛上 Stats Perform 与 Amazon Web Services 的通力合作,使用 Amazon SageMaker 及其他多项 Amazon Web Services 服务开发出一种机器学习驱动型方法,用以在比赛期间实时预测结果并发布罚球得分的几率。Amazon Web Services 基础设施能够以个位数毫秒的延迟迅速完成推理计算,由此得出的结果以 Kick Predictor 统计信息的形式显示在 Amazon Web Services 设计的动态 Matchstat 结果当中,帮助球迷们对比赛中的关键节点建立更深入的理解。关于使用 Amazon Web Services 服务为英式橄榄球开发其他统计信息功能的详情,请参阅六国英式橄榄球网站。
英式橄榄球属于橄榄球的一个分支,每支队伍有 23 位球员。除了各队场上的 15 名球员之外,其他替补球员则随时准备接替上场。比赛的目标是拿下高分,而踢球射门正是得分的重要方法之一。准确的踢球能力也因此成为橄榄球场上最重要的技术,其得分方式又分两种:传/跑入端区(得 2 分)与罚球(得 3 分)。
预测踢球的成功几率非常重要,如果能够即时给出预测结果,那么球迷的参与度也将显著提升。球员准备踢球时,通常会有 40 到 60 秒的停顿时间,在此期间,球迷们会在屏幕上看到 Kick Predictor 给出的统计信息。评论员也会在此期间预测结果,描述当前的得分难度并比较类似情况下其他踢球手的表现。另外,球队还可能使用踢球概率模型来确定下一次得到罚球机会时应该派哪谁上场。
为了计算罚球成功的可能性,Amazon 机器学习解决方案实验室使用 Amazon SageMaker 通过历史赛事数据训练、测试并部署机器学习模型,借此结合现场的实际位置计算得分概率。在以下各节中,我们将具体了解数据集与预处理步骤、模型训练以及模型部署流程。
Stats Perform 提供了用于训练射门模型的数据集,其中包含 2007 年至 2019 年期间 46 大联赛中各场比赛的数百万个事件。在比赛中收集到的原始 JSON 事件数据被存储在 Amazon Simple Storage Service (Amazon S3)当中。接下来,Amazon SageMaker notebook 实例将对其进行解析与预处理。在选定与踢球相关的事件之后,最终整理出的训练数据约包含 67000 次射门,其中有约 50000 次(占比7 5%)成功射门与 17000 次(占比 25%)失败。
下图所示,为示例比赛中的踢球摘要信息。展示了运动员从不同的角度和距离踢球的情况。
英式橄榄球专家也为数据的预处理提供了宝贵意见,包括检测并消除异常情况,例如不合理的踢球动作等。清洗完成的 CSV 数据并返回至 S3 存储桶以进行机器学习训练。
下图所示,为预处理之后的射门热图。左脚为主力脚的射门动作将进行镜像处理。亮度越高的部分,即代表得分机率更高,标准得分介于 0 到 1 之间。
为了更好地反映现实世界中的事件,机器学习解决方案实验室采用探索性数据分析与英式橄榄球专家的见解设计出多项特征。用于建模的特征主要分为三大类:
- 基于位置的特征——包括运动员的射门动作,以及射门时与球之间的距离及角度。射门活动的x坐标将以橄榄球中心线为基准进行镜像处理,借此消除模型中惯用左脚及惯用右脚引发的偏差。
- 球员表现特征——踢球手在特定区域内、锦标赛中乃至整个职业生涯的平均射门成功率。
- 比赛内情境特征——踢球手的球队(主场或客场)、踢球前的得分情况以及当前射门在整场比赛中的所处时段。
基于位置的特征与球员表现特征也是模型当中最重要的特征所在。
在特征工程处理之后,还需要对分类变量进行一轮热编码;为了避免模型出现大值变量偏差,我们还对数值预测器进行了标准化。在模型训练阶段,球员的历史表现特征将被推送至 Amazon DynamoDB 表中。DynamoDB 将帮助系统在推理过程中以个位数毫秒的延迟提供射门预测。
相关文章