发布于: Nov 30, 2022

【概要】在本文中,我们介绍了如何使用 Amazon A2I 人工审核工作流与 Amazon Transcribe 自定义词汇表改善自动视频的转录效果。

智能语音 ai 测评是我们完成一段语音转录后需要进行的必要步骤。在接下来的部分中,我们将使用四段视频对工作流结果进行分析。为了在示例工作流中扩大分析指标的样本量,我们为播放列表中的每段视频预先生成了一份正确转录文本,一份使用自定义词汇表前的转录文本,以及一份使用自定义词汇表后的转录文本。第一与第三段视频属于样本视频,用于构建我们之前看到的自定义词汇表。第二与第四段视频则作为非样本视频,用于在自定义词汇表构建完成后再次测试 Amazon Transcribe 的转录效果。运行相应代码块即可下载相应转录文本。

比较单词错误率

语音识别领域,最常用的准确率衡量指标为单词错误率(WER),其定义为 WER =(S+D+I)/N。公式中的 S、D 与 I 分别为从直接输出的转录结果到正确结果所需要的替换、删除与插入操作数量,N 则为单词总数。通过这条简单的公式,我们可以在广义上解释转录错误与实际单词总量之间的比例。

我们使用一套名为 JiWER 的轻量级开源 Python 库,以计算各份转录文本之间的 WER 差异。具体参见以下代码:

!pip install jiwer
from jiwer import wer
import jiwer

关于更多详细信息,请参阅 JiWER: 用于自动语音识别评估的相似性衡量指标。

我们计算了样本视频(即用于构建自定义词汇表的视频)中的相应指标。使用笔记本中的代码,即可得出以下输出结果:

===== In-sample videos =====
Processing video #1
The baseline WER (before using custom vocabularies) is 5.18%.
The WER (after using custom vocabularies) is 2.62%.
The percentage change in WER score is -49.4%.

Processing video #3
The baseline WER (before using custom vocabularies) is 11.94%.
The WER (after using custom vocabularies) is 7.84%.
The percentage change in WER score is -34.4%.

要计算非样本视频(即 Amazon Transcribe 之前未曾观看过的视频)的指标,请输入以下代码:

===== Out-sample videos =====
Processing video #2
The baseline WER (before using custom vocabularies) is 7.55%.
The WER (after using custom vocabularies) is 6.56%.
The percentage change in WER score is -13.1%.

Processing video #4
The baseline WER (before using custom vocabularies) is 10.91%.
The WER (after using custom vocabularies) is 8.98%.
The percentage change in WER score is -17.6%.

下表总结了 WER 得分的变化情况。

如果只关注绝对 WER 得分,例如初始 WER 为 5.18% 的结果,我们可以认为 Amazon Transcribe 的质量已经足够可靠——相当于每转录 20 个单词,才会出现 1 个错误!但是,很多特定领域术语往往是句子表达中的核心。换言之,与常见的 “to”、“and”、“I” 等相对不影响理解的部分不同,术语转录错误往往导致用户无法获得可读的转录结果。对于搜索引擎优化(SEO)及按主题组织视频等应用场景,我们肯定需要保证这些技术术语能够得到正确转录。在本节中,我们将具体探讨自定义词汇表在多个重要技术术语上给转录正确率带来的影响。

特定技术术语的相应指标

在本文中,基准(ground truth)代表的是人工转录后得出的正确结果,初始转录(original transcript)代表的是采用自定义词汇表之前的转录结果,新转录(new transcript)是指使用自定义词汇表之后的转录结果。

样本视频

下表所示,为视频 1 的转录正确率。

下表所示,为视频 3 的转录正确率。

非样本视频

下表所示,为视频 2 的转录正确率。

下表所示,为视频 4 的转录正确率。

可以看到,使用自定义词汇表能够将技术术语的正确转录比例提升 80% 甚至更高。在大多数情况下,使用自定义词汇表甚至能够让这些特定领域中的术语获得 100% 的转录正确率。毫无疑问,构建自定义词汇表绝对物有所值!

 

为了避免产生不必要的成本,请在演练结束之后删除相应资源,包括您的 S3 存储桶、人工审核工作流、转录作业以及 Amazon Sagemaker 笔记本实例。关于具体操作说明,请参阅以下内容:

  • 如何删除 S3 存储桶?
  • 删除流定义
  • 删除转录作业
  • 资源清理: SageMaker 资源

 

在本文中,我们介绍了如何使用 Amazon A2I 人工审核工作流与 Amazon Transcribe 自定义词汇表改善自动视频的转录效果。通过本轮演练,您可以快速识别出特定领域的术语,并使用这些术语构建自定义词汇表,以便后续更准确地对其他视频中的相同术语实现转录。对于 SEO、针对性文本查询以及按技术术语对批量视频或音频文件进行分组等应用场景,这种对关键技术术语的正确转录都是一项至关重要的能力与前提性保证。

 

相关文章