问:什么是 Amazon Polly?
Amazon Polly 是一项将文本转换为逼真语音的服务。Amazon Polly 可以为现有应用程序添加先进的语音功能,支持构建具有语音功能的全新类别产品,从移动应用程序和汽车到设备和家电,均涵盖其中。Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在许多地理位置发布具有语音功能的应用程序。Amazon Polly 简单易用。您只要将想要转换为语音的文本发送到 Amazon Polly API,Amazon Polly 就会立即将音频流返回您的应用程序。您可以直接播放该音频流,也可以将其存储为 MP3 等标准音频文件格式。Amazon Polly 支持语音合成标记语言 (SSML) 标签(例如韵律),因此您可以调整语速、音调或音量。Amazon Polly 是一种安全的服务,可以大规模、低延迟地实现以上所有功能。您可以缓存和重播 Amazon Polly 生成的语音,无需额外支付费用。注册 Amazon Polly 后,您可在第一年内每月免费转换 500 万个字符。Amazon Polly 采用按需付费定价模式,对每条请求收取的费用较低,且对语音输出的存储和重复使用没有限制,让您能够经济高效在任何地方实现语音合成。
问:问:为什么要使用 Amazon Polly?
您可以使用 Amazon Polly 为您的应用程序提供高质量的语音输出。Amazon Polly 是一项经济高效的服务,响应时间非常短,几乎支持所有使用场景,对存储和重复使用生成的语音也没有任何限制。
问:提供哪些功能?
您可以使用标准化的语音合成标记语言 (SSML) 控制语音的各个方面,例如发音、音量、音调和语速等。您可以根据音频流中的元数据,检测用户听到文本中的特定文字或语句的时间。这让开发人员能够将重要图像和动画(例如头像的嘴唇动作)与合成语音同步。您可以使用自定义词典更改特定词语的发音,例如公司名称、首字母缩略词、外来词和新词,比如“P!nk”、“ROTFL”、“C’est la vie”(用非法语语音读出时)。
问:什么是语音标记?
语音标记用于补充从输入文本生成的合成语音。将这一元数据流与合成语音音频流配合使用,客户能够在应用程序中提供增强的视觉体验,例如语音同步动画或者卡拉 ok 式突出提示。
Amazon Polly 使用以下四种元素来生成语音标记:
语音标记以 JSON 流(具体指一组由新线隔开的独立 JSON 对象)的形式提供,在使用合成语音方法处理语音标记类参数时,涵盖上面一个到全部四个元素中的任何位置。您可以在《Amazon Polly 开发人员指南》中找到更多信息。
问:问:这一服务有哪些最常见的使用案例?
借助 Amazon Polly,您可以添加逼真的语音功能,让您的应用程序生动起来。例如,在电子学习和教育领域,您可以构建能够利用 Amazon Polly 的文本转语音 (TTS) 功能的应用程序,为有阅读障碍的人提供帮助。Amazon Polly 可以用于帮助盲人和视障人士使用数字内容(例如电子书和新闻等)。Amazon Polly 还可用于公共交通和工业控制系统的通知系统,发布通知和紧急公告。机顶盒、智能手表、平板电脑、智能手机和 IoT 设备等很多设备都可以利用 Amazon Polly 来提供音频输出。Amazon Polly 可以用于电话服务解决方案,为交互式语音应答系统提供语音支持。问答游戏、动画、头像或旁白生成等应用场景都是 Amazon Polly 等基于云的 TTS 解决方案的常见使用案例。
问:这一产品如何与其他 亚马逊云科技产品配合使用?
将其与 Amazon Lex 结合使用,开发人员可以为应用程序构建功能齐全的语音用户界面。在 Amazon Connect 中,Amazon Polly 语音可以用于创建基于云的自助式联络中心服务。除此之外,移动应用程序和物联网 (IoT) 解决方案的开发人员可以利用 Amazon Polly 将语音输出添加到自己的系统中。
问:云中的文本转语音解决方案相对于设备上的文本转语音解决方案有哪些优势?
设备上的文本转语音解决方案需要大量的计算资源,特别是设备上可用的 CPU 功率、RAM 和磁盘空间。这会导致平板电脑、智能手机等设备的开发成本增加、功耗上升。相比之下,在云中完成文本到语音的转换,可以显著减少对本地资源的需求,以便支持以各种可用的语言和声音提供最优质的语音。此外,所有最终用户都可以立刻使用语音纠正和语音增强功能,无需对任何设备进行额外更新。云中的文本转语音 (TTS) 是独立于平台的,因此可以最大限度地减少开发时间和工作量。
问:问:如何开始使用 Amazon Polly?
您只需登录到您的 亚马逊云科技账户并在 亚马逊云科技控制台中导航到 Amazon Polly 控制台即可。然后,您可以使用控制台输入任何文本并收听生成的语音,或将其另存为音频文件。
问:哪些区域提供这项服务?
请参阅 亚马逊云科技全球基础设施区域表。
问:支持哪些编程语言?
Amazon Polly 支持 Amazon 软件开发工具包中包含的所有编程语言(Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++)和 Amazon 移动软件开发工具包中包含的所有编程语言 (iOS/Android)。Amazon Polly 还支持 HTTP API,因此您可以实施自己的访问层。
问:持哪些音频格式?
借助 Amazon Polly,您可以近乎实时地将音频流式传输给您的用户。Amazon Polly 还提供多种采样率供您选择,便于您为应用程序优化带宽和音频质量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音频流格式。
问:Amazon Polly 是否具有 亚马逊云科技服务限制?
为了保证 亚马逊云科技资源的可用性并尽可能降低新客户的账单风险,亚马逊云科技对每个账户都设置了服务限制。使用 Amazon Polly 为应用程序提供高质量语音输出时,需要遵循默认的服务限制,包括对限制设置、操作和语音合成标记语言 (SSML) 的使用的限制。有关详细信息,请参阅《Amazon Polly 开发人员指南》中的 Amazon Polly 中的限制。将 Amazon Polly 与其他服务(例如可以高效进行批处理的 Amazon Batch)配合使用,您可以在上述服务限制内充分利用 Amazon Polly。
问:使用 Amazon Polly 如何收费?
请参阅 Amazon Polly 定价页面,了解最新的定价信息。
问:是否可以使用该服务生成可多次重播的静态语音提示?
可以。该服务对此没有限制,也不会额外收取任何费用。
问:是否可以使用该服务生成在群发通知系统(例如在火车站)中使用的内容?
可以。该服务对此没有限制,也不会额外收取任何费用。
问:如果我请求合成 1000 个字符,并请求对同样的 1000 个字符提供语音标记,那么是否会对我收取 2000 个字符的费用?
是的。您需要按照发送到服务的字符数量,为涉及语音或语音标记的每条请求支付费用。
问:Amazon Polly 是否会存储处理过的文本输入?亚马逊云科技如何使用这些输入?
Amazon Polly 会存储和使用仅由该服务处理的文本输入,以便提供和维护服务,以及改进和提高 Amazon Polly 和其他 Amazon 机器学习/人工智能技术的质量。为了持续改善您的 Amazon Polly 客户体验并促进相关技术的开发和训练,我们必须使用您的内容。我们不会根据您的内容中可能包含的任何个人身份信息来向您或您的最终用户推荐产品、服务或进行营销。您的信任、隐私和内容的安全性是我们最重视的问题,我们会采取适当且先进的技术和物理控制措施(包括静态和动态加密),防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。
问:哪些人有权访问 Amazon Polly 处理和存储的内容?
只有经过授权的员工才能访问 Amazon Polly 处理的内容。
问:由 Amazon Polly 处理和存储的内容是否仍归我所有?
您始终保留对您的内容的所有权,我们只会在您同意的情况下使用您的内容。
问:我是否可以将 Amazon Polly 用于针对 18 岁以下儿童的网站、计划或其他应用程序?
可以。在遵守 Amazon Polly 服务条款和适用法律(包括《中华人民共和国未成年人保护法》)的前提下,您可以将 Amazon Polly 用于部分或全部内容针对 18 岁以下儿童的网站、计划或其他应用程序。