简单易用的 API
Amazon Polly 提供了 API,它可以帮助您将语音合成功能快速集成到应用程序中。您只要将想要转换为语音的文本发送到 Amazon Polly API,Amazon Polly 就会立即将音频流返回您的应用程序。应用程序可以直接播放该音频流,也可以将其存储为 MP3 等标准音频文件格式。
采样率 | 示例代码 |
"Hi.My name is Joanna." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi.My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
广泛的语音和语言选择
Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在许多国家/地区发布具有语音功能的应用程序。
语言 | 女 |
男 |
澳大利亚英语 | Nicole | Russell |
巴西葡萄牙语 | Vitória | Ricardo |
加拿大法语 | Chantal | |
丹麦语 | Naja | Mads |
荷兰语 | Lotte | Ruben |
法语 |
|
|
德国 | Vicki | Hans |
Marlene | ||
印地语 | Aditi |
|
冰岛语 | Dóra | Karl |
印度英语 | ||
意大利语 | Carla | Giorgio |
日语 | Mizuki | Takumi |
朝鲜语 | Seoyeon | |
普通话 | Zhiyu | |
挪威语 | Liv | |
波兰语 | Ewa | Jacek |
Maja | Jan | |
葡萄牙伊比利亚语 | Inês | Cristiano |
罗马尼亚语 | Carmen | |
俄语 | Tatyana | Maxim |
西班牙卡斯蒂利亚语 | Conchita | Enrique |
瑞典语 | Astrid | |
土耳其语 | Filiz | |
英国英语 | Amy | Brian |
Emma | ||
美国英语 | Joanna | Matthew |
Salli | Justin | |
Kendra | Joey | |
Kimberly | ||
Ivy | ||
美国西班牙语 | Penélope | Miguel |
威尔士语 | Gwyneth | |
威尔士英语 | Geraint |
使用合成语音功能,获得增强的视觉体验
Amazon Polly 让您可以轻松请求额外的元数据流,以了解特定语句、词语和声音的发出时间。将这一元数据流与合成语音音频流配合使用,您能够在应用程序中提供增强的视觉体验,例如语音同步的面部动画或卡拉 OK 式的字词高亮显示。
要详细了解如何使用语音标记功能,请访问此文档。
优化您的流音频
使用 Amazon Polly,您可以接近实时地通过应用程序向用户流式传输各种各样的信息。Amazon Polly 还提供多种采样率供您选择,便于您为应用程序优化带宽和音频质量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音频流格式。
采样率 | MP3 大小 | OGG 大小 |
PCM 大小 |
22.05kHz 试听 |
19.02kB | 19.14kB | N/A |
16.05kHz 试听 | 16.04kB |
16.35kB |
99.53kB |
8.00kHz 试听 | 13.26kB | 10.40kB | 49.76kB |
调节语速、音调和音量
Amazon Polly 支持语音合成标记语言 (SSML),它是一种适用于语音合成应用程序的基于 XML 的 W3C 标准标记语言;Amazon Polly 还支持常用的 SSML 标签,用于调整措辞、强调和语调。这种灵活性可以帮助您制作生动逼真的语音,以更好地吸引受众的注意力。
要了解更多信息,请访问关于 SSML 标签的 Amazon Polly 文档。
样本 | SSML |
这是我平常说话的方式。 | (无) |
我可以用较高的音调说话,或者我可以用较低的音调说话。 | <speak>我可以用<prosody pitch="high">较高的音调</prosody>说话,或者我可以用<prosody pitch="low">较低的音调</prosody></speak>说话 |
我可以说得很慢,或者我可以说得很快。 | <speak>我可以说得<prosody rate="x-slow">很慢</prosody>,或者我可以说得<prosody rate="x-fast">很快</prosody></speak> |
我还可以非常大声地说话,或者我可以非常小声地说话。 | <speak>我还可以<prosody volume="x-loud">非常大声</prosody>地说话,或者我可以<prosody volume="x-soft">非常小声</prosody>地说话</speak> |
我可以悄声说话。 | <speak>我有一个秘密要告诉你,我来悄悄地告诉你。<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">我不是人类。</prosody></prosody></amazon:effect>你相信吗?</speak> |
调节语音的最长持续时间
使用 Amazon Polly,您可以使用一个叫“时间驱动的韵律”的功能,基于您所设定的最长分配时间自动调整语速。这对许多使用案例都是有利的,尤其是在本地化方面。
例如,假设您的培训视频中嵌入的是美国英语语音,您想将此视频本地化为德语。假设您翻译了视频文本,并使用 Amazon Polly 制作了德语语音。将本地化后的德语语音流准确放入视频相应的帧中非常关键,德语语音的持续时间不能比美国英语语音的持续时间长。您可以使用此功能使配音过程更加便利。
平台和变成语言支持
Amazon Polly 支持 Amazon 软件开发工具包中包含的所有编程语言(Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++)和 Amazon 移动软件开发工具包中包含的所有编程语言 (iOS/Android)。Polly 还支持 HTTP API,因此您可以实施自己的访问层。
通过 API、控制台或命令行使用语音合成功能
您可以通过 Polly API(各种特定语言的软件开发工具包)、亚马逊云科技管理控制台和 Amazon 命令行界面 (CLI) 访问 Amazon Polly。您可以完全控制 Amazon Polly 的所有功能,无论您是通过控制台、API 还是 CLI 使用此服务。
自定义字典
借助 Amazon Polly 的自定义字典或词汇表,您可以使用修改公司名称、首字母缩略词、外来词和新词等特定词语的发音,例如“ROTFL”和用非法语语音说出的“C’est la vie”。要自定义这些发音,您需要上传一份包含词汇条目的 XML 文件。例如,您可以通过在该 XML 文件中提供语音来自定义“Nguyen”的发音:
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>