微软为Azure认知服务带来了新的语音样式
微软今天宣布在Azure认知服务中推出了新的神经文本语音转换(TTS)功能,其AI内置的API和SDK套件使开发人员能够定制其应用程序和服务的声音以适应其品牌。三种新样式(新闻广播,客户服务和数字助理)中的每种样式都保证了听起来自然的语音,与人类声音的样式和语调相匹配。
“基于强大的基础模型,我们的神经TTS语音非常自然,可靠且富有表现力。通过转移学习,神经性TTS模型可以从不同的说话者那里学习不同的说话风格,从而产生细微的声音,”微软在博客中写道。
新闻广播的声音反映了您可能在电视或广播新闻广播中听到的“专业音调”,也就是说,它不包含任何地区主义痕迹,并且使用标准广播发音,即不掉任何字母的发音形式。微软表示,除了Azure认知服务外,新闻广播风格的声音还包含在Microsoft微信听力文档中,该文件可以朗读Word,PowerPoint和Excel文档,并生成用于在线培训,新闻播客等的音频。它也在Bing移动应用程序中-使用语音搜索功能进行搜时,您将使用新闻广播语音听到新闻摘要。
客户服务风格的语音具有“友好”和“参与”的语调,微软表示,这种语调针对涉及客户支持(例如报告索赔)的方案进行了调整。相比之下,数字助理语音有两种样式,一种是休闲的会话机器人聊天风格,另一种是用于汽车数字助理等应用的专业样式,其有用的语气适合中继天气预报,导航方向,提醒和其他信息。
除了针对特定情况进行了优化的语音样式外,微软今天早上还发布了几种新的情绪样式,可以对其进行调整以表达不同的情绪以适应给定的环境。充满欢乐或同情心,中文为抒情风格,微软将其形容为“衷心”,并最适合阅读散文或诗歌。
新的声音样式提供英语和中文版本,而情感样式提供英语,中文和巴西葡萄牙语版本。Microsoft指出,可以通过Microsoft Speech Studio中的“自定义神经语音”功能来自定义样式,从而使品牌可以构建受益于新方案的独特声音。
微软实际上是与Google 并驾齐驱的。去年,谷歌在其Cloud Text-to-Speech服务中推出了31种新的AI合成的WaveNet语音和24种新的标准语音(使WaveNet语音总数达到57种)。它在亚马逊中还有另一个竞争对手,该竞争对手最近推出了一项服务,即品牌语音(Brand Voice),该服务利用AI来生成自定义代言人,并通过亚马逊的云服务Amazon Polly将文本转换为语音,从而提供多种声音样式和情感样式。
微软为Azure认知服务带来了新的语音样式:等您坐沙发呢!