谷歌的WaveNetEQ填补了二重奏通话中的语音空白
谷歌今天详细介绍了一个名为WaveNetEQ的AI系统,该系统最近已部署到该公司的跨平台语音和视频聊天应用Duo中。二重奏组可以现实地合成简短的语音片段,以替代因互联网连接不稳定而导致的乱码。它的速度足够快,可以在智能手机上运行,同时提供最先进的,自然的声音质量,为将来针对带宽受限的环境进行了优化的聊天应用程序奠定了基础。
正如Google解释的那样,为了确保可靠的实时通信,有必要处理接收方需要时丢失的数据包(即,格式化的数据单元)。(该公司表示,由于网络问题,有99%的Duo呼叫需要处理网络问题,而有10%的呼叫损失的音频持续时间超过总音频持续时间的8%。)如果不连续传送新音频,则会出现可听到的小故障和缝隙。会发生,但是重复相同的音频并不理想,因为它会产生伪像并降低总体通话质量。
Google的解决方案WaveNetEQ是所谓的丢包遏制模块,该模块负责创建数据以填补由丢包,过度抖动和其他事故造成的空白。
在结构上,WaveNetEQ是DeepMind的WaveRNN的修改版本,WaveRNN是一种用于语音合成的机器学习模型,由自回归和条件调节网络组成。自回归网络通过使每个生成的样本取决于网络的先前输出来提供短期和中期语音结构,而调节网络会影响自回归网络以产生与移动速度较慢的输入特征一致的音频。
WaveNetEQ使用自回归网络提供音频连续性,并使用调节网络来建模长期功能,例如语音特性。过去音频信号的频谱图(即频谱频谱的直观表示)用作调节网络的输入,该调节网络提取有关韵律和文本内容的信息。该压缩信息被馈送到自回归网络,该网络将其与最近的音频相结合,以预测波形域中的下一个样本。
为了训练WaveNetEQ模型,Google使用训练数据集中的自回归网络样本作为下一步的输入,而不是使用模型产生的最后一个样本。这是为了确保WaveNetEQ甚至在培训的早期,即使预测仍然很低质量,也能学到有价值的语音信息。前面提到的语料库包含来自100位演讲者的48种不同语言的录音,以及各种各样的背景噪音,以确保模型可以处理嘈杂的环境。
WaveNetEQ经过全面培训并用于Duo音频和视频通话后,培训仅用于“热身”第一个样本的模型。在生产中,WaveNetEQ的输出作为下一步的输入传递回去。
WaveNetEQ应用于Duo抖动缓冲区中的音频数据,因此一旦丢包后真实音频继续播放,它将无缝合并合成和真实音频流。为了找到两个信号之间的最佳对准,该模型产生的输出要比所需的输出稍多,然后从一个到另一个交叉淡入淡出,避免了明显的噪声。
谷歌表示,实际上,WaveNetEQ可以合理地完成长达120毫秒的音节。
WaveNetEQ已在Pixel 4和Pixel 4 XL上的Duo中提供-它们于3月3日到货-谷歌表示正在将系统推广到其他设备。具有Qualcomm Snapdragon 855片上系统的型号现在应该具有它,而具有Snapdragon 845芯片组的模型将在未来几天得到它。
谷歌的WaveNetEQ填补了二重奏通话中的语音空白:等您坐沙发呢!