亚马逊开始将Alexa的云AI转移到自己的芯片上

亚马逊开始将Alexa的云AI转移到自己的芯片上

周四,亚马逊AWS博客文章 宣布,该公司已将其Alexa个人助理的大部分云处理从Nvidia GPU移至其自己的Inferentia 专用集成电路(ASIC)上。亚马逊开发人员Sebastien Stormacq对Inferentia的硬件设计进行了如下描述:

AWS Inferentia 是由AWS构建的定制芯片,用于加速机器学习推理工作负载并优化其成本。每个 AWS Inferentia 芯片均包含四个 NeuronCore。每个NeuronCore都实现了一个高性能的 脉动阵列 矩阵乘法引擎,从而大大加快了典型的深度学习操作,例如卷积和转换器。NeuronCores还配备了一个大的片上高速缓存,这有助于减少对外部存储器的访问,从而大大减少了延迟并提高了吞吐量。

当亚马逊客户(通常是拥有回声或回声点的某人)使用Alexa个人助理时,几乎不需要在设备本身上进行任何处理。典型的Alexa请求的工作量如下所示:

1.有人对亚马逊回声说:“ Alexa,伯爵茶有什么特殊成分?”
2.回声使用其自身的板上处理功能来检测唤醒词Alexa
3.Echo将请求流式传输到Amazon数据中心
4.在Amazon数据中心内,语音流将转换为音素(推理AI工作负载)
5.仍在数据中心中,音素被转换为单词(推理AI工作负载)
6.单词组合成短语(推理AI工作负载)
7.短语被提炼成意图(推理AI工作负载)
8.Intent被路由到适当的实现服务,该服务以JSON文档的形式返回响应
9.解析JSON文档,包括用于Alexa回复的文本
10.Alexa答复的文本形式被转换为听起来自然的语音(推理AI工作负载)
11.自然语音音频将流回Echo设备进行播放-“它是佛手柑橙油”。

如您所见,为完成Alexa请求所做的几乎所有实际工作都发生在云中,而不是在Echo或Echo Dot设备本身中。而且,大部分云工作不是由传统的if-then逻辑完成,而是由推理完成,这是神经网络处理的答案所在。
根据Stormacq的说法,将这种推理工作负载从Nvidia GPU硬件转移到了亚马逊自己的Inferentia芯片上,导致Alexa的文本到语音工作负载的成本降低了30%,端到端延迟提高了25%。亚马逊并不是唯一一家使用Inferentia处理器的公司,该芯片为Amazon AWS Inf1实例提供动力,该实例可供公众使用,并且可以与Amazon GPU驱动的G4实例竞争。

亚马逊的AWS Neuron软件开发套件允许机器学习的开发人员将Inferentia用作流行框架(包括TensorFlow,PyTorch和MXNet)的目标。

亚马逊开始将Alexa的云AI转移到自己的芯片上:等您坐沙发呢!

发表评论

表情
还能输入210个字