苹果和CMU研究人员演示了一种用于智能家居设备的低摩擦听讲系统

苹果和CMU研究人员演示了一种用于智能家居设备的低摩擦听讲系统

苹果公司的研究人员团队和卡内基·梅隆大学人机交互研究所已经提出了一个系统,用于嵌入式认可机构通过收听他们的环境噪音,而不需要的前期训练数据或不放置一个巨大的负担,对用户监督学习的过程中学习。总体目标是使智能设备更轻松地建立上下文/情境意识,以提高其效用。

他们称其为“ 听学习者 ”的系统依靠声活动识别功能,使智能设备(例如配备麦克风的扬声器)能够通过自我监督的学习过程和人工标记过程来解释其环境中发生的事件。通过一次用户交互(例如,说话者问一个人“那是什么声音?”),在听到噪音后有足够的时间将其分类为一个群集。

还可以循环输入通用的预训练模型,以使系统能够初步猜测声团可能表示什么。因此,用户交互可以不那么开放,系统可以提出诸如“是水龙头吗?”之类的问题。—只需要房间里人的是/否响应。

还可以部署优化问题,以帮助系统找出研究人员所称的“边缘情况”,即声音已经被紧密地聚集在一起,但仍可能表示一个不同的事件-例如,关门与关闭橱柜。随着时间的流逝,系统可能能够做出有根据的猜测或猜测,然后将其呈现给用户进行确认。

在他们介绍研究的论文中,他们指出,尽管智能设备在家庭和办公室中变得越来越普遍,但它们往往缺乏“上下文感知功能”-仅“对它们周围正在发生的事情有最小的了解”,从而限制了“它们的实现真正的辅助计算体验的潜力”。

尽管声活动识别本身并不是新事物,但研究人员希望了解他们是否可以改进现有的部署,要么需要大量的手动用户培训来获得高精度;或使用经过预先训练的通用分类器“开箱即用”工作,但由于缺少针对用户特定环境的数据,因此准确性较低。

因此,听力学习者旨在作为增加实用性(准确性)的中间地带,而不会给人类增加结构数据的负担。端到端系统会随着时间的流逝自动生成声音事件分类器,团队将构建概念验证原型设备,使其像智能扬声器一样工作,并通过管道进行人工输入。

“T 他获悉算法通过迭代聚类未知样品,然后训练一个整体模型上所产生的集群作业的分类,”他们在纸上解释。“这允许与用户进行“一次性”交互,以在集成模型的某些部分被激活时对其进行标记。”

音频事件使用自适应阈值进行细分,该阈值在麦克风输入电平比过去一分钟的平均值高1.5个标准偏差时触发。

他们补充说:“我们采用磁滞技术(例如,用于反跳)来进一步平滑我们的阈值方案,”并进一步指出:“尽管许多环境具有持续且特征性的背景声音(例如HVAC),但我们会忽略它们(以及静音)。为了提高计算效率。请注意,如果传入样本与环境噪声过于相似,则会将其丢弃,但不会消除分段窗口内的静音。”

他们使用的CNN(卷积神经网络)音频模型最初是在YouTube-8M数据集上进行训练的  -根据该论文进行了扩充,并添加了专业的音效库。

“使用深度神经网络嵌入的选择可以看作是输入数据的学习的低维表示,这与流形假设(即,高维数据大致位于低维流形上)是一致的。通过对这种低维的学习表示进行聚类和分类,我们的系统能够更轻松地发现和识别新颖的声音类别。

该团队使用无监督的聚类方法从低维学习的表示中推断类边界的位置-使用称为Ward 方法的分层聚类聚类(HAC)算法。

他们的系统评估“所有可能的数据分组以找到类别的最佳表示形式”,前提是候选聚类可能彼此重叠。

“虽然我们的聚类算法通过最小化集群内的总方差将数据分为多个集群,但我们也试图根据其可分类性来评估集群。在聚类阶段之后,我们使用一种无​​监督的一类支持向量机(SVM)算法,该算法可学习用于新颖性检测的决策边界。对于每个候选集群,将在集群的数据点上训练一类SVM,并使用数据池中的所有样本来计算其F1分数。

“传统的聚类算法试图通过提供聚类分配来描述输入数据,但仅此一项不能用于区分看不见的样本。因此,为了促进系统的推理能力,我们使用从上一步生成的一类SVM构建一个集成模型。我们通过选择F1分数超过阈值?&'(的第一个分类器,并将其添加到集合中,采用迭代程序来构建集合模型。添加分类器后,我们在数据池上运行它并标记样本然后,我们重新启动集群分类循环,直到1)标记池中的所有样本或2)循环不再产生任何分类器为止。”

隐私保护?

这篇文章谈到了由这种收听系统引起的隐私问题,给定麦克风打开和处理环境数据的频率,并且由于他们指出,并非总是可能在设备上本地进行所有处理。

他们写道:“虽然我们采用声学方法进行活动识别的好处在于诸如提高分类准确性和增加学习能力,但音频数据(尤其是语音内容)的捕获和传输应引起隐私方面的关注,”他们写道。“在理想的实现中,所有数据都将保留在传感设备上(尽管本地培训需要大量计算)。或者,可以使用本地存储的模型类的用户匿名标签在云中进行计算。”

苹果和CMU研究人员演示了一种用于智能家居设备的低摩擦听讲系统:等您坐沙发呢!

发表评论

表情
还能输入210个字