小数据的秘密:机器学习如何最终进入企业

小数据的秘密:机器学习如何最终进入企业

在过去的十年中,“大数据”已成为硅谷最大的流行语。在接受了令人难以置信的庞大数据集训练时,机器学习(ML)模型可以对给定领域加深了解,从而为顶尖高科技公司带来突破。例如,谷歌每年通过跟踪和分析超过一万亿个搜索查询来调整排名算法。事实证明,所罗门语有能力回答来自所有来者的所有问题,并且可以利用足够的数据来强加于人。

但是有一个陷阱:大多数公司仅限于“小”数据;在许多情况下,他们仅拥有要使用ML自动化的流程的几十个示例。如果您要为企业客户构建健壮的ML系统,则必须开发新技术来克服数据不足的问题。

事实证明,特别是转移学习和集体学习这两种技术对于将小数据转换为大数据至关重要,这使中等规模的公司可以从曾经只为大技术保留的机器学习用例中受益。而且,由于只有15%的公司已经部署了AI或ML,因此这些技术有巨大的机会改变商业世界。

小数据的秘密:机器学习如何最终进入企业

从DIY到开源

当然,数据并不是建立世界一流的机器学习模型的唯一先决条件-首先构建该模型也有小事。鉴于机器学习工程师的短缺,对于大多数组织来说,根本无法选择雇用专家团队从头开始构建ML系统。这种差距有助于解释为什么像Google这样的资源丰富的科技公司会从ML中获得不成比例的收益。

 

但是在过去几年中,许多开源ML模型(包括Google在2018年发布的著名的BERT理解语言模型)已经开始改变游戏规则。创建一个具有BERT口径模型的复杂性,该模型被恰当地命名为“大型”版本,具有大约3.4亿个参数,这意味着很少有组织甚至可以考虑四分卫支持这一计划。但是,由于它是开源的,因此公司现在可以调整该公开可用的剧本以解决其特定用例。

要了解这些用例的外观,可以考虑使用Moveworks客户Medallia这样的公司。Medallia本身没有足够的数据来为内部用例(如IT支持)构建和训练有效的ML系统。但是,它的小数据确实包含大量的见解,等待ML对其进行解锁。通过利用新技术来收集这些见解,Medallia变得更加高效,从认识到需要注意哪些内部工作流程到了解员工在寻求技术支持时使用的公司特定语言。

小数据的巨大进步

因此,这是数万亿美元的问题:您如何采用旨在解决特定问题的开源ML模型,并将该模型应用于企业中的不同问题?答案从转移学习开始,这毫不奇怪,这必然会将知识从一个领域转移到数据较少的另一个领域。

例如,通过采用像BERT这样的开放源代码的ML模型(旨在理解通用语言)并对其进行细化,现在ML可以理解员工用来描述IT问题的独特语言。语言只是开始,因为我们才刚刚开始意识到小数据的巨大潜力。

小数据的秘密:机器学习如何最终进入企业

更一般而言,这种向ML模型提供非常小的和非常特定的训练数据选择的做法被称为“几次学习”,该术语迅速成为ML社区中新的流行语之一。有史以来创建的一些功能最强大的ML模型(例如具有里程碑意义的GPT-3模型及其1,750亿个参数,比BERT多了几个数量级),仅通过几个示例进行培训,就展示了学习新颖任务的空前技巧。

GPT-3本质上将整个互联网作为其“切向域”,通过建立强大的知识基础,很快就能精通这些新颖的任务,就像阿尔伯特·爱因斯坦不需要太多的练习就可以成为跳棋大师一样。而且,尽管GPT-3不是开源的,但应用类似的快速学习技术将在企业中启用新的ML用例,而这些案例几乎没有培训数据。

集体的力量

借助强大的开源模型之上的转移学习和快速学习功能,普通企业最终可以购买机器学习领域的门票。但是,尽管通过迁移学习训练ML所需要的数据量要少几个数量级,但要实现强大的性能,还需要更进一步。

这一步是集体学习,这在许多公司希望自动化同一用例的情况下就发挥了作用。每个公司都限于小数据,而第三方AI解决方案可以使用集体学习来合并这些小数据集,从而为复杂的ML创建足够大的语料库。在理解语言的情况下,这意味着抽象出一个公司特有的句子以发现底层结构:

小数据的秘密:机器学习如何最终进入企业

迁移学习和集体学习的结合以及其他技术,正在迅速重塑企业ML的局限性。例如,将多个客户的数据汇总在一起可以显着提高旨在了解其员工沟通方式的模型的准确性。当然,除了了解语言之外,我们还目睹了一种新型工作场所的出现,该工作场所由对小数据的机器学习提供支持。

小数据的秘密:机器学习如何最终进入企业:等您坐沙发呢!

发表评论

表情
还能输入210个字