Cerebras Systems 以及圆晶级硬件配置因为其彻底非常规的生产制造方式 在业内造成了震惊。她们沒有像 AI 中的全部别的参加者一样搭建一个专用型于深度学习的大集成ic,只是看准了一个彻底不一样的拓展方式。
她们秉持将全部圆晶做成单独集成ic的对策。该硬件配置已表明出让人诧异的生态性,乃至在别的大数据处理应用软件中也获得了开创性进度。
它是由一个简易的观查結果推动的,即颠覆性创新早已明显变缓。大幅度提升晶体三极管总数的唯一方式是提升每一个集成ic中的硅总数。Cerebras 已经开发设计她们的第二代商品 Cerebras WSE-2,该集成ic的规格为 215毫米 x 215毫米。
与可以用的较大 GPU Nvidia A100 对比,Cerebras 获得了极大的优点,尤其是在将片上 40GB 的内存带宽与 A100 的相近尺寸的 HBM 运行内存开展较为时。Cerebras 有着让人难以想象的高构造网络带宽,远远地超出 GPU 到 GPU 的互联。
Cerebras 根据在水冷机箱中给予它来收服她们的 20KW 猛兽。做为参照,Nvidia A100 的输出功率范畴从 250W 到 500W,实际在于配备。在建立这类制冷解决方法时务必尤其当心。因为该集成ic的规格和功能损耗,例如硅和别的部件的不一样热变形等难题变成 关键难题。
一直以来,半导体设备受制于裸片规格,一直遭受掩免费模板的限定。掩免费模板限定为 33 x 26,这代表着它是 ASML 的光刻技术浸入式步进电机器能够在芯片上图案化的较大 规格。Nvidia 较大 的集成ic都是在 800Mm^2 的低范畴内,关键是由于超过这一范畴是不太可能的。
Cerebras WSE 事实上是在掩免费模板限定范畴内的圆晶上的很多集成ic。她们沒有顺着集成ic中间的画线将集成ic激光切割开,只是开发设计了一种跨集成ic线的方式 。这种输电线与具体集成ic分离图案化,并容许集成ic互相连接。事实上,集成ic能够拓展到超过掩免费模板的限定。
以經典方法搭建集成ic时,一般会存有缺点。因而,务必丢掉来源于每一个芯片的好几个集成ic或务必禁止使用集成ic的元器件。Nvidia 一般将这类作法用以她们的 GPU。每一代都存有禁止使用更高占比核心的不断发展趋势,而在当今一代 Ampere 中,大概有 12% 的核心被禁止使用。
Cerebras 根据在每一个道路标线子集成ic(reticle sub-chip)上加上 2 行附加的关键来处理这个问题。这种集成ic内的互联是 3D 网格图,在其中每一个关键在竖直和水平方向上联接。他们还为每一个直线关键给予附加的互联。这容许对有缺陷的关键开展走线,而且手机软件依然能够鉴别 3D 网格图。
在这个 3D 网格图中,Cerebras 设置了好多个总体目标。她们期待全部运行内存都保存在集成ic上,而无须等候片外运行内存迟缓。唯一的外界联接是到软件系统。每一个核心都是有粗粒度的并行性(fine grained parallelism ),相互之间不共享资源一切內容。他们是具备 MIMD 工作能力的环保节能通用性核心,并有着自身的当地储存器。
关键测试用例是深度学习训炼或逻辑推理。传输层被投射到芯片尺寸的集成ic地区。每一个矩形框块相匹配一个层,有意思的是这被称作“Colorado”。卷积和、引流矩阵空间向量和矩阵乘法是在每一层的关键上测算的。3D 网格图解决互联网每一层内和传输层中间的关键间通信。
大部分通讯一般在沿集成ic的 X 或 Y 方位开展,但有一些通讯必须超越集成ic的绝大多数。网格图能够解决这一而不容易越来越拥堵。这容许互联网中的层无须是持续的或彼此之间立即邻近。
Cerebras 手机软件局部变量置放和路由这种层,与此同时维持关键和构造的高使用率。此软件可以在单独集成ic上仅置放多层互联网,或是在集成ic上置放全部互联网的好几个团本,以完成数据信息并行处理。
Cerebras 的顾客有着即时生产制造的圆晶级模块。这种用以很多不一样的工作中负荷,但最有意思的一种是 CANDLE。WSE 用以精准仿真模拟药品组成的药品反映以及对癌病的危害。随后挑选最有期待的仿真模拟結果开展试验科学研究。
现阶段在这种集成ic上运作的另一个测试用例是內部限定结合。它运作在一台大中型高性能计算机上,该电子计算机还包括好几个互联的 Cerebras WSE。这类规模性仿真模拟的构成部分之一涉及到分子和亚原子粒子中间的相互影响。
该测算被一个在 Cerebras 硬件配置上运作的大中型预训炼神经元网络所替代。这是一个仅应用逻辑推理的测试用例。它在仿真模拟的每一个時间步上都会被勾起。数据信息从很大的高性能计算机流式传输到 Cerebras WSE,后面一种又为这种分子和亚原子互动给予輸出。
Cerebras 硬件配置也不仅用以深度学习。Joule 高性能计算机在 三维 网格图中运作的传统式硬件配置上运作测算流体力学。她们以二种不一样的方法碰到了拓展难题。因为服务器带宽的限定,她们没法根据关键总数来提升特性。除此之外,因为缓存文件未击中,核心一般会在表里留有许多特性,进而造成 内存不够。该运行内存接着碰到了极大的网络带宽短板。
流体力学实体模型的 三维 网格图被投射到 WSE 集成ic的 3D 网格图。邻居交换、空间向量 AXPY 和全局性空间向量的点积,这必须部分点积和全局性 all-reduce。因为很多的 SRAM 和每一个独立核心的相对性较高的多元性,全部这种实际操作都能够轻轻松松解决。
有很多的核心间通信,但上面內部互联网充足强劲,能够以低延迟时间解决他们。互联网根据顺着称之为“色调”的虚似安全通道而不是预先确定的详细地址推送信息来完成这一点。这类根据硬件配置的通讯容许数据信息在全部集成ic上每数字时钟传送 1 跳。
Allreduce 能够十分快地进行。每一个核心将其标量发送至它边上的核心。当它抵达那边时,标量被加在一起并往前推送。集成ic的边沿往东/西向管理中心传送数据。一旦它抵达管理中心,便会产生一样的全过程,但北/南結果被合拼,随后在关键网格图上广播节目回家。只需1分秒,就可以进行这一allreduce。做为参照,高性能计算机中的典型性群集从一个CPU到另一个邻近CPU的单独 MPI 通讯必须大概那么长期。
不管引进数据信息的延迟时间怎样,都能够开展测算以完成全网络带宽。无线路由器具备来源于每一个邻近关键的 4 个传到数据。除此之外,核心能够将其輸出再次路由器回,那样就不用将其储存在 SRAM 中。核心能够与此同时运作好几个进程。有一个主线任务程被授予优先,可是假如它等待数据信息,别的进程便会前行。根据应用很多 SRAM 和线程同步构架保证数据可逆性,使用率维持极高。
对硬件配置开展低等提升的結果使测算流体力学速率提升了 200 倍。这与一样高宽比提升的大中型高性能计算机群集对比。除开速率上的提高,成本费,尤其是功能损耗,也拥有 极大的优点。这类优点在某种意义上是不言而喻的,由于将高性能计算机群集与单独(虽然是圆晶尺寸)集成ic开展较为。
悲剧的是,手机软件都还没彻底符合规定。Beta SDK 将于在今年的晚些时候发布,用以撰写自定核心实际操作。这类语言表达将彻底特殊于 WSE 的行业。她们将有着数学函数和通讯库,有希望在一定水平上节约开支。
此外,也有一些作用和专用工具会有一定的协助,但这将是高技能人才程序猿的每日任务。它是唯一能够完成这类测算经营规模的硬件配置,因而针对这些必须这类特性水准的每日任务而言,它很有可能并不是进到的极大阻碍。
Cerebras 将即时测算流体力学做为运用 WSE 的下一个工作中负荷。有非常大的期待,这将开启一个全新升级的测试用例。
大家很高兴根据 7nm 的 WSE2 全方位发布。看一下 SDK 是不是能够容许开发者转化成别的工作中负荷,WSE 能够产生量级的特性提高,这将是令人激动的。人工智能技术是 Cerebras 不断进取的行业,但圆晶级测算很有可能会更改这一领域,而不仅是深度学习。
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。