网盛创新研究院 - AI、区块链、云计算、大数据技术的研究与应用交流平台!

网盛创新研究院/研究/正文

你以为这是个U盘?别搞笑了,它是人工智能AI加速器!

作者:引力空间站来源:简书

2019-01-10

想象个性化人工智能(AI),您的智能手机变得更像智能助手 - 即使在嘈杂的房间内也能识别您的声音,了解不同社交场合的背景,或只提供与您真正相关的信息,从洪水中拔出每天到达的数据。这些功能可能很快就会触手可及 - 但要实现这一目标需要快速,强大,高能效的AI硬件加速器。

在Nature最近发表的一篇论文中,IBM Research AI团队展示了深度神经网络(DNN)培训,其中包含大量模拟内存设备,其精度与基于图形处理单元(GPU)的系统相同。我们相信这是迈向下一次AI突破所必需的硬件加速器的重要一步。为什么?因为提供AI的未来将需要大大扩展AI计算的规模。

谷歌在今年也发布自己的用于边缘计算的Edge TPU,以及相关设备:AIY Projects Edge TPU Dev Board和Edge TPU Accelerator 围绕谷歌新推出的专用边缘TPU。其中,Edge TPU Accelerator就是一款 USB 设备,可为系统添加 Edge TPU 处理器。这个小巧的设备拥有一个 USB Type-C 插槽,可以连接到任何基于 Linux 系统来执行加速 ML 推理。外壳有一个可连接主机板的安装孔,可连接 Raspberry Pi Zero 或开发者的定制设备。

无论是在云端还是在边缘,DNN都必须变得更大,更快 - 这意味着能效必须大幅提升。虽然更好的GPU或其他数字加速器可以在某种程度上提供帮助,但是这样的系统不可避免地花费大量时间和精力将数据从存储器移动到处理和返回。我们可以通过在模拟域中直接在数据位置执行AI计算来提高速度和能效 - 但这只有在生成的神经网络与传统数字硬件实现的神经网络一样智能时才有意义。

涉及连续可变信号而不是二进制0和1的模拟技术对其精度具有固有的限制 - 这就是现代计算机通常是数字计算机的原因。然而,人工智能研究人员已经开始意识到,即使数字精度降低到几乎任何其他计算机应用都太低的水平,他们的DNN模型仍能正常工作。因此,对于DNN,可能模拟计算也可能起作用。

然而,直到现在,还没有人最终证明这种模拟方法可以完成与现有的传统数字硬件上运行的软件相同的工作。也就是说,DNN真的可以用这些技术训练到相当高的精度吗?如果由此产生的分类准确度总是低得令人无法接受,那么在训练DNN时更快或更节能是没有意义的。

在我们的论文中,我们描述了模拟非易失性存储器(NVM)如何有效地加速“反向传播”算法,这是许多最新AI技术进步的核心。这些存储器允许使用基础物理学在这些算法中使用的“乘法 - 累加”运算在模拟域中,在权重数据的位置处并行化。我们只需将一个小电流通过一个电阻器连接到一根电线上,然后将许多这样的电线连接在一起,让电流积聚起来,而不是将大数电路相乘并将数字相加。这让我们可以同时执行许多计算,而不是一个接一个地执行。而不是在数字存储芯片和处理芯片之间的长途旅行中传输数字数据,我们可以在模拟存储器芯片内执行所有计算。

然而,由于当今模拟存储器设备固有的各种缺陷,以前在大型真实NVM设备阵列上直接进行DNN训练的演示未能达到与软件训练网络相匹配的分类精度。

Movidius 加速器

通过将相变存储器(PCM)器件中的长期存储,传统互补金属氧化物半导体(CMOS)电容器的近线性更新与用于抵消器件到器件可变性的新技术相结合,我们完成了这些不完善并实现了在各种不同网络上的软件等效DNN精度。这些实验使用混合硬件 - 软件方法,将易于精确建模的系统元件的软件模拟(例如CMOS器件)与PCM器件的全硬件实现相结合。对于我们的神经网络中的每个权重使用真实的模拟存储器设备是必不可少的,因为这种新型设备的建模方法经常无法捕获它们可以展示的所有设备到设备的可变性。

使用这种方法,我们验证了完整芯片确实应该提供相同的精度,因此可以完成与数字加速器相同的工作 - 但速度更快,功耗更低。鉴于这些令人鼓舞的结果,我们已经开始探索原型硬件加速器芯片的设计,作为IBM Research Frontiers Institute项目的一部分。

从这些早期的设计工作中,我们能够提供,作为我们的自然论文的一部分,初步估计这种基于NVM的芯片用于训练全连接层的潜力,计算能效(28,065 GOP /秒/ W) )和每面积吞吐量(3.6 TOP / sec / mm2)。这些值超出了当今GPU的规格两个数量级。此外,完全连接的层是一种神经网络层,其实际GPU性能经常远低于额定规格。

本文指出,尽管存在现有模拟存储设备的不完善之处,我们的基于NVM的方法可以提供与软件等效的训练精度以及加速度和能量效率的数量级改进。接下来的步骤将是在更大的网络上演示相同的软件等效性,这些网络需要大型,完全连接的层 - 例如反复连接的长短期存储器(LSTM)和门控循环单元(GRU)网络,这些网络背后是机器翻译的最新进展,字幕和文本分析 - 以及在基于NVM的原型硬件加速器上设计,实现和优化这些模拟技术。针对此应用进行了优化的新型和更好形式的模拟存储器有助于进一步提高面密度和能效。


标签:加速器AI
【版权提示】网盛创新研究院网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至wzy@netsun.com,我们将及时沟通与处理。
关于我们创新研究院大讲堂服务介绍
© 生意宝(002095) 版权所有  浙公网安备 33010002000015号 工商执照 浙ICP证  网络工商