集微网消息,一般来说,人工智能模型的大小与它们的训练时间有关,因此较大的模型需要更多的时间来训练,随后需要更多的计算。优化数学函数(或神经元)之间的连接是有可能的,通过一个称为修剪的过程,它在不影响准确性的情况下减少了它们的整体大小。但是修剪要等到训练后才能进行。
这就是为什么英特尔的研究人员设计了一种从相反的方向进行训练的技术,从一个紧凑的模型开始,在培训期间根据数据修改结构。他们声称,与从一个大模型开始,然后进行压缩相比,它具有更强的可伸缩性和计算效率,因为训练直接在紧凑模型上进行。
作为背景,大多数人工智能系统的核心神经网络由神经元组成,神经元呈层状排列,并将信号传递给其他神经元。这些信号从一层传递到另一层,通过调整每个连接的突触强度(权重)来慢慢地“调整”网络。随着时间的推移,该网络从数据集中提取特征,并识别跨样本趋势,最终学会做出预测。
神经网络不会摄取原始图像、视频、音频或文本。相反,来自训练语料的样本被代数地转换成多维数组,如标量(单个数字)、向量(标量的有序数组)和矩阵(标量排列成一个或多个列和一个或多个行)。封装标量、向量和矩阵的第四种实体类型——张量增加了对有效线性变换(或关系)的描述。
该团队的计划在一篇新发表的论文中进行了描述,该论文已被接受为2019年机器学习国际会议的口头陈述,训练一种称为深度卷积神经网络(CNN)的神经网络,其中大部分层具有稀疏权张量,或者张量大部分为零。所有这些张量都是在相同的稀疏性(零点的百分比)级别初始化的,而非稀疏参数(具有一系列值之一的函数参数)用于大多数其他层。
在整个训练过程中,当参数在张量内部或跨张量移动时,网络中的非零参数总数保持不变,每几百次训练迭代进行一次,分两个阶段进行:修剪阶段之后紧接着是增长阶段。一种称为基于大小的修剪的类型用于删除具有最小权值的链接,并且在训练期间跨层重新分配参数。
为了解决性能问题,研究人员将神经网络训练两倍epochs,并在加拿大高级研究所(Canadian Institute for Advanced Research)的CIFAR10图像数据集和斯坦福大学(Stanford)的ImageNet上测试了其中的两个epochs——WRN-28-2和ResNet-50。
他们报告说,在模型大小相同的情况下,该方法比静态方法获得了更好的精度,同时所需的训练也大大减少,而且它比以前的动态方法产生了更好的精度。
该论文的主要作者之一Hesham Mostafa写道:“实验表明,在训练过程中探索网络结构对于达到最佳准确度至关重要。如果构造一个静态稀疏网络,复制动态参数化方案发现的稀疏网络的最终结构,那么这个静态网络将无法训练到相同的精度。”