9012年已经悄悄过去了1/3。
过去的100多天里,在深度学习领域,每天都有大量的新论文产生。所以深度学习研究在2019年开了怎样一个头呢?
Open Data Science对第一季度的深度学习研究进行了盘点总结,推出了这一季度的十佳论文。一起来看看,TOP10都花落谁家吧。
基于PyTorch Geometric的快速图像表征学习
Fast Graph Representation Learning with PyTorch Geometric
这篇论文的作者Matthias Fey和Jan E. Lenssen来自德国多特蒙德工业大学。
他们的研究介绍了PyTorch Geometric——一个基于PyTorch的不规则结构化输入数据(如图形、点云和流形)深度学习库。
除了通用的图形数据结构和处理方法,PyTorch Geometric还包含了各种最新发布的关系学习方法和3D数据处理方法。
利用稀疏 GPU 加速,提供专用的 CUDA 内核,并为不同大小的输入样本引入高效的小批量处理,通过这些方法,PyTorch Geometric 实现了很高的数据吞吐量。
该项目的代码可以在GitHub上找到:https://github.com/rusty1s/pytorch_geometric
论文链接:https://arxiv.org/abs/1903.02428v2
Mask Scoring R-CNN
凭借比何恺明的Mask R-CNN更出色的效果,MS R-CNN拿下了计算机视觉顶会CVPR 2019的口头报告。
在Mask R-CNN这样的模型中,实例分类的置信度被当作蒙版(mask)的质量衡量指标,但实际上蒙版的质量和分类的质量并没有很强的相关性。
华中科技大学的这篇文章针对这个问题进行了研究,他们提出了一种新的打分方法:蒙版得分(mask score)。
不仅仅直接依靠检测得到分类得分,Mask Scoring R-CNN模型还单独学习了一个针对蒙版的得分规则:MaskloU head。
同时考虑分类得分和蒙版得分,MS R-CNN就能更加公正地评估算法质量,提高实例分割模型的性能。
研究团队在COCO数据集上进行了实验,结果表明MS R-CNN在不同的基干网路上,AP提升始终在1.5%左右。
这篇论文的作者是黄钊金,来自华中科技大学电信学院副教授王兴刚的团队,王兴刚也是这篇论文的作者之一。
使用更少的标签生成高保真图像
High-Fidelity Image Generation with Fewer Labels
关于生成对抗网络(GAN)的最新研究表明,最新的模型虽然能生成高分辨率高保真的多样化自然图像,但真的实现起来要依赖大量的标记数据。
在这篇论文中,来自谷歌大脑和苏黎世联邦理工学院的研究人员演示了如何从关于自我和半监督学习的最新研究进展中获益,在无监督ImageNet合成和条件设置中超越最先进的模型BigGAN。
GCNv2:实时SLAM的高效通信预测
GCNv2: Efficient Correspondence Prediction for Real-Time SLAM
这篇论文的作者Jiexiong Tan等人都来自瑞典皇家理工学院。
他们提出了一个基于深度学习的网络模型GCNv2,用于生成关键点和描述符。
GCNv2是图卷积网络(GCN)的高效精简版。它采用二进制描述符向量作为ORB特性,因此它可以在ORB-SLAM等系统中轻松替换ORB。
ALiPy:用于主动学习的Python工具包
ALiPy: Active Learning in Python
ALiPy是南京航空航天大学开源项目,是一个以自由度为主打的主动学习开源免费工具包。基于这个框架,用户可以方便地评估、比较、分析不同主动学习方法的性能。
这个Python工具包支持7种不同的主动学习场景,同时还实现了25种主动学习算法供使用者调用。
什么要选择主动学习方法呢?因为有监督的机器学习方法通常需要大量带标签的例子来进行模型训练。然而,在许多实际应用中,有大量的未标记数据,这大大增加了机器学习的成本。
而主动学习能通过反复迭代选出最有价值的数据,只将有价值的数据加入训练集,从而降低了标记成本。
这篇论文主要介绍了ALiPy的各个模块和使用方法。在工具箱中,学习框架的每个组件都有多个可选项,包括数据处理、主动选择、标签查询、结果可视化等。除了20多种最先进的主动学习算法的实现之外,ALiPy还支持用户轻松配置和实施自己的方法。
该工具箱在Github上有详细记录和开源,可以通过PyPI轻松安装。
DeepFashion2:用于服装图像检测、姿势估计、分割和重新识别的时尚数据集
DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images
程序员现在也有了了解时尚的新途径。
DeepFashion2是一个综合时尚数据集,它拥有491k张流行服饰图片,既有卖家秀,也有买家秀。同时,801k种服装在图像中被标注了出来。这个数据集还提供了873k个商业-消费者图像对。
DeepFashion2的训练集包含391k张图片,验证集有34k张图片,测试集则分到了67k张图片。所以,用它来完成衣服检测、姿势估计、分割和检索这样的任务再合适不过了。
其实早在2017年,香港中文大学就开源了一个大型时尚数据集DeepFashion,其中包含80万张图片。
然而,标记稀疏(仅4~8个)、没有针对单像素的蒙版这样的问题使得DeepFashion与现实场景产生了明显的差距。
为了解决这些问题,DeepFashion2就诞生了。
↓↓↓↓↓↓
这回真的是标注清楚又全面了。
星际争霸多智能体挑战
The StarCraft Multi-Agent Challenge
这篇论文的作者是俄罗斯-亚美尼亚大学的Mikayel Samvelyan和牛津大学的Tabish Rashid等人。
星际争霸多智能体挑战(SMAC)基于即时战略游戏星际争霸Ⅱ,游戏中的每一个单位都能被单独控制,也就是说每一个单位都需要一个独立的智能体来操控。
这是一个多智能体协作问题,在深层多智能体强化学习(RL)领域当中这类问题一向非常具有吸引力,因为它能与大量现实世界中的系统联系起来。
单一智能体的强化学习可以依托于ALE和MuJoCo这样的标准化环境,但多智能体协同强化学习领域并没有类似的基准问题,这就导致了许多这方面的论文都像是一次性玩具。
于是研究者们提出将星际争霸多智能体挑战(SMAC)作为填补这一空白的基准问题。
为了达到最佳的实践效果,这篇论文提供了一系列对战图和测试建议,研究者们还开源了了一个深层多智能体强化学习框架,框架整合了最先进的强化学习算法。
Dropout是SDR的特殊情况:更快,更准确的深度学习
Dropout is a special case of the stochastic delta rule: faster and more accurate deep learning
Dropout是用来减轻深层神经网络过度参数化、深度学习过拟合和避免不良局部最小值的一种方法。它在每次更新之前根据带有概率p的Bernoulli随机变量移除隐藏单元,从而创造一个稀疏的网络架构。
而Noah Frazier-Logue和Stephen José Hanson的研究表明Dropout是1990年发布的随机delta规则(SDR)的一个特例。
SDR把神经网络中的每个权重重新定义为随机变量,并且为随机变量中的每个参数提供了更新规则。而Dropout就是一个具有带固定参数的二项随机变量的SDR特例。
在论文中,作者还用SDR修改了DenseNet框架,并在标准基准(CIFAR-10和CIFAR-100)中进行了测试 ,结果说明SDR相对于二项分布的 Dropout 具有很大的优势。
Lingvo:用于序列到序列模型的模块化和可扩展的框架
Lingvo: a Modular and Scalable Framework for Sequence-to-Sequence Modeling
Lingvo是Google出品的一个Tensorflow框架,为协作深度学习研究提供完整的解决方案,侧重于序列到序列模型。
Lingvo模型具有模块化、易扩展的特点,实验配置集中且高度可定制。该框架支持分布式训练和量化推理,包含大量实用程序,辅助函数和最新研究的现有实现。
这篇论文概述了Lingvo的基础设计,介绍了框架的各个部分,同时还提供了展示框架功能的高级功能示例。
新的自适应优化算法AdaBound
Adaptive Gradient Methods with Dynamic Bound of Learning Rate
AdaGrad、RMSProp和Adam之类的自适应优化方法通过调整学习率上的元素级缩放项实现了快速训练,但与SGD相比这些方法的泛化性能较差,甚至由于不稳定和极端的学习率而无法收敛。
AdaBound是由北大、浙大等名校学霸提出的全新优化算法,是Adam和AMSGrad的新变体,兼具Adam和SGD两者之美,速度快且性能佳。