代码 & 数学

Darts: Differentiable Architecture Search

这篇论文旨在挑战结构搜索,通过将该任务定义成一个可微分的形式,而不是像传统的做法:在离散的不可微分的空间中利用增强学习来实现结构搜索。该方法基于结构表示的连续松弛,允许使用梯度下降等高效的方法进行结构搜索。后续实验表明该算法在探索高性能的用于图像识别的CNN结构和语言建模的RNN结构上都有良好的表现,并且比现有的state-of-the-art非微分结构要快得多。

Compressing Neural Networks with the Hashing Trick

深度网络在移有链接动设备上应用越来越多,一个dilemma变得越来越明显:深度学习的趋势是开发能够吸收更大数据集的模型,然而移动设备的存储空间有限,不能存储过大的模型,这里提出了一种HashedNets,通过减少神经网络的内部固有冗余来实现模型尺寸的减少。HashedNets利用一个低开销的哈希函数来将连接权重随机分组进不同的哈希桶,而同一个哈希桶里面的所有连接都使用同一个参数值,这些参数在标准的反向传播过程中被进行调整。这个哈希过程不会引入额外的内存开销。在不同的benchmark数据集上性能说明HashedNets可以在保留泛化性能的基础上明显减少存储需要。

ShuffleNetV2

现在很多的网络设计在计算复杂度方面都只考虑了非直接度量(比如FLOPs),而对于直接度量(如速度等)并不只是由FLOPs来决定的,包括MAC(内存访问消耗)和平台特性都对速度有一定的影响。本文意在特定平台下进行直接度量,比仅仅考虑FLOPs要更好,并且在基于一系列控制实验下提出了一些对于高效率网络的指导准则,根据这些准则提出了ShuffleNetV2这样一种新的网络结构,全面的ablation experiments表明该模型在性能和精度的权衡上达到了state-of-the-art。

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

本文介绍了一种很高效的网络ShuffleNet,其主要在于pointwise group conv和channel shuffle两种操作,可以在维持精度的时候大量减少计算消耗,在ImageNet和COCO上面的表现都超过了之前的网络

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

针对移动和嵌入式视觉应用,本文提出了一种高效的模型称之为MobileNets,基于depthwise separable convolutions构造的一种轻量级神经网络。该模型使用两个超参数来平衡准确率和延迟,并针对二者的平衡在ImageNet上做了广泛的实验,与其他模型相比展现出了强大的性能。并通过实验展现了ImageNet在各种应用上的强大之处,包括目标检测,精细化分类,人脸属性和大范围地理定位等。

InceptionV4总结

近些年,非常深的卷积神经网络在提升图像识别的性能表现上具有最大的促进作用。而Inception网络结构在具有很好的性能的同时还具有相对较低的计算消耗。最近的残差连接与传统结构的结合在2015 ILSVRC上取到了最好的结果,与InceptionV3的效果相近。考虑将Inception网络与残差连接相结合,充分的证据表明残差连接可以很大程度上加速Inception网络的训练,同样也有证据表明残差连接的Inception相比不带残差连接的几乎同样计算量的Inception网络性能要稍有优势。本文也提出了一些新的残差连接和不带残差连接的Inception网络,这些改变同样也明显改善了2012 ILSVRC的单帧分类性能。最后还提到了利用合适的激活缩放可以使非常宽的残差连接Inception网络的训练变得更加稳定。

关于向量与矩阵的求导

机器学习的算法中会遇到大量的与矩阵相关的微分与求导,在这里介绍一些常见的矩阵和向量相关的求导公式。

动态规划中股票问题的通用解法

有一类动态规划的问题是给定一个股票价格序列,然后计算买卖股票所能获得的最大收益,这类问题通常有很多变种,例如只允许交易一次,允许交易多次或者增收交易税等。即问题的最大收益通常由交易的时间和允许的最大交易次数(每次交易指一次买与一次卖的一个组合)决定的。