当前位置: 网站首页 > 立博体育下载

分析梯度下降轨迹更好地理解深度学习中的优化问题

2019-06-30来源:立博体育app

    分析梯度下降轨迹以更好地理解深度学习中的优化问题

    分析梯度下降轨迹以更好地理解深度学习中的优化问题

    雷锋人工智能科技评论:神经网络优化本质上是一个非凸问题,简单的基于梯度的算法在实际应用中似乎总是能够解决这类问题。这种现象是深层学习的核心支柱之一。目前,许多理论科学家正试图解开这个谜团:为什么基于梯度的方法可以有效地优化深度学习。

    来自off.x.org博客的一篇文章总结了最近为解决这个问题所做的一些努力,最后讨论了作者与Sanjeev Ar.、Noah Golowich和Wei Hu.Hu.合作完成的新论文(http://arxiv.org/pdf/1810.02281.pdf)。针对深层线性神经网络中的梯度下降问题,提出一种在线性速度下保证收敛到全局最小值的方法。关于深层学习的应用研究的文章很多,关于基本原理的文章也很珍贵。雷锋的《人工智能科学技术评论》全文如下。

    函数图像曲面方法及其局限性

    许多关于深入学习优化的论文暗示这样的假设,即通过建立损失函数图像的景观的几何特征(特别是在梯度开始消失的临界点),可以严格地理解优化方法。例如,通过与凝聚态物理学中的球形自旋玻璃模型进行类比,Choromanska等人。在2015年提出了在深入学习领域现在众所周知的观点:

    景观推测:

    在神经网络的优化问题中,次优临界点的Hessian(二阶导数矩阵)的特征值可能具有负数。换句话说,几乎没有任何不好的局部最小值(梯度下降算法错误地假定局部最小值是全局最小值的点),并且几乎所有的鞍点都是严格的。

    对于包括浅层(2层)模型(如矩阵感知(http://papers.nips.cc/./6271-.-optim.of-local-search-for-low-rank-.-..pdf)和矩阵完备(http://papers.nips.cc/./6048-.-.-completion-f)在内的各种简单问题的损失函数图像表面,证明了该猜想是强的。h)。As-no-spurious-local-..pdf、正交张量分解(http://..mlr.press/v40/Ge15.pdf)、相位反演(http://arxiv.org/pdf/1602.06664.pdf)和二次激活神经网络(http://..mlr.press/v80/du18a/18a.pdf)等。当函数曲面猜想成立时,nce达到全局最小值。例如,Rong Ge(http://www.off.x.org/2016/03/22/saddle./)、Ben Recht(http://www.off.x.org/2016/03/24/saddles-./)、Chi Jin和Michael Jordan(http://www.off.x.org/2017/07/19/saddle-./)有一些关于这类工作的优秀介绍性文章。它们描述了梯度下降如何通过逃避所有的严格鞍点(Hessian是正半定临界点)来达到二阶局部最小,以及当我们向算法中添加扰动时,这个过程将如何工作。注意,在函数曲面猜想下,当不存在不良的局部极小值和非严格鞍点时,二阶的局部极小值也是全局极小值。

    然而,由于许多原因,函数表面方法(和函数表面猜想)显然不能应用于像这样的深层(三层或更多层)网络。首先,深层网络通常引入非严格的鞍点(例如,零权重点,详细信息,参见Kawaguchi等人发表的论文“深层学习,而不需要很差的局部极小值”)。2016年:http://papers.nips.cc/./6112-深度学习,无差-local-minima.pdf)。其次,函数面方法的观点在很大程度上忽略了算法层面的因素,而在实际应用中,算法层面的因素对深层网络的收敛性有很大影响,如初始化方法的类型(http://..mlr.press/v28/sutskever13.html)或批量规范化(http://procee)等。dings.mlr.press/v37/ioffe15.pdf)。最后,正如我在上一篇文章(http://www.of.x.org/2018/03/02/.ion-overparameterization/)中提到的,向经典线性模型添加(冗余)线性层有时可以加速基于梯度的优化,尽管基于Anjeev Arora和Elad Hazan(http://..mlr.press/v80/arora18a/arora18a.pdf)的工作。在以往的凸优化问题中引入一些非凸性并不能提高模型的性能。在任何仅依赖于临界点属性的函数表面分析中,很难解释这种现象,因为没有什么比优化具有全局最小值的凸目标函数更简单的了。

    另一种可能的解决办法?

    函数面方法在深层学习优化问题分析中的局限性表明它可以忽略太多的重要细节。也许,与其想“函数表面法是一种优雅的方法吗?”相反,将问题转到“从特定初始化方法导出的特定优化器的轨迹的行为是什么?”

    虽然基于轨迹的方法似乎比功能表面分析更复杂,但这种方法已经取得了重大进展。最近的一些论文(如Brutzkus和Globerson 2017(http://..mlr.press/v70/brutzkus17a/brutzkus17a.pdf);Li和Yuan 2017(http://papers.nips.cc/./6662-.nce-.-of-two-.-NN-with-relu-.on.pdf);.ng等人。2017(http://..mlr.press/17vzha/17pdf);(http:///..mlr.press/v70/tian17a/tian17a/tian17a.pdf);Brutzkus等。2018(http:///open..net/pdf?Id=rJ33wxRb wxrb; Li等。2018(http://..mlr.press/v75/li18a/li18a/li18a/li18a.pdf.pdf);Du等2018(http:////....mlr.press/vxiv.org/pdf/pdf/180arxiv.org/pdf/1806.006.pdf);Brutzkus等人2018(http://romaincouillet.hebfree.org/docs/conf/nips_GDD.pdf)利用该策略,成功分析了不同类型的浅层模型。此外,基于轨迹的分析也开始进入功能面方法之外的领域。对于线性神经网络,采用任意深度的梯度下降法,成功地实现了全局最小。

    基于轨迹的深线性神经网络分析

    线性神经网络是具有(或没有)线性激活函数的全连通神经网络。具体地说,具有输入维数d0、输出维数dN、隐藏维数d1、d2、…、dN-1和深度N的线性网络是从Rd_0到Rd_N的线性映射,并且是参数化的。

    在…之间

    它可看作层J的权重矩阵。虽然这种表示看起来并不特别,但是线性神经网络的优化过程的复杂性还是有些令人惊讶的。它们会导致具有多个最小值和鞍点的非凸训练问题。基于梯度的线性神经网络算法被认为是深度学习中优化问题的理论替代。近年来,它们在线性神经网络中的应用引起了人们的极大关注。

    据我所知,Saxe等人。2014(http://arxiv.org/pdf/1312.6120.pdf)是第一次对具有深度(三个或更多层)的线性网络进行基于轨迹的分析,并处理梯度流(具有最小梯度下降的学习率)以最小化白化数据上的L2损失。虽然这种分析作出了重大贡献,但它没有正式地收敛到全局最小值,也没有考虑计算复杂度的因素(收敛所需的迭代次数)。Bartlett等人的最新研究2018(http://..mlr.press/v80/bartlett18a.html)已经通过将基于轨迹的分析应用于线性剩余网络的特定环境中的梯度减小,即所有层中的均匀宽度(d0=d1=d2=...=dN)和初始化方法(对于任意j,Wj=I)网络,在解决这些问题方面取得了进展。考虑不同的数据标签分布(它们总结为目标),Bartlett等人。表明在O(log1/e)迭代后,可证明的梯度下降以线性速率收敛到全局最小,损失函数值与最优值之间的差小于e(大于0)。

    在作者与Sanjeev Ar.、Noah Golowich和Wei Hu共同撰写的一篇新论文(http://arxiv.org/pdf/1810.02281.pdf)中,我们在基于轨迹的方法的有效性方面又向前迈出了一步。具体地,我们分析了任何无“瓶颈层”的线性神经网络的梯度下降轨迹。瓶颈层的隐藏维数不小于输入和输出维数之间的最小值(对于任何j,存在DJ(>min{d0,dN});我们还证明了线性速率收敛到全局最小值。我们指出,初始化方法需要满足以下两个条件:(1)近似平衡:对于任意j,存在WTj 1Wj 1_WjWjT;(2)缺失边界:初始损失小于任何秩缺陷解的损失。我们证明了这两个条件都是必要的,如果不能满足这两个条件中的任何一个,可能导致轨迹的不收敛。在线性残差网络的特殊情况下,初始化的近似平衡度容易满足,以零为中心的小型随机扰动初始化的通用设置也是有效的。后者还导致不存在具有正概率的边界。对于dN=1(标量回归)的情况,我们给出了一个同时满足两个条件的随机初始化方案,使得它在一定概率下以线性速率收敛到全局最小值。

    我们分析的关键是,如果权重被初始化为近似平衡状态,那么在梯度下降的迭代过程中,它们是否会保持不变。换言之,优化方法的轨迹遵循以下特征:

    也就是说,在整个时间轴上,所有层(近似)具有相同的奇异值集,并且每一层的左奇异向量(近似)与下一层的右奇异向量相同。我们证明了这种规律性意味着梯度下降稳定地运行,从而证明了即使损失函数图像作为一个整体是非常复杂的(包括许多非严格鞍点),它也可以在优化器采用的特定轨迹附近表现得特别好。

    后记

    函数图像法用于解决深层学习中的优化问题,即独立于训练算法的目标函数的几何性质在概念上非常有吸引力。然而,这种策略具有固有的局限性,主要是因为它要求整个目标函数优雅,这似乎是一个过于严格的要求。替换函数图像的一种方法是考虑优化器及其初始化方法,并且只关注沿着所获得的轨迹的函数图像。这种替代方法正受到越来越多的关注。功能图像分析目前仅限于浅层(两层)模型,基于轨迹的方法最近能够处理任何深度的模型,证明梯度下降可以以线性速率收敛到全局最小值。然而,由于仅基于轨迹的线性神经网络分析是成功的,仍然有许多工作要做。在我看来,基于轨迹的方法也将是我们正式理解深层非线性网络基于梯度的优化方法的关键。

    雷锋人工智能科技综述的非凸编辑