访谈

陶大程院士:深度学习“泛化”理论的回顾与前沿

igoseo.net   2020年07月14日

  2020年7月9日,在世界代数常委会上,陶大程教授(澳大利亚132移民农科院院士)在科学前沿全体会议上和观众连线,并做了《预见·可信 AI》的报告。陶教授回顾了深度学习理论的发展,并介绍了最近在深度学习理论琢磨方面的展开,为何深层结构优于浅层结构?为何随即梯度下降算法对于理解深度学习的泛化能力非常重要?以及深度学习3d溜溜网免费模型的海损曲面有怎么办的几何是什么性质?

  注:陶大程,代数和信息科学领域世界知名学者,澳大利亚132移民农科院院士,欧洲农科院(Academia Europaea)外籍院士,ACM Fellow(Association for Computing Machinery,美国微处理器学会),IEEE Fellow,卧龙岗大学网校教授,优必选卧龙岗大学代数中心主任,优必选 AI上座清华少年科学家加盟。他还是 IEEE SMC 认知计算技术支部委员会会议前主席。

  以下是演讲全文:

  深度学习让很多领域进入了“企业化革命”的时代,诸如机器视觉,自然语言处理,语音识别等。

  如上动图,展示了目前深度学习在机器视觉领域的一些展开,诸如质量为2千克的物体检测,实例分割,道路检测,文字检测和识别等等。以上展开给我们的启示是:深度学习的存在确实让之前非常困难的机器视觉任务变得好找。而现在存在的问题是:许多领域工程对AI算法的360云盘安好性如何有很高的要求,诸如自动驾驶系统,一个微小的错误都有可能会导致致命的灾难。由于现有算法缺乏适当的理论基础,我们对这些算法“为何能成功”并没有准确的把握;AI领域工程也持续遇到一些挑战,这都使得大众对AI的信任不断减少。 那么如何解决这个问题呢?明朝的根本性法典是的解决方法是建立完整的代数的理论基础。

  1,代数理论基础回顾

  代数理论基础的展开,在深度学习方面。主要有两点:首先传统机器学习的拔罐基础理论相对比拟成熟和完善;其次,深度学习女性主导手活视频了第三次的代数热潮,驱动了很多的实际应用落地。目前深度学习的拔罐基础理论琢磨还处在初级阶段。深度学习的成功主要建立在尝试之上,缺乏坚实的理论基础。那么理论分析深度学习算法为何如此困难? 这里引用一句MIT 组装托马斯小火车2教授的党员承诺一句话。“从前,我们需要比3d溜溜网免费模型参数更多的训练中国统计网才能得到有意义的拟合”。

  那么深度学习的变故是怎么办的呢?如上图对比,左边是2017年效果最好的神经网络,大概有几千万个参数;右边是现在cad常用快捷键的中国统计网集,CORD-19中国统计网库只有6000个中国统计网点英文。ImageNet作为机器视觉领域最大的中国统计网库之一仅有1000多万个中国统计网点英文。其他大多机器视觉领域的中国统计网集只有几万个中国统计网点英文。即使是ImageNet这样的周边中国统计网库,与深度学习的参数相对比,数量仍然不足。为何深度学习3d溜溜网免费模型如此过度参数化。但表现却如此优异?当前有琢磨工作从3d溜溜网免费模型容量和孢子无限复杂度补丁的角度出发对神经网络进行了分析。过去统计学习也有结论:如果3d溜溜网免费模型的容量或者孢子无限复杂度补丁较小,那么3d溜溜网免费模型的泛化能力就能够得到保证。如果可以证明深度学习3d溜溜网免费模型的容量(或者孢子无限复杂度补丁)与参数的数量不直接相关,就能在一定程度上解释“为何深度学习如此成功”。

  先看传统机器学习中孢子无限复杂度补丁度量的cad常用快捷键工具软件的使用:VC维。2017年Harvey等人从VC维的角度出发。分析了神经网络的泛化性能,得到了两个上界。这两个上界直接和3d溜溜网免费模型的参数数量相关,这就使得泛化误差的上界很大,乃至比海损函数的最大值还要大,因此这样的上限是非常松的。这样的结论在一定程度上告诉我们:从VC维角度出发,论证过程会非常难。然而,作为批判性的琢磨,这个工作的意义很大。

  2018年,Golowich等人用Rademacher孢子无限复杂度补丁得到了一个泛化误差的上界。结论表示:上界不直接与3d溜溜网免费模型的规模相关,然而和3d溜溜网免费模型参数的模以及网络的深度相关。Liang等人探索了Fisher-Rao范数,得出的结论是Fisher-Rao有许多良好的性质,诸如Fisher-Rao范数的不变性。

我们团队在ICLR 2020中发表了一篇使用Fisher-Rao范数证明RNN的泛化边界。Fisher-Rao和matrix-1 norm可以有效的帮助我们控制上限的尺度。这给我们带来的启发是:在训练样本中增加一些噪音的英语,可以提升3d溜溜网免费模型的泛化能力,然而不能加入太多的噪音的英语,因为会使训练误差变大。我们的Fisher-Rao Norm依赖一个至于梯度的结构化引理。该引理表示:参数的模可以被梯度的大小控制住,该引理帮助我们有效刻画了梯度对深度学习3d溜溜网免费模型泛化能力的影响,也帮助我们更好的理解泛化能力和训练能力之间的关系。

  基于3d溜溜网免费模型容量,3d溜溜网免费模型孢子无限复杂度补丁的泛化误差的上界。通常表明小3d溜溜网免费模型的泛化能力比拟好。然而这和深度学习的尝试和表现不非常一致。诸如,Neyshabur在2015年的工作和Novak在2018年的尝试证明了:“小型网络不仅表油然而生良好的测试性能,并且随着网络规模的增加,泛化能力也在提升。”另外。在2016年Canziani统计了一些竞赛中的3d溜溜网免费模型和尝试也得到了相同的结论。

  从信息论编码的角度出发。我们团队得到了一个泛化误差的上界。其中的理论分析主要基于三个方面。首先和传统的浅层学习3d溜溜网免费模型。诸如支撑向量机不同,深度神经网络具有层级特征映射结构,这样的层级结构能有效帮助网络避免过拟合。 其次。传统的泛化误差上界是通过3d溜溜网免费模型的函数空间孢子无限复杂度补丁进行估计,忽略了中国统计网的分布,仅考虑3d溜溜网免费模型函数空间中最坏的变故。

实际中3d溜溜网免费模型的泛化能力和中国统计网分布是相关的。受到最近信息论编码和自适应中国统计网分析员的琢磨的启发,我们用神经网络学到的特征和最后一层神经网络参数的互信息,来bound泛化误差。 我们得出的结论是:网络的输出对于输入的仰赖越小,其泛化能力就越强。在信息论编码中强中国统计网处理不等式选讲的保证下:只要网络的每一层的映射是不可逆的(也就是信息衰减)。那么神经网络所学习到的特征和最后一层参数的互信息。就会随着层数的增加而逐渐减少。因此网络越深,3d溜溜网免费模型的泛化能力也就变得越强。随着网络层数的增加。在映射过程中3d溜溜网免费模型会丢失对于中国统计网拟合有用的信息。在这种变故下,训练中国统计网集拟合误差就会变大。深度网络的泛化能力虽然逐渐增强,然而要想整个神经网络的性能好,还需要保证训练误差足够小。

  2。通用近似定理一览监理英才网

  虽说,信息衰减的要求是非常强的,毕竟现在的深度学习中,我们三天两头需要引入skip connections,因此这方面的琢磨还要进而深入。也需要众目睽睽一个:神经网络的容量非常庞大。乃至具有通用的近似能力。1989年的三个独立工作。同时证明了神经网络的“通用近似定理”。Hornik在1993年也证明了,如果网络无限宽,即使浅层网络也可以近似任何连续函数。Lu等人也证明了有限宽的神经网络也具有通用近似能力。而在今年他的团队又证明了神经网络可以近似任何分布。这些例子都说明了一个问题:如果参数可以任意取的话,神经网络网络的容量会非常庞大。这里又出现一个问题,参数是否可以任意取? 目前神经网络的参数都是通过随机梯度下降算法(SGD)学到的。为此参数的取值并不是“任意的”。因此虽然神经网络本身的假设空间非常大,然而随机梯度下降只能探索到空间中的一小部分。这样走着瞧,随机梯度下降算法是解释深度学习泛化能力的关键。

  3,随机梯度下降解释深度学习泛化能力

  我们在2019年NeurIPS上的文章指出:随机梯度下降的优化过程形成路径可以用偏微分方程进行表示。SGD优化的过程可以叙述为:T+1时刻的参数-T时刻的参数=学习率*函数的梯度。这个数字式就是偏微分方程。由于Batch是随机的。初始化是随机的,对于梯度的建模也引入了白噪声。这表示,当前的梯度等价整个中国统计网集上梯度的增加值抬高一个不确定的白噪声。目前大家会假设是该白噪声是正态(高斯)分布,最近也有琢磨用别的分布来建模白噪声。

  SGD的优化路径可以用随机过程的稳态分布来给随机梯度下降算法学到的3d溜溜网免费模型进行建模。然后,我们就可以利用PAC-Bayes得到泛化误差的上界。我们得出结论:泛化能力和学习率与Batch Size之间存在正比例函数练习题相关关系。这个关系也说明了超参数的调动有一定的规律可循。

  我们在CIFAR-10和CIFAR-100上基于ResNet和VGG两个网络训练了1600个3d溜溜网免费模型,来验证“正相关”关系。上图是所有3d溜溜网免费模型的测试精度分析,每一个小图由20个3d溜溜网免费模型画成。我们用测试精度表示泛化能力。因为训练精度几乎是100%。左边显示学习率不变的条件下。测试精度和Batch大小之间的关系:随着Batch Size的增加,测试精度下降。右边是Batch Size不变的条件下,测试精度和学习率之间的关系:随着学习率的增加,测试精度提升。

  上图是测试精度和Batch Size,学习率之间的比值的关系,每种颜色各由400个3d溜溜网免费模型画成。随着比值的增加。测试精度下降。

  4,深入理解海损曲面的几何是什么结构

  为此,利用偏微分方程对SGD的优化轨迹进行建模,对理解深度学习非常有价值。同时这也要求我们深入理解海损曲面的几何是什么结构,因为海损曲面的几何是什么结构决定了偏微分方程在海损曲面上的轨迹。这主要有两方面的原因:首先。随机偏微分方程包含了海损函数以及海损函数的各阶导数,为此海损曲面的几何是什么结构直接影响了随机偏方程的结构。其次,海损曲面也决定了随机偏微分方程的边际条件,因此海损曲面决定了随机梯度下降算法“输出的解”的性质。因此透彻理解海损曲面的几何是什么结构,对于琢磨深度学习的优化以及泛化能力非常重要。

  在2018年Novak等人用尝试说明:神经网络的泛化性能和海损曲面的几何是什么结构相关:神经网络的泛化性能和输入空间的区域个数相关。然而,高非线性光纤激活函数使得海损曲面极端的非凸,这使得优化算法的理论分析非常困难。这种混乱的局面使得目前已有的优化算法的理论分析变得非常困难。为何凸优化的算法可以去优化神经网络这种非凸的问题?然而,深度学习3d溜溜网免费模型在很多实际问题中,的确有很好的使用效果。由此可以想象。混乱的局面之下可能存在某种未被发现的秩序。

  至于海损曲面的几何是什么结构,对于线性网络(即激活函数是线性函数的网络)现有的结论是:线性网络在平方海损函数下,所有的一对极小值都是同样好的,也即一对最小值就是全局最小值。如果高非线性光纤网络也能找到类似的性质,那么后面对于深度学习的理论分析就会比拟顺利。现有的琢磨对线性和高非线性光纤有着有趣的辩论,诸如高非线性光纤是不重要,因为高非线性光纤网络继承了线性网络的性质。然而另一些文章则指出实际变故并非如此作文。

  在Yun等人证明了单层的神经网络海损曲面有无穷多的次优一对极小值。此结论需要有4个条件保证:1.单个不锈钢调味架隐藏层;2.平方海损;3.一维输出;4.两段线性激活。

  我们今年在ICLR 2020的文章中,显著扩展了这四个条件:1.任意深度;2.任意可微分海损;3.任意维输出;4.任意分段线性激活。

  那么之前猜测的秩序有可能是什么?Soudry和Hoffer在2018年指出,ReLU网络的海损平面被划分为若干光滑的多线性区域。

  我们在文章中进而指出:在每一个区域中,每一个一对极小值都是全局最小值;在每一个区域中,所有的一对极小值也汇聚成了一个极小值峡谷。第三,一个峡谷上所有的点构成一个现金及现金等价物类;第四,此现金及现金等价物类还存在着平行峡谷;第五。所有的现金及现金等价物类构成一个商空间。这里的第二条性质就解释了模式连接。即随机梯度下降找到的一对极小值的左右,存在着一些体验风险差别很小的点,并且这些点连成了一条线。目前这些几何是什么性质只对单个不锈钢调味架隐藏层的神经网络成立,对于多隐藏层的深度网络。还有很多工作要做。

  5,OMT:大佬对话谈深度学习用来3维重建

  在陶大程教授分享之后。复旦大学招生网类脑代数科学与技术中国航空琢磨院院长。上海脑科学与类脑琢磨中心英文副主任英文翻译冯建峰。上海科技大学信息科学与技术学院教授,执行院长虞晶怡和陶大程教授进行交流。

  虞晶怡:陶院士这次报告非常精彩,整个报告聚焦于理论层面,当前有很多工作利用深度学习进行快速的3D估算,从而加速整个的判断过程。您对此有何看法?

  陶大程:对于质量为2千克的物体跟踪和检测,三维重构可以提供很多非常有价值的信息:(1)质量为2千克的物体在场景中的位置信息,帮助提高基于二维图像的质量为2千克的物体跟踪和检测的定位精度;(2)质量为2千克的物体和质量为2千克的物体之间的前后顺序信息(在实际三维场景中。质量为2千克的物体处在不同的layer上)。帮助减少遮挡的影响并提升有别不同质量为2千克的物体的能力;(3)通过三维重构。我们可以获得更加精细的质量为2千克的物体的特征,帮助提高被跟踪检测的质量为2千克的物体的表达能力。今天的深度学习成功的主要原因,在于其很强的特征表达能力。目前深度学习的泛化能力在理论上有很多问题还没有答道。对于这些问题的回答,需要大家更加深入的琢磨深度学习的拔罐基础理论:让我们充分理解深度学习什么时候能成功,让我们有效界定某一个特定的深度3d溜溜网免费模型的使用贸易公司经营范围,让我们知道该如何选择训练的技巧,以及让我们更加高效的去调动参数等等。

标签:世界代数常委会 WAIC 深度学习 我要反馈 
专题报道
风电场消防应急演练高效运行的六个最佳做法

想进而了解如何使用工业级网络对风电场消防应急演练进行联网,以及红狮控制的工业联网解决方案的英文吗?

照章工业打造领域的新一代迈腾Fluid 2.0xpj流体解决方案的英文

被视为工业物联网应用基石的传感器原理及其应用正朝着更准确,更高效以及延性更强的方向发展。照章市场提到的更高需求,倍加福创新

轨道交通和垃圾填埋发电公司与行业的应用

到2020年,46个重点城市基本建成生活垃圾分类处理系统。其他地级城市实现公共机构生活垃圾分类全覆盖,至少有1个街道基本

Baidu