微信扫一扫
分享到朋友圈

学界 | 信息论视角下的深度学习简述,形式化的泛化误差分析

作者:机器之心 来源:机器之心 公众号
分享到:

05-09

选自arXiv

机器之心编译

参与:刘天赐、路


本论文从信息论的角度简要概述了深度学习,试图解决这两个问题:(1) 深度神经网络为什么比浅层网络的泛化能力好?(2) 是否在所有场景下,更深层的神经网络的效果都更好?


论文:An Information-Theoretic View for Deep Learning



论文链接:https://arxiv.org/abs/1804.09060


摘要:深度学习改变了计算机视觉、自然语言处理和语音识别领域。但还有两个依然模糊的关键问题:(1) 深度神经网络为什么比浅层网络的泛化能力好?(2) 是否在所有场景下,更深层的神经网络的效果都更好?具体而言,令 L 表示某一深度神经网络中的卷积层和池化层层数,n 表示训练样本量,我们可推导出此网络的期望泛化误差上界:



其中,σ>0 为常量,依赖于损失函数; 0<η<1 为另一常量,依赖于每个卷积或池化层上的信息损失(information loss);I(S,W) 为训练样本 S 和输出假设 W 间的互信息。据此上界可以得出:(1) 随着神经网络中卷积层和池化层个数 L 的增加,期望泛化误差呈指数下降至 0。带有严格信息损失的层(如卷积层),可以降低深度学习算法的泛化误差;这回答了上文中的第一个问题。但是,(2) 算法的期望泛化误差为 0 并不意味着测试误差或 E[R(W)] 很小,因为随着层数增加,用于拟合数据的信息发生损失时,E[R_S(W)] 会增大。这表明「神经网络越深越好」的说法仅在测试误差或 E[R_S(W)] 较小的条件下成立。(3) 我们进一步展示了深度学习算法满足稳定性的弱概念;随着 L 的增加,深度学习算法的样本复杂度会降低。


我们研究了统计学习的标准框架,其中 Z 表示示例空间(instance space),W 表示假设空间(hypothesis space),n 元组 S = (Z_1, Z_2, ..., Z_n) 表示训练样本,所有元素 Z_i 为从未知分布 D 中抽样得到的独立同分布样本。学习算法 A : S → W 可以理解为从训练样本空间 Z^n 到假设空间 W 上的随机映射。利用马尔科夫核 P_W|S 来描述学习算法 A:给定训练样本 S,算法根据条件分布 P_W|S 从 W 中抽取一个假设。


我们引入损失函数  作为某假设预测效果的度量。对任意通过 S 学得的假设 W,我们将期望风险定义为:

将经验风险(empirical risk)定义为:

对学习算法 A,我们定义泛化误差:

泛化误差很小表示学得的假设在训练数据集和测试数据集上表现接近。


在本文中,我们研究了深度学习算法的期望泛化误差,如下:

该期望在联合分布 P_W,S = D^n × P_W|S 上。


我们可得到以下分解:

等式右侧第一项为期望泛化误差,第二项则反映了在期望的角度下,学得假设对训练样本的拟合程度。


在设计学习算法时,我们希望期望风险的期望 E[R(W)] 越小越好。但通常,很难同时令期望泛化误差 G(D,P_W|S) 和期望经验风险 E[R_S(W)] 都很小:如果某个模型对训练样本的拟合过于好,则它在测试数据上的泛化能力就可能很差,这就是「偏差-方差权衡问题」(Domingos, 2000)。惊人的是,根据实证经验,深度学习算法能够很好地同时最小化 G(D, P_W|S) 和 E[R_S(W)]。深度网络的深层架构能够有效地紧凑表征高变函数(highly-varying function),进而令 E[R_S(W)] 很小。但关于期望泛化误差 G(D, P_W|S) 能够保持很小的原因的理论研究依然不明确。


在本文中,我们从信息论角度出发研究深度学习算法的期望泛化误差。我们证明了随着层数增加,期望泛化误差 G(D, P_W|S) 会呈指数下降至 0。在定理 2 中,我们证明了:



其中,L 是深度神经网络中的信息损失层层数;0<η<1 为另一常量,依赖于每个卷积层和池化层上的信息损失;σ>0 为常量,依赖于损失函数;n 为训练样本 S 的样本量大小;I(S, W) 为输入训练样本 S 和输出假设 W 间的互信息。


此结论来自于两个和信息论相关的重要结果。第一个结果是来自于 Ahlswede 和 Gács 1976 年提出的强数据处理不等式(Strong Data Processing Inequalities,SDPI):对于马尔科夫链 U → V → W,如果在映射 V → W 中存在信息损失,则 I(U, V ) ≤ ηI(U, W),其中 η<1,为非负信息损失因子。第二个结果来自于 (Russo and Zou 2015, Xu and Raginsky 2017):对于某个学习算法,输入和输出间的互信息决定了该学习算法的泛化误差。


我们的结果与「偏差-方差权衡问题」并不冲突。尽管随着信息损失层层数增加,期望泛化误差呈指数下降至 0;但由于信息损失不利于拟合训练样本,因此期望经验风险

阅读8804
举报0
关注机器之心微信号:almosthuman2014

用微信扫描二维码即可关注
声明

1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。

评论
更多

文章来自于公众号:

机器之心

微信号:almosthuman2014

邮箱qunxueyuan#163.com(将#换成@)
微信编辑器
免责声明
www.weixinyidu.com   免责声明
版权声明:本站收录微信公众号和微信文章内容全部来自于网络,仅供个人学习、研究或者欣赏使用。版权归原作者所有。禁止一切商业用途。其中内容并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现头条易读网站上有侵犯您的知识产权的内容,请与我们联系,我们会及时修改或删除。
本站声明:本站与腾讯微信、微信公众平台无任何关联,非腾讯微信官方网站。