开yun体育网ResNet 发布的同庚-开云(中国)kaiyun网页版 登录入口

发布日期:2025-11-10 07:28    点击次数:93

开yun体育网ResNet 发布的同庚-开云(中国)kaiyun网页版 登录入口

何恺明残差学习奠基东说念主的身份开yun体育网,也被"挑战"了。

为什么要说"也"?因为发起征询的,又双叒是咱们闇练的J ü rgen Schmidhuber—— LSTM 之父。

不外这一次,他不是要把功劳揽到我方身上,而是替 LSTM 的另一位作家Sepp Hochreiter发声:

残差学习这把转变深度学习口头的 "钥匙",其实早在 30 年前就还是出身—— Sepp Hochreiter 在 1991 年就在使用轮回残差趋奉经管梯度隐没问题。

有一说一,J ü rgen 争 title 也不是第一次了,当作深度学习的前驱者,J ü rgen 自以为我方的早期孝敬被东说念主为冷落了。

ResNet 发布的同庚,深度学习三巨头Bengio、Hinton、LeCun在 Nature 上融合发表关系 DL 的综述论文,其中无数援用他们三东说念主的本身效用,却对 J ü rgen 等东说念主缄口结舌。

立时他们张开了长达多年的争论,尤其是在 18 年的图灵奖落幕公布后,J ü rgen 更是鸿篇巨制写了篇征引 200 多条规件的小作文反击。

之后在GAN的原创争议上,两边亦然争执束缚,要知说念 GAN 的提议者恰是 Bengio 的舒心门生。

而如今关系残差学习的创始之争,亦然因为 J ü rgen 自以为将残差学习这一效用的发现十足归因于何恺明团队有失偏颇。

不外正如网友所说:

从 Hochreiter 到 ResNet,光线随技能递归不息。暗影是被暧昧的包摄,但真谛长期不变:1991 年的种子精明着每一层。

30 年前的第一次提议

J ü rgen Schmidhube 此次要讲的故事始于 1991 年。

那时如故 J ü rgen 学生的Sepp Hochreiter,正在入部下手撰写我方的博士论文,也恰是在这篇论文里,他初次系统性分析了 RNN 的梯度隐没问题,并提议用轮回残差趋奉经管。

轮回残差趋奉的中枢念念想卓越苟简:一个具有恒等激活函数的神经单位自趋奉,且权重固定为 1.0,使其在每个技能步中仅将输入重叠到先前现象,该单位只当作增量积分器存在。

于是短处信号就能在反向传播中保握恒定,不会隐没或爆炸。

不外与此前大肆实数权重的自趋奉不同,惟有权重严格为1.0,智商十足幸免梯度问题。

接近 1.0 的近似值天然不错摄取,但衰延缓度会随技能加速,举例 0.99 的权重下短处信号会在 100 个技能步后减少到本来的 37%(0.99 ¹ ⁰⁰≈ 37%),0.9 的权重则惟有本来的 0.0027%(0.9 ¹ ⁰⁰≈ 0.0027%)。

但尽管如斯,这也为自后的深度学习残差念念想奠定了表面基础。

直到 1997 年,J ü rgen 和 Hochreiter 共同提议了驰名的LSTM,在该表面的基础上完结了进一步的膨胀。

LSTM 的中枢单位是权重为 1.0 的轮回残差趋奉,也即是恒定短处轮盘(CECs),这一机制保证了短处可在数百乃至数千技能步中保握不衰减,使 LSTM 能有用捕捉输入与输出之间的长技能滞后,对语音、谈话等任务至关进军。

另外这篇 LSTM 论文亦然20 世纪援用次数最多的东说念主工智能论文。

1999 年,LSTM 演变出新的形态vanilla LSTM,在本来的基础上加入了运转值为 1.0 的淡忘门,使其具备可控的残差趋奉,既能保握永劫依赖,又能在需要时重置挂念。

天然这么作念会再行引入一定的梯度隐没,不外举座仍然处于可控现象。

到 2005 年,通过技能反向传播 (BPTT)算法,LSTM 不错张开为深度前馈神经网罗 (FNN),让每个输入序列的技能步齐对应一个杜撰层,从而大幅加多了网罗深度,不错处理更长技能滞后。

而不管是轮回如故前馈,残差趋奉长期依赖权重固定为 1.0。

接下来即是家喻户晓的 2015 年,当先在同庚 5 月,需要优先说起Highway 网罗的孝敬。

此前,基于反向传播的前馈神经网罗的深度有限,惟有 20 到 30 层,直到 Highway 网罗的出现,才初次得手磨练出上百层的深度前馈网罗,比曩昔要深 10 倍以上。

其中枢是将 LSTM 的门控残差念念想从轮回神经网罗引入前馈网罗,每层输出为 g ( x ) x+t ( x ) h ( x ) ,其中 x 是来自前一层的数据,g、t、h 暗示带实值的非线性可微函数。

要津的残差部分 g ( x ) x 运转换为 1.0,让 Highway 网罗既能保握肖似 ResNet 的纯残差趋奉,又能凭证任务需要,以依赖高下文的形式自相宜转换残差流,从而大幅进步深度可磨练性。

临了再到 12 月,ResNet在 ImageNet 竞赛中大奏效利,澈底将残差学习带入大家视野。

ResNet 在残差部分贪图上,与张开的 LSTM 以及运转换的 Highway 网罗通常,要是将 Highway 网罗的门恒定诞生为 1.0,就不错获得纯残差网罗 ResNet,而它们本色上齐是 1997 年的 LSTM 前馈变体。

ResNet 的残差趋奉允许短处在深层网罗中肃穆传播,使网罗约略磨练数百层,但 J ü rgen 也指出,ResNet 论文中并莫得明确诠释它推行上即是开部门控的 Highway 网罗,二者之间存在通常的步调残差趋奉。

回想即是,LSTM 与 Highway 网罗辞别奠定了轮回和前馈网罗的深度磨练基础,ResNet 则将这一旨趣得手诳骗于前馈网罗,不息了自 1991 年 Hochreiter 创始的残差念念想。

One More Thing

不外,这种说法当今仅代表 J ü rgen Schmidhuber 的个东说念主不雅点。(叠甲 doge)

因为这还是不是他第一次对驰名神经网罗的发祥提议质疑。

早在 2021 年,他就公开暗示,LSTM、ResNet、AlexNet、VGG Net、GAN 以及 Transformer,齐是受到了他实验室效用的启发。

举例他以为 AlexNet 和 VGG Net 领受了他们的 DanNet;GAN 是对他在 1990 年提议的 Adversarial Curiosity 原则的诳骗;Transformer 的变体,即线性 Transformer,是对他提议的快速权重存储系统的蔓延。

但除了无可争议的 LSTM 包摄,其他几项于今齐莫得获得宽阔招供。

以致繁衍出这么一种说法:" Schmidhuber is all you need. "

参考集会:

[ 1 ] https://x.com/SchmidhuberAI/status/1972300268550369631

[ 2 ] https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html

[ 3 ]

一键三连「点赞」「转发」「谨防心」

接待在辩驳区留住你的目的!

—  完  —

� �  年度科技风向标「2025 东说念主工智能年度榜单」评比报名开启啦!咱们正在寻找 AI+ 时间领航者  点击了解细目

❤️‍� �   企业、居品、东说念主物 3 大维度,共栽种了 5 类奖项,接待企业报名参与   � �  

一键关心 � � 点亮星标

科技前沿阐明逐日见开yun体育网



 




Powered by 开云(中国)kaiyun网页版 登录入口 @2013-2022 RSS地图 HTML地图