第十一章 残差网络

2026年6月7日

第69~186页

占用了6.8 的日期,因为今天看了2章内容,不足以修改文件的命名规则

本章节的简介,说的是,对于超大规模的训练,可能存在网络性能变差的问题。

所以,目前的一个解决方法,是对于每一层级的内容做一个残差的解决方案,不是直接传递到下一层去继续运算

11.1 顺序处理

就是对于前面的顺序计算的一个总结,顺序处理,本质上是对前面的卷积网络和全连接网络的一个总结,实质上的总结

11.2 残差连接与残差块

是一种特殊的网络架构,允许每一层的输入直接加到其输出上。

相当于是一直在向结果集去累积原始的输入。这就会引入方差来源,即使有ReLU 函数的方差还是会增加到之前的2倍,所以会限制网络的进一步增加

11.3 残差网络的梯度爆炸问题

随着网络的加深,前向传播的过程中,值会指数级增加

11.4 批量归一化

通过调整和缩放每个激活值h,使其在批次B中的均值和方差转变为训练期间学习到的值。

优势:让网络对每个激活函数贡献的权重和偏置的缩放不敏感;参数翻倍时,激活值也会翻倍,变准偏差也会翻倍。

稳定的前向传播;
更高的学习率;
正则化;