2026年3月30日

第97~100页

多维的反向传播算法,与一维的事类似的,都是利用前面计算的结果,去核算后续的状态,就是后续的梯度的计算,这样子来加速计算,跟非比纳契数列的计算方法一致。

7.4.1 反向传播算法概述

其实就是对于前面介绍的算法,重新表述了一遍,作者特意提及了一个问题,那就是反向传播算法,实际上是空间换时间的的操作,在于大量的保存中间变量,会造成训练过程中的内部不足问题。

7.4.2 算法微分

介绍现代的深度学习框架,都是可以自己去计算导数的,比如 PyTorch/ TensorFlow 等,拥有自己的函数去计算。甚至,可以自行考虑网络操作顺序。充分利用了GPU 的并行计算能力。在充足的内存情况下,可以同时计算前向和后向。

7.5 参数初始化

说的是参数初始化的重要性,Ω过大或过小时,都会引起系统的不稳定,比如可用的浮点数表示不了等问题

7.5.1 前向传播的初始化

本节,介绍的时 He 初始化