2026年3月20日
第77~80页
6.1.3 局部最小点与鞍点
数据集的Cabor 模型损失函数,存在众多局部最小值,这些值上,梯度为零,无论怎么移动,损失都会增加,但是并不是全局最优解
鞍点,这个概念在以前学习高等数学时就有所了解,意思是像马鞍一样的点,两边都是向下的,但是前后是平坦的(大致平坦,理解意思就行)
6.2 随机梯度下降
利用梯度下降法寻找高维损失函数的全局最优解颇具挑战性,能找到一个极小值,但是不能确认是全局最优解。
一个主要问题是,梯度下降法的最终结果完全取决于起始点。
随机梯度下降,就是在每一步的梯度中引入随机噪声来解决,因此具有从一个“谷”跳跃到另一个的可能性。
6.2.1 批次和周期
引入随机性就是,随机选择训练数据的一个子集,根据这些示例数据计算梯度,成为小批量(minibath)或批次
整个训练数据集的单词遍历成为一个“周期”
SGD 的另一种解释是,计算不同损失函数的梯度
6.2.2 随机梯度下降的特性
六大特性,可以用来吹牛逼。
6.3 动量
动量的递归计算方式导致梯度更新步骤成为所有先前梯度的无限加权和,随着时间的推移,权重逐渐减少。
今日总结
由于之前理解并接受过极小值和最小值的概念的差别,本章节的理解并不困难,但是里面涉及的大量的公式,其实还是不太理解的,只是知道他的描述就是这个含义,能够清楚的知道他的问题点所在。
另外,每天坚持固定的页数,是一个很好的方法,如果不是坚持每天4页,今天可能在第3页时就已经结束了,脑袋里面计算错了页数,并且如果少了这种责任,在每日的午间休息阶段,就浪费过去了。