第八章 正则化

2026年4月7日

第127~130页

看了下引言的内容,与自己过去的认知,可以发现,现在的所有东西,再以前都是有所了解的,看这本书就是为了把东西穿起来,更进一步的是,第二遍时去理解书中的内容,现在只是知道有这么个东西可以学习,也能基本的串接起来。

引言介绍了前面的差异原因:1.统计差异(过拟合);2.无数据的区域内不可控,导致结果不理想。

9.1 显示正则化

记得一句最核心的论断,增加远端的惩罚,从而找到全局最优解。

9.2 概率解释

没有看懂

一个先验知识Pr ,它代表再我们观测数据之前对参数的了解。

一个负对数似然损失函数,没有看懂具体的含义。

9.3 L2 正则化

有具体的L2的解释,作用是惩罚权重,而放开偏置,作者举了偏置不同的

9.4 隐式正则化

9.4.1 梯度下降中的隐士正则化

无限接近于零的步长的一个尝试。

离散化的路径会避开梯度范数大的区域,就是比较陡峭的

2026年04月13日 第二十六天

第131~134页

9.4.2 在随机梯度下降中的隐士正则化

SGD 隐式地倾向于地图稳定的位置,调整路径,但是不改变全局最小值。

表现出的泛化能力,小批次比大批次有更好的表现。

9.5 提升性能的启发式方法

9.5.1 早停

在大致捕捉到函数之前,能够停止训练,防止过拟合。

由于权重最初被设定为小值,没有机会变得很大。 也可以说,早停降低了模型的有效复杂度。

9.5.2 集成学习

构建并平均多个模型的预测结果。就是多次训练,取平均值。

训练不同模型的方法:

  1. 采用不同的随机初始化
  2. 对训练数据进行重采样

2026年04月14日 第二十七天

第134~137页

9.5.3 Dropout

通过对随机的一批隐藏单元的输出置为0,达到降低特定的隐藏单元的依赖。

由于移除会在原本活跃的区域内改变输出函数,后续的梯度下降训练会试图对这一变化进行调整,从而消除依赖。

9.5.4 应用噪声

有三种方式

  1. 在输入数据中加入噪声
  2. 在权重中引入噪声
  3. 对标签进行扰动

9.5.5 贝叶斯推理