第九章正则化

2026年4月7日

第127~130页

看了下引言的内容，与自己过去的认知，可以发现，现在的所有东西，再以前都是有所了解的，看这本书就是为了把东西穿起来，更进一步的是，第二遍时去理解书中的内容，现在只是知道有这么个东西可以学习，也能基本的串接起来。

引言介绍了前面的差异原因：1.统计差异（过拟合）；2.无数据的区域内不可控，导致结果不理想。

9.1 显示正则化

记得一句最核心的论断，增加远端的惩罚，从而找到全局最优解。

9.2 概率解释

没有看懂

一个先验知识Pr ，它代表再我们观测数据之前对参数的了解。

一个负对数似然损失函数，没有看懂具体的含义。

9.3 L2 正则化

有具体的L2的解释，作用是惩罚权重，而放开偏置，作者举了偏置不同的

9.4 隐式正则化

9.4.1 梯度下降中的隐士正则化

无限接近于零的步长的一个尝试。

离散化的路径会避开梯度范数大的区域，就是比较陡峭的

2026年04月13日第二十六天

第131~134页

9.4.2 在随机梯度下降中的隐士正则化

SGD 隐式地倾向于地图稳定的位置，调整路径，但是不改变全局最小值。

表现出的泛化能力，小批次比大批次有更好的表现。

9.5 提升性能的启发式方法

9.5.1 早停

在大致捕捉到函数之前，能够停止训练，防止过拟合。

由于权重最初被设定为小值，没有机会变得很大。也可以说，早停降低了模型的有效复杂度。

9.5.2 集成学习

构建并平均多个模型的预测结果。就是多次训练，取平均值。

训练不同模型的方法:

采用不同的随机初始化
对训练数据进行重采样

2026年04月14日第二十七天

第134~137页

9.5.3 Dropout

通过对随机的一批隐藏单元的输出置为0，达到降低特定的隐藏单元的依赖。

由于移除会在原本活跃的区域内改变输出函数，后续的梯度下降训练会试图对这一变化进行调整，从而消除依赖。

9.5.4 应用噪声

有三种方式

在输入数据中加入噪声
在权重中引入噪声
对标签进行扰动

9.5.5 贝叶斯推理

2026年05月26日第二十八天

第136~139页

中间断档，就是赶的太紧了，同时工作上遇到了问题，导致了午间的断档。工作确实是太忙了，工作的基础都要被打穿的样子，所以，才把这个事情断了这久的时间。重要而不紧急的事情，就是容易被拖走，从而跑偏。

也确实，午间的时间都在这个上面了，没有了中午自己的时间，每日如此。

贝叶斯估计，可以提供更为稳健的预测结果。目前的所有方法都采用了某种形式的近似。

9.5.6 迁移学习与多任务学习

9.5.8

数据增强，就是对于现在的文本，做增强处理，不停的变换色彩、方向等，主图的鸟（或者其他的目标）依然没有变，也就是最开始学习的那个机器学习的实例里面的数据的变换，让很小的数据集，拥有极其广阔的训练样本

9.6 总结

所谓的正则化，其实就是对于数据结果的统一，让结果在一定的范围内共享计算的结果。

第九章 正则化