第八章 正则化
2026年4月7日
第127~130页
看了下引言的内容,与自己过去的认知,可以发现,现在的所有东西,再以前都是有所了解的,看这本书就是为了把东西穿起来,更进一步的是,第二遍时去理解书中的内容,现在只是知道有这么个东西可以学习,也能基本的串接起来。
引言介绍了前面的差异原因:1.统计差异(过拟合);2.无数据的区域内不可控,导致结果不理想。
9.1 显示正则化
记得一句最核心的论断,增加远端的惩罚,从而找到全局最优解。
9.2 概率解释
没有看懂
一个先验知识Pr ,它代表再我们观测数据之前对参数的了解。
一个负对数似然损失函数,没有看懂具体的含义。
9.3 L2 正则化
有具体的L2的解释,作用是惩罚权重,而放开偏置,作者举了偏置不同的
9.4 隐式正则化
9.4.1 梯度下降中的隐士正则化
无限接近于零的步长的一个尝试。
离散化的路径会避开梯度范数大的区域,就是比较陡峭的
2026年04月13日 第二十六天
第131~134页
9.4.2 在随机梯度下降中的隐士正则化
SGD 隐式地倾向于地图稳定的位置,调整路径,但是不改变全局最小值。
表现出的泛化能力,小批次比大批次有更好的表现。
9.5 提升性能的启发式方法
9.5.1 早停
在大致捕捉到函数之前,能够停止训练,防止过拟合。
由于权重最初被设定为小值,没有机会变得很大。 也可以说,早停降低了模型的有效复杂度。
9.5.2 集成学习
构建并平均多个模型的预测结果。就是多次训练,取平均值。
训练不同模型的方法:
- 采用不同的随机初始化
- 对训练数据进行重采样
2026年04月14日 第二十七天
第134~137页
9.5.3 Dropout
通过对随机的一批隐藏单元的输出置为0,达到降低特定的隐藏单元的依赖。
由于移除会在原本活跃的区域内改变输出函数,后续的梯度下降训练会试图对这一变化进行调整,从而消除依赖。
9.5.4 应用噪声
有三种方式
- 在输入数据中加入噪声
- 在权重中引入噪声
- 对标签进行扰动