第八章 正则化

2026年4月7日

第127~130页

看了下引言的内容,与自己过去的认知,可以发现,现在的所有东西,再以前都是有所了解的,看这本书就是为了把东西穿起来,更进一步的是,第二遍时去理解书中的内容,现在只是知道有这么个东西可以学习,也能基本的串接起来。

引言介绍了前面的差异原因:1.统计差异(过拟合);2.无数据的区域内不可控,导致结果不理想。

9.1 显示正则化

记得一句最核心的论断,增加远端的惩罚,从而找到全局最优解。

9.2 概率解释

没有看懂

一个先验知识Pr ,它代表再我们观测数据之前对参数的了解。

一个负对数似然损失函数,没有看懂具体的含义。

9.3 L2 正则化

有具体的L2的解释,作用是惩罚权重,而放开偏置,作者举了偏置不同的

9.4 隐式正则化

9.4.1 梯度下降中的隐士正则化

无限接近于零的步长的一个尝试。

离散化的路径会避开梯度范数大的区域,就是比较陡峭的