第八章 正则化
2026年4月7日
第127~130页
看了下引言的内容,与自己过去的认知,可以发现,现在的所有东西,再以前都是有所了解的,看这本书就是为了把东西穿起来,更进一步的是,第二遍时去理解书中的内容,现在只是知道有这么个东西可以学习,也能基本的串接起来。
引言介绍了前面的差异原因:1.统计差异(过拟合);2.无数据的区域内不可控,导致结果不理想。
9.1 显示正则化
记得一句最核心的论断,增加远端的惩罚,从而找到全局最优解。
9.2 概率解释
没有看懂
一个先验知识Pr ,它代表再我们观测数据之前对参数的了解。
一个负对数似然损失函数,没有看懂具体的含义。
9.3 L2 正则化
有具体的L2的解释,作用是惩罚权重,而放开偏置,作者举了偏置不同的
9.4 隐式正则化
9.4.1 梯度下降中的隐士正则化
无限接近于零的步长的一个尝试。
离散化的路径会避开梯度范数大的区域,就是比较陡峭的