今日开始,按章节切分文件,不再单纯按照日期来了,否则文件数量增加太快。
规定一下目录等级:

  1. 章节在最前面,用一级标题
  2. 日期也是一级标题
  3. 其他小章节,直接按所在的目录等级标配。 这样,就是章节没有子目录了,也没必要有,因为文件名称就是章节,这里给写上,完全时方便看目录

第八章 性能评估

2026年3月31日

第109~109页 占用了后一天的日期,所以这里时3.31

引言中,作者说神经网络可以完美适配训练数据,但是对于新的测试数据,就不一定能够适配的上,原因有

  1. 任务本身的不确定性
  2. 训练数据的量
  3. 模型的选择不同

今日思考

学习是一个过程,需要有自己的思考,以后这种学习,都安装先理解,在摘要的过程去记录,不能单纯的追求数量

2026年04月01日 第二十二天

第109~112页

8.1 训练一个简单的模型

讲解的是一个训练过程,在一个训练集上,进行的训练,在训练集获得了比较好的结果,但是在测试集上,有40%的误差率,虽然比90%的误差率低很多,但是在实际的应用中,依然不可接受。

作者画了几个图,来表示这个训练的过程,从图里面可以看到训练的过程中,损失函数在一定范围内下降之后,旧没有再次下降了。

作者还提到了 softmox 函数可能的问题。

8.2 错误的来源

举出的一个后续表示错误来源的例子。一个近似正弦函数的随机采样,通过封闭形式进行拟合训练,保障找到损失函数的最小值。

8.2.1 噪声、偏差与方差

解释了三种概念

  1. 噪声,就是在训练数据生成的时候的数据记录随机性,由于引入了高斯分布的随机值,就不可能完全的匹配会原始的函数;
    1. 数据生成的随机
    2. 实际数据的噪声,数据标记错误
    3. 等等原因
  2. 偏差,模型不够灵活,不能够完全的匹配原始函数;
  3. 方差,仅有的训练样本,不足以区分系统性的变化和随机噪声。在拟合函数上的额外变异性,称为方差。同时,随机学习算法本身也具有的随机性,导致不可能每次都收敛到同一个解。

2026年04月02日 第二十三天

第113~116页

8.2.2 测试误差的数学公式

作者通过一系列的计算公式,证明了系统中存在的上述的三个期望损失内容

  1. 方差是由于特定训练数据集样本导致的拟合模型的不确定性;
  2. 偏差是模型与我们试图建模的函数均值之间的系统性偏离;
  3. 噪声是输入到输出的真实映射中固有的不确定性。

8.3 降低误差

噪声不可避免,是模型性能的基本极限

8.3.1 减少方差

方差是由训练数据集的有限性导致的,所以可以增加训练集来减少方差。

8.3.2 减少偏差

偏差是由于模型无法很好的模拟真实函数,所以可以通过增加系统容量达到减少偏差的目的。对于神经网络而言,就是增加隐藏层或者单元数。

简化模型可以看出,增加之后,确实由明显的效果