NPLM实例详解：以"我喜欢机器学习"为例

util62026/4/9大约 26 分钟

NPLM实例详解：以"我喜欢机器学习"为例

1.模型示例规格定义

参数名称	参数值
上下文窗口大小	$n = 3$ （预测第4个词）
词向量维度	$m = 3$
隐藏层大小	$4$
激活函数	$\tanh$
输出层	softmax
学习率	$\eta = 0.1$
训练批次	1样本/批次（在线学习）

2. 数据准备

项目	内容
词汇表	$V = (v_1,v_2,...,v_{11}) = (\text{'<s>'}, \text{'我'}, \text{'喜欢'}, \text{'机器'}, \text{'学习'}, \text{'深度'}, \text{'他'}, \text{'讨厌'}, \text{'传统'}, \text{'方法'}, \text{'</s>'})$
词索引映射	$\text{index}(\text{'<s>'}) = 1$ 、 $\text{index}(\text{'我'}) = 2$ 、 $\cdots$ 、 $\text{index}(\text{'</s>'}) = 11$
训练序列	$S_1 = [\text{'<s>'}, \text{'<s>'}, \text{'<s>'}, \text{'我'}, \text{'喜欢'}, \text{'机器'}, \text{'学习'}, \text{'</s>'}]$

💡 关键洞见：为什么要引入起始符 <s>？
1.NPLM 的网络结构要求输入层必须始终接收 3 个词向量（即上下文窗口 $n=3$ ）。引入 <s> 主要解决了前馈神经网络（FFNN）对固定输入维度的刚性需求。对于句首的单词（如“我”），由于缺乏真实的历史上文，模型无法直接运行。
2.通过填充 <s>，我们不仅在物理上补齐了输入矩阵的维度，使第一步运算得以进行；还在语义上为模型提供了一个明确的“句首信号”。随着训练的进行，<s> 的词向量将学到“句子开始”这一特殊的语义特征，从而帮助模型更准确地预测哪些词（如代词、名词）更倾向于出现在句子的开头。
3.结束符</s>的作用也是：在语义上为模型提供了一个明确的“句尾信号”

💡 关键洞见：为什么要对词汇表进行索引映射？
1.为了方便在数学公式中表示和索引。2.为了在数据集上做标注
如 “我”后面应该出现的正确的词是“喜欢”或者“讨厌”，即在做数据标注时，正确集应该是[2,3],[2,8]
在损失计算的过程中，见 $\eqref{eq:grad-y-derivation}$ ，以预测“我”后面的词举例；对于i = 3或8，公式就变成了 $P_t - 1$ 。这意味着模型预测的概率 $P_t$ 本应该接近 1，但如果它只有 0.9，那么梯度就是 $0.9 - 1 = -0.1$ 。这个负号告诉模型：“你猜低了，赶紧把分数加上去。”

3. 参数随机初始化

3.1 词向量矩阵

💡 关键洞见：关于数值精度的说明
这里的矩阵参数展示为两位小数，但这是一种人为简化。
从数学上的均匀分布 $\mathcal{U}(-0.1, 0.1)$ 采样实际上会产生连续的高精度浮点数（如 0.04821...）。在本例中，我们人为将数值限制在两位小数，主要是为了确保简洁易读，方便验证。
在真实的深度学习工程实现中，这些参数通常使用 32 位或 64 位浮点数存储，以保持数值计算的精度。

使用均匀分布 $\mathcal{U}(-0.1, 0.1)$ 随机初始化:

C^{\text{init}} = \begin{bmatrix} 0.05 & -0.08 & 0.03 & -0.07 & 0.02 & -0.04 & 0.06 & -0.09 & 0.01 & -0.05 & 0.04 \\ -0.06 & 0.07 & -0.02 & 0.08 & -0.03 & 0.05 & -0.07 & 0.04 & -0.01 & 0.09 & -0.02 \\ 0.03 & -0.04 & 0.09 & -0.05 & 0.07 & -0.06 & 0.02 & -0.03 & 0.08 & -0.07 & 0.01 \end{bmatrix} \label{eq:C-init}

💡 关键洞见：均匀分布 $\mathcal{U}(-0.1, 0.1)$ 的背景与“随机初始化”究竟在做什么？
这里的
$C^{\text{init}} \sim \mathcal{U}(-0.1, 0.1)$
含义是：词向量矩阵中的每一个元素，都是在区间 [-0.1, 0.1] 上独立、等概率地随机采样得到的。
换句话说，落在这个区间内的任意实数，被选中的概率是一样的，没有“偏爱”某个数值。
之所以要这样做，有三个关键原因：
打破对称性（symmetry breaking）
如果一开始把所有参数都设为 0，那么网络中许多单元在前向和反向传播时会得到完全相同的梯度，导致它们永远学不到互补的功能；
随机初始化则让不同维度、不同词从一开始就略有差别，从而能在训练中走向不同的方向，各自“专精”不同特征。
数值足够小，避免激活函数过早饱和
区间[-0.1, 0.1] 很小，经过一两层线性变换后，送入 (\tanh) 等非线性时，输入通常仍然比较接近 0。
在 |x| 很小的时候， $\tanh(x) \approx x$ ，梯度接近 1，不会出现激活函数“饱和”（梯度非常接近 0）的问题，有利于训练一开始的稳定收敛。
词向量一开始是“无偏好”的
这些随机的小数本身没有语义，只是提供一个“起点”。
之后通过大量样本的梯度更新，模型会逐步把这些向量调整成有语义结构的表示（相似词向量靠近，不同词被区分开）。
在实现层面，“随机初始化”就是对矩阵的每个元素调用一次随机数生成函数。例如用 Python + NumPy，可以写成：
import numpy as np

# C 的形状是 (词向量维度 m, 词表大小 |V|)
C_init = np.random.uniform(low=-0.1, high=0.1, size=(3, 11))
这段代码会为 (C) 中的 3×11 个元素，各生成一个 [-0.1, 0.1] 区间内的随机数，得到的某一次具体结果，就类似你在上方给出的那个 $C^{\text{init}}$ 。

3.2 隐藏层参数

权重矩阵 $W^{(h)} \in \mathbb{R}^{4 \times 9}$ :

W^{(h)} = \begin{bmatrix} 0.01 & -0.02 & 0.03 & -0.04 & 0.05 & -0.06 & 0.07 & -0.08 & 0.09 \\ -0.01 & 0.02 & -0.03 & 0.04 & -0.05 & 0.06 & -0.07 & 0.08 & -0.09 \\ 0.02 & -0.03 & 0.04 & -0.05 & 0.06 & -0.07 & 0.08 & -0.09 & 0.01 \\ -0.02 & 0.03 & -0.04 & 0.05 & -0.06 & 0.07 & -0.08 & 0.09 & -0.01 \end{bmatrix} \label{eq:Wh}

💡
$W^{(h)}$ 的尺寸是 $4 \times 9$ 。这个尺寸是由 “输入数据的总长度” 和 “隐藏层神经元的数量” 共同决定的。
9 列（宽度）来源：输入层 $x$ 的维度即：$ \text{输入维度} = \text{窗口大小} \times \text{词向量维度} = 3 \times 3 = \mathbf{9}$；
4 行（高度）来源：隐藏层 $h$ 的大小，这意味着我们希望把那 9 个输入特征，经过线性变换后，压缩/映射成 4 个新的特征。
🧠
隐藏层大小（Hidden Layer Size，记为 $N_h$ ）是一个 超参数（Hyperparameter）。
如果你把 $N_h$ 设得太小（比如输入 100 维，隐藏层只有 2 维，输出 50 类），后果：欠拟合（Underfitting），即数学上：将高维数据强行投影到极低维空间，导致原本可分的数据挤在一起，变得不可分。
如果 $N_h$ 设得极其巨大（比如输入 100 维，隐藏层 10000 维）。后果：过拟合（Overfitting） 和 计算浪费。参数量过多，模型具有了捕捉数据中“随机噪声”的能力，而不是只捕捉“通用规律”。
虽然没有一个万能公式能算出最优的 $h$ ，但学术界和工业界有几个常用的“初始设定策略”：
🧠
隐藏层大小（记为 $N_h$ ）规定多少合适？
策略一：几何金字塔 (Geometric Pyramid)
通常，隐藏层的大小位于输入层和输出层之间。
$N_h \approx \sqrt{N_{\text{in}} \times N_{\text{out}}}$
逻辑：让数据维度平滑过渡，避免维度的剧烈突变导致信息丢失。
你的案例：输入 $x$ 是 9，输出 $y$ 是 11。
$\sqrt{9 \times 11} \approx \sqrt{99} \approx 10$ 。
注：你的笔记中选了 4，这是一个偏向“压缩特征”的选择，对于演示简单例子是完全合理的。
策略二：输入的倍数 (Expansion Ratio)
在现代深度学习（特别是 Transformer 和 CNN）中，经常反其道而行之，将隐藏层设为输入的倍数。
常见设定： $2 \times N_{\text{in}}$ 或 $4 \times N_{\text{in}}$ 。
逻辑：升维打击。将数据投射到更高维的空间，使得数据在那个空间里更容易被线性分割（Cover's Theorem）。
例如：Transformer 的前馈网络（FFN）通常把维度放大 4 倍，然后再缩回去。
策略三：2 的幂次 (Powers of 2)
你会发现大牛们的代码里，隐藏层往往是 32, 64, 128, 512, 1024...
逻辑：纯粹的工程优化。GPU 和计算机内存对 2 的幂次大小的数据块读写效率最高（Memory Alignment）。选 500 不如选 512 跑得快。
此案例中
$x (9\text{维}) \xrightarrow{W^{(h)}} h (4\text{维}) \xrightarrow{W^{(y)}} y (11\text{维})$
这里选择 4 是一个非常典型的“特征压缩”（Bottleneck）设计。
它的假设是：虽然输入的词向量组合有 9 个维度，但真正决定下一个词是什么的“核心语义”，其实只用 4 个数字就能概括。

偏置向量：

b^{(h)} \in \mathbb{R}^4:b^{(h)T} = \begin{bmatrix} 0.0 & 0.0 & 0.0 & 0.0 \end{bmatrix}

3.3 输出层参数

权重矩阵 $W^{(y)} \in \mathbb{R}^{11 \times 4}$ :

W^{(y)} = \begin{bmatrix} 0.01 & -0.02 & 0.03 & -0.04 \\ 0.02 & -0.03 & 0.04 & -0.05 \\ 0.03 & -0.04 & 0.05 & -0.06 \\ 0.04 & -0.05 & 0.06 & -0.07 \\ 0.05 & -0.06 & 0.07 & -0.08 \\ 0.06 & -0.07 & 0.08 & -0.09 \\ 0.07 & -0.08 & 0.09 & -0.01 \\ 0.08 & -0.09 & 0.01 & -0.02 \\ 0.09 & -0.01 & 0.02 & -0.03 \\ -0.01 & 0.02 & -0.03 & 0.04 \\ -0.02 & 0.03 & -0.04 & 0.05 \end{bmatrix} \label{eq:Wy}

b^{(y)} \in \mathbb{R}^{11}\$:b^{(y)T} = \begin{bmatrix} 0.0 & 0.0 & 0.0 & 0.0 & 0.0 & 0.0 & 0.0 & 0.0 & 0.0 & 0.0 & 0.0 \end{bmatrix}

💡 关键洞见：为什么偏置向量 $b$ 通常初始化为 0？
偏置项的初始化策略与权重矩阵截然不同，通常直接设为全 0，这主要基于以下两个原因：
第一，权重的随机性已经打破了对称性。
神经网络初始化的核心任务是防止所有神经元学习到完全相同的特征（即“对称性困境”）。只要权重矩阵 $W$ 是随机初始化的，每个神经元对输入的响应就已经各不相同了。
此时将偏置 $b$ 初始化为 0 不会重新引入对称性问题，因此无需引入额外的随机噪声。
第二，最大化初始梯度收益。
NPLM 使用的是 $\tanh$ 激活函数，其导数（梯度）在输入为 0 附近最大（即函数的线性区域）。将偏置初始化为 0，可以保证在训练伊始，神经元的净输入主要由加权后的输入数据决定，大概率落在 $\tanh$ 函数的中心区域。这能有效避免初始状态就落入函数的饱和区（即两端平缓区域），从而保证梯度能够顺畅地反向传播，加速模型收敛。

4. 训练过程（单样本迭代）

我们将模拟 NPLM 在处理句子时的第一个时间步。

4.1 训练样本构建

NPLM 使用一个固定大小的“滑动窗口”来预测下一个词。根据规格定义，我们的上下文窗口大小为 3，即根据前 3 个词预测第 4 个词。

当前任务：模型刚开始读取句子，需要预测第一个实际的单词 "我"。

输入上下文 (Context)：由于 "我" 是句首，其前文不足，需要用填充符号 <s> (Start of Sentence) 补齐。

样本提取示意图：

时间步 ( $t$ )	上下文输入 ( $w_{t-3}, w_{t-2}, w_{t-1}$ )	预测目标 ( $w_t$ )
$t=4$	`['<s>', '<s>', '<s>']`	`'我'`
(下一时刻)	`['<s>', '<s>', '我']`	`'喜欢'`

数值化映射（String $\to$ Index）：

为了送入神经网络，我们需要将单词转换为词汇表中的索引（Index）：

输入序列 (Input Indices):
- $w_{t-3} = \text{'<s>'} \rightarrow \text{Index: } \mathbf{1}$
- $w_{t-2} = \text{'<s>'} \rightarrow \text{Index: } \mathbf{1}$
- $w_{t-1} = \text{'<s>'} \rightarrow \text{Index: } \mathbf{1}$
- $\text{Input Vector Indices} = [1, 1, 1]$
目标标签 (Target Label):
- $w_t = \text{'我'} \rightarrow \text{Index: } \mathbf{2}$
- 这是我们在计算损失函数时需要的“标准答案”（Ground Truth）。

4.2 前向传播

4.2.1 向量拼接

x = \begin{bmatrix} c(w_1) \ c(w_2) \ c(w_3) \end{bmatrix} = \begin{bmatrix} 0.05 & -0.06 & 0.03 & 0.05 & -0.06 & 0.03 & 0.05 & -0.06 & 0.03 \end{bmatrix}^T \label{eq:x-concat}

其中词向量来自 $\eqref{eq:C-init}$

4.2.2 隐藏层计算

计算 $z^{(h)} = W^{(h)}x + b^{(h)}$ （其中 $W^{(h)}$ 见 $\eqref{eq:Wh}$ ， $x$ 见 $\eqref{eq:x-concat}$ ）， $z^{(h)} \in \mathbb{R}^4$ :

z^{(h)}_1 = 0.01\cdot 0.05 + (-0.02)\cdot(-0.06) + 0.03\cdot 0.03 + (-0.04)\cdot 0.05 + 0.05\cdot(-0.06) + (-0.06)\cdot 0.03 + 0.07\cdot 0.05 + (-0.08)\cdot(-0.06) + 0.09\cdot 0.03 + 0.0 = 0.0068

。。。。

以此类推

因此:

z^{(h)} = \begin{bmatrix} 0.0068 \ -0.0068 \ 0.0055 \ -0.0055 \end{bmatrix} \label{eq:zh}

应用 $\tanh$ 激活函数（使用 $\tanh(x) \approx x$ 当 $x$ 很小时）:

h = \tanh(z^{(h)}) = \begin{bmatrix} \tanh(0.0068) \\ \tanh(-0.0068) \\ \tanh(0.0055) \\ \tanh(-0.0055) \end{bmatrix} \approx \begin{bmatrix} 0.0068 \\ -0.0068 \\ 0.0055 \\ -0.0055 \end{bmatrix} \label{eq:h}

洞见

4.2.4 输出层计算

计算 $y = W^{(y)}h + b^{(y)}$ （其中 $W^{(y)}$ 见 $\eqref{eq:Wy}$ ， $h$ 见 $\eqref{eq:h}$ ）， $y \in \mathbb{R}^{11}$ :

y_1 = W^{(y)}_{1,:} \cdot h = 0.01 \times 0.0068 + (-0.02) \times (-0.0068) + 0.03 \times 0.0055 + (-0.04) \times (-0.0055) + 0.0 \$= 0.000068 + 0.000136 + 0.000165 + 0.000220 = 0.000589

。。。。

y_{11} = W^{(y)}_{11,:} \cdot h = (-0.02) \times 0.0068 + 0.03 \times (-0.0068) + (-0.04) \times 0.0055 + 0.05 \times (-0.0055) + 0.0$ = -0.000136 - 0.000204 - 0.000220 - 0.000275 = -0.000835\$

因此：

y = \begin{bmatrix} 0.000589 & 0.000835 & 0.001081 & 0.001327 & 0.001573 & 0.001819 & 0.001570 & 0.001321 & 0.000955 & -0.000589 & -0.000835 \end{bmatrix}^T \label{eq:y-output}

4.3 损失计算：从分值到偏差（Softmax-Entropy）

在神经网络的前向传播末端，模型输出的是一组未归一化的原始分值（Logits）。为了评估模型表现并启动反向传播，我们需要将这些分值转化为概率，并计算其与真实标签之间的距离。

1.Softmax概率转换

计算 softmax: $P(w_i) = \frac{e^{y_i}}{\sum_{j=1}^{11} e^{y_j}}$ ，其中 $y$ 来自 $\eqref{eq:y-output}$ 。

首先计算 $e^{y_i}$ :

$e^{y_1} = e^{0.000589} \approx 1.000589$
$e^{y_2} = e^{0.000835} \approx 1.000835$
。。。。
$e^{y_{11}} = e^{-0.000835} \approx 0.999165$

分母:

\sum_{j=1}^{11} e^{y_j} = 1.000589 + 1.000835 + 1.001082 + 1.001328 + 1.001574 + 1.001821 + 1.001571 + 1.001322 + 1.000955 + 0.999411 + 0.999165 = 11.009653

概率分布:

$P(w_1) = P(\text{'<s>'}) = \frac{1.000589}{11.009653} = 0.09088$
$P(w_2) = P(\text{'我'}) = \frac{1.000835}{11.009653} = 0.09090$
。。。。
$P(w_{11}) = P(\text{'</s>'}) = \frac{0.999165}{11.009653} = 0.09076$

因此，预测分布为:

P = \begin{bmatrix} 0.09088 & 0.09090 & 0.09093 & 0.09095 & 0.09097 & 0.09099 & 0.09097 & 0.09095 & 0.09091 & 0.09078 & 0.09076 \end{bmatrix}^T \label{eq:P-dist}

这里的 $P$ 向量计算的是：在当前上下文窗口（<s>, <s>, <s>）条件下，词汇表中每一个词成为“下一个词”的条件概率。

2. 距离衡量：交叉熵损失（Cross-Entropy）

数学定义：

对于单标签分类任务（目标类索引为 $t$ ），交叉熵损失衡量了预测概率分布 $P$ 与真实分布（One-hot 编码）的差异：

\mathcal{L} = -\log(P_t) \label{eq:loss-def}

我们可以从以下三个视角来理解为什么要取对数：
信息论视角：衡量“意外感”
在信息论中，一个事件发生的概率越低，它包含的信息量（Information Content）就越大。
数学定义：信息量 $I(x) = -\log(P(x))$ 。
逻辑：
如果你预测一个概率为 $0.99$ 的事件发生，这很正常，信息量几乎为 0。
如果你预测一个概率为 $0.01$ 的事件发生（即你之前的预测完全错了），这非常令人“意外”，信息量极大。
交叉熵的本质：它是用模型预测的分布去表达真实分布时，所产生的平均意外感。取对数就是为了把概率转换成这种可以相加的“意外分值”。v
统计学视角：最大似然估计（MLE）
在训练模型时，我们的目标是让模型预测出正确标签的概率最大化。
假设正确类别的概率是 $P_t$ ，我们希望 $P_t$ 越大越好。
乘法难题：如果我们有多个样本，总概率是 $P_{total} = P_1 \times P_2 \times \dots \times P_n$ 。
对数的妙用：由于概率都在 $(0, 1)$ 之间，连乘会导致数值迅速变小（趋近于 0），计算机无法处理。
转换：对总概率取对数 $\log(P_{total}) = \log(P_1) + \log(P_2) + \dots + \log(P_n)$ 。
连乘变连加：计算变得稳定。
求导变简单： $\log(x)$ 的导数是 $1/x$ ，在反向传播时非常优雅。
优化视角：消除梯度消失
为什么不直接用“距离” $(1 - P_t)$ 而是用 $-\log(P_t)$ ？
如果不取对数：直接使用均方误差（MSE），梯度会包含激活函数（如 Sigmoid/Softmax）的导数。当预测值接近 0 或 1 时，这些激活函数进入“饱和区”，导数极小，导致模型“学不动了”。
取对数后： $-\log(P_t)$ 的增长速度在 $P_t \to 0$ 时极快。
当模型错得离谱时，对数函数会提供一个巨大的梯度，强制模型快速修正。
正如我们之前推导的，Softmax 和对数（交叉熵）结合后，导数简化为了 $P - Label$ ，彻底抵消了激活函数带来的梯度变小问题。
“取对数的操作将概率空间的乘法转换成了能量空间的加法。它不仅符合信息论中对‘意外感’的量化，更在工程上提供了一个永不枯竭的梯度源泉，确保模型在预测错误时能得到足够强的修正信号。”

由于目标词是 $\text{'我'}$ （索引2），根据 $\eqref{eq:loss-def}$ 使用交叉熵损失，其中 $P(w_2)$ 来自 $\eqref{eq:P-dist}$ ：

\mathcal{L} = -\log P(w_2) = -\log(0.09090) = 2.3985 \label{eq:loss}

物理含义：

交叉熵本质上是在衡量“信息意外感”。如果模型对正确类别的预测概率越低，损失值就越趋向于无穷大，从而给予模型强烈的反馈。

3. 联合梯度推导（核心逻辑）

这是神经网络能够高效学习的数学基石。虽然 Softmax 和交叉熵各自的求导较为复杂，但当它们组合在一起时，损失 $\mathcal{L}$ 对原始输出 $y_i$ 的偏导数会产生惊人的简化：

\begin{aligned} \frac{\partial \mathcal{L}}{\partial y_i} &= \frac{\partial (-\ln P_t)}{\partial y_i} = -\frac{1}{P_t} \cdot \frac{\partial P_t}{\partial y_i} \\ &= -\frac{1}{P_t} \cdot \frac{\partial}{\partial y_i} \left( \frac{e^{y_t}}{\sum_{j} e^{y_j}} \right) \\ &= \begin{cases} -\frac{1}{P_t} \cdot \frac{e^{y_t} \sum e^{y_j} - (e^{y_t})^2}{(\sum e^{y_j})^2} = -\frac{1}{P_t} \cdot (P_t - P_t^2) = P_t - 1, & \text{if } i = t \\ -\frac{1}{P_t} \cdot \frac{0 - e^{y_t} e^{y_i}}{(\sum e^{y_j})^2} = -\frac{1}{P_t} \cdot (-P_t P_i) = P_i, & \text{if } i \neq t \end{cases} \\ &= P_i - \mathbb{1}(i = t) \end{aligned} \label{eq:grad-y-derivation}

💡 关键洞见： $t$ 是什么？`？
说明： $t$ 代表 Target（真实标签）的索引
如 “我”（i = 2）后面应该出现的正确的词是“喜欢”(i=3)或者“讨厌”(i=8)，即在做数据标注时，正确集应该是[2,3],[2,8]
在损失计算的过程中，，以预测“我”后面的词举例；对于i = 3或8，公式就变成了 $P_t - 1$ 。这意味着模型预测的概率 $P_t$ 本应该接近 1，但如果它只有 0.9，那么梯度就是 $0.9 - 1 = -0.1$ 。这个负号告诉模型：“你猜低了，赶紧把分数加上去。”

4. 作用与深度直觉

误差信号源：这个简洁的 $P - Label$ 构成了整个反向传播的起始信号。它直观地告诉网络：预测高了就减小权重，预测低了就增加权重。
消除饱和死区：单独的 Sigmoid 在值很大时导数趋于 0（梯度消失），但 Softmax 配合交叉熵后，导数形式中不再含有会导致消失的微小乘积项，只要有偏差，梯度就足够强，保证了深层网络也能快速收敛。

💡 洞见：
权重 $W$ 和偏置 $b$ 是模型的可学习参数 (Learnable Parameters)，构成了模型的假设空间；而 Loss 是衡量模型预测分布 $P(y|x)$ 与真实分布（Label）之间差异的标量度量 (Scalar Metric)。它是参数优化的目标函数，而非模型结构的一部分。
在监督学习框架下，Loss 仅在输出层计算。这是因为训练数据只提供了观测变量 (Observable Variables) $y$ 的真实标签（Ground Truth），而隐藏层属于潜变量 (Latent Variables)，缺乏显式的监督信号。因此，必须通过计算输出层的残差，才能构建起优化的起点。
Loss 的核心作用是为反向传播提供全局梯度信号。它定义了优化图谱（Optimization Landscape）的形状。通过链式法则，Loss 将输出空间的误差 (Error) 转化为参数空间的梯度 (Gradient) $\nabla_\theta \mathcal{L}$ ，从而指导随机初始化的参数向损失最小化的方向收敛。

关键转折：从“构建网络”走向“校准网络”

在 4.4 节之前，我们实际上只完成了“构建”工作：我们搭建了神经网络的数学骨架，并用随机数填充了它。此时的模型虽然能运行，但在本质上只是一个“只会输出随机噪声的机器”，它与真实语料库之间存在巨大的偏差（即 Loss）。

从 4.4 节开始，我们将进入“校准（拟合）”阶段。我们不再关注网络结构本身，而是聚焦于消除偏差。通过反向传播，我们将利用算出的误差去倒推每一个参数的责任，并强制修正它们。 如果说前向传播是模型在“表达”它当前的随机状态，那么反向传播就是语料库在“纠正”模型的错误认知。 这就是神经网络从“随机初始化”收敛到“数据规律”的过程。

4.4 反向传播（Backpropagation）：误差的归因分析

计算梯度的唯一目的就是告诉模型如何调整参数，让损失变小。

在训练神经网络时，我们使用梯度下降法来更新参数：

W^{(y)}_{\text{new}} = W^{(y)}_{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial W^{(y)}}

b^{(y)}_{\text{new}} = b^{(y)}_{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial b^{(y)}}

其中：

$\eta$ 是学习率（步长）
$\frac{\partial \mathcal{L}}{\partial W^{(y)}}$ 告诉我们：如果改变 $W^{(y)}$ ，损失会如何变化
$\frac{\partial \mathcal{L}}{\partial b^{(y)}}$ 告诉我们：如果改变 $b^{(y)}$ ，损失会如何变化

如果说前向传播是“预测”，那么反向传播就是“复盘”。它利用链式法则（Chain Rule），将输出层的总损失（Loss）按照路径反向拆解，计算出每一个权重 $w$ 和偏置 $b$ 对最终误差的贡献度（即梯度）。

数学表述：

对于每一层，我们需要计算：

\frac{\partial Loss}{\partial w} = \frac{\partial Loss}{\partial \text{激活输出}} \times \frac{\partial \text{激活输出}}{\partial \text{线性输入}} \times \frac{\partial \text{线性输入}}{\partial w}

中间项正是你之前推导过的激活函数导数（如 $\sigma'(x)$ 或 $1-\tanh^2(x)$ ）。这解释了为什么激活函数必须处处可导。

梯度下降具体计算过程

1.首先计算 $\frac{\partial \mathcal{L}}{\partial y}$ （见 $\eqref{eq:grad-y-derivation}$ ）:

\frac{\partial \mathcal{L}}{\partial y_i} = P(w_i) - \mathbb{1}!\bigl(i = \text{index}(\text{target})\bigr) \\ \text{其中 } \mathbb{1}(\cdot) \text{ 是指示函数，当条件为真时为 1，否则为 0。}

因此:

$\frac{\partial \mathcal{L}}{\partial y_1} = 0.09088 - 0 = 0.09088$
$\frac{\partial \mathcal{L}}{\partial y_2} = 0.09090 - 1 = -0.90910$
。。。
$\frac{\partial \mathcal{L}}{\partial y_{11}} = 0.09076 - 0 = 0.09076$

即：

\frac{\partial \mathcal{L}}{\partial y} = \begin{bmatrix} 0.09088 & -0.90910 & 0.09093 & 0.09095 & 0.09097 & 0.09099 & 0.09097 & 0.09095 & 0.09091 & 0.09078 & 0.09076 \end{bmatrix}^T \label{eq:grad-y}

2.计算 $\frac{\partial \mathcal{L}}{\partial W^{(y)}}$ ：

\frac{\partial \mathcal{L}}{\partial W^{(y)}} = \frac{\partial \mathcal{L}}{\partial y} \cdot \frac{\partial y}{\partial W^{(y)}} \quad \text{（链式法则）} \\ \text{由于 } y = W^{(y)}h + b^{(y)} \text{，对于 } W^{(y)} \text{ 的第 } i \text{ 行第 } j \text{ 列元素 } W^{(y)}_{i,j}： \\ \frac{\partial y_i}{\partial W^{(y)}_{i,j}} = h_j, \quad \frac{\partial \mathcal{L}}{\partial W^{(y)}_{i,j}} = \frac{\partial \mathcal{L}}{\partial y_i} \cdot h_j \\ \text{写成矩阵形式：} \quad \frac{\partial \mathcal{L}}{\partial W^{(y)}} = \frac{\partial \mathcal{L}}{\partial y} \cdot h^T\\ 其中 h 来自 \eqref{eq:h}，是被激活函数处理的隐藏层向量

因此：

\frac{\partial \mathcal{L}}{\partial W^{(y)}} = \begin{bmatrix} 0.09088 \ -0.90910 \ 0.09093 \ 0.09095 \ 0.09097 \ 0.09099 \ 0.09097 \ 0.09095 \ 0.09091 \ 0.09078 \ 0.09076 \end{bmatrix} \times \begin{bmatrix} 0.0068 & -0.0068 & 0.0055 & -0.0055 \end{bmatrix} =\begin{bmatrix} 0.000618 & -0.000618 & 0.000500 & -0.000500 \\ -0.006182 & 0.006182 & -0.005000 & 0.005000 \\ 0.000618 & -0.000618 & 0.000500 & -0.000500 \\ 0.000618 & -0.000618 & 0.000500 & -0.000500 \\ 0.000619 & -0.000619 & 0.000500 & -0.000500 \\ 0.000619 & -0.000619 & 0.000500 & -0.000500 \\ 0.000619 & -0.000619 & 0.000500 & -0.000500 \\ 0.000618 & -0.000618 & 0.000500 & -0.000500 \\ 0.000618 & -0.000618 & 0.000500 & -0.000500 \\ 0.000617 & -0.000617 & 0.000500 & -0.000500 \\ 0.000617 & -0.000617 & 0.000500 & -0.000500 \end{bmatrix}

计算$ \frac{\partial \mathcal{L}}{\partial b^{(y)}}$ ：

由于 $y = W^{(y)}h + b^{(y)}$ ，对于偏置向量 $b^{(y)}$ 的第 $i$ 个元素 $b^{(y)}_i$ ：

\frac{\partial y_i}{\partial b^{(y)}_i} = 1

因此：

\frac{\partial \mathcal{L}}{\partial b^{(y)}_i} = \frac{\partial \mathcal{L}}{\partial y_i} \cdot 1 = \frac{\partial \mathcal{L}}{\partial y_i}

写成向量形式：

\frac{\partial \mathcal{L}}{\partial b^{(y)}} = \frac{\partial \mathcal{L}}{\partial y}

数值计算：

\frac{\partial \mathcal{L}}{\partial b^{(y)}} = \begin{bmatrix} 0.09088 & -0.90910 & 0.09093 & 0.09095 & 0.09097 & 0.09099 & 0.09097 & 0.09095 & 0.09091 & 0.09078 & 0.09076 \end{bmatrix}^T

4.4.2 隐藏层梯度的反向传播

有了输出层的误差梯度后，我们接下来的任务是将这个误差“传回”给隐藏层。这就好比我们知道了最终结果偏离了多少，现在要问责中间的计算单元（隐藏层神经元）：“你们当初输出了什么，才导致最终结果错成这样？”

数学上，这通过计算损失函数 $\mathcal{L}$ 对隐藏层输出 $h$ 的偏导数来实现。简单来说，就是把误差 $\frac{\partial \mathcal{L}}{\partial y}$ 通过权重矩阵 $W^{(y)}$ 反向加权求和。

1. 计算过程

我们需要计算 $\frac{\partial \mathcal{L}}{\partial h} = (W^{(y)})^T \cdot \frac{\partial \mathcal{L}}{\partial y}$ 。

以隐藏层第一个神经元 $h_1$ 为例，它的梯度是所有输出层节点梯度的加权和：

\frac{\partial \mathcal{L}}{\partial h_1} = \sum_{j=1}^{11} W^{(y)}_{j,1} \cdot \frac{\partial \mathcal{L}}{\partial y_j}

我们可以展开第一项 $h_1$ 的具体计算过程，以看清误差是如何被加权求和的：

\begin{aligned} \frac{\partial \mathcal{L}}{\partial h_1} &= \underbrace{0.01 \times 0.09088}_{W^{(y)}_{1,1} \cdot P_1} \\ &+ \underbrace{\mathbf{0.02} \times (\mathbf{0.09090 - 1})}_{W^{(y)}_{2,1} \cdot (P_2 - 1) \quad \leftarrow \textbf{目标词Contribution}} \\ &+ \underbrace{0.03 \times 0.09093}_{W^{(y)}_{3,1} \cdot P_3} \\ &+ \dots \text{(其余8项)} \\ &\approx 0.0009 + (\mathbf{-0.01818}) + 0.0027 + \dots \\ &\approx \mathbf{0.0177} \end{aligned}

注意： 这里不能简单地将误差加和后再乘一个权重，而是每一项误差都要乘以其对应的权重（如 0.01, 0.02, 0.03...）。正是因为目标词对应的权重是 0.02，而其他词的权重各不相同（甚至有负数），才共同作用产生了最终的梯度。

代入精确数值计算，我们得到隐藏层四个神经元的误差梯度：

\frac{\partial \mathcal{L}}{\partial h} \approx \begin{bmatrix} 0.0177 \ -0.0063 \ -0.0054 \ 0.0169 \end{bmatrix}

2. 通过 tanh 激活函数层

现在的梯度还在 $h$ （激活后的值）上，我们要穿过 tanh 函数，找到 $z^{(h)}$ （激活前的值）的梯度。因为我们之前计算过 $z^{(h)}$ 的值非常小（接近 0），而 $\tanh$ 函数在 0 附近的导数 $1 - \tanh^2(x)$ 几乎等于 1。

因此，穿过激活函数后，梯度数值几乎保持不变：

\frac{\partial \mathcal{L}}{\partial z^{(h)}} \approx \frac{\partial \mathcal{L}}{\partial h} = \begin{bmatrix} 0.0177 \ -0.0063 \ -0.0054 \ 0.0169 \end{bmatrix}

3. 更新隐藏层权重

现在我们知道了隐藏层应该如何调整输出（ $\frac{\partial \mathcal{L}}{\partial z^{(h)}}$ ），就可以结合当时的输入（拼接后的词向量 $x$ ），计算出隐藏层权重 $W^{(h)}$ 需要调整的方向。例如对于 $W^{(h)}_{1,1}$ ，其梯度约为 $0.0177 \times 0.05 \approx 0.00088$ 。

4.4.3 词向量梯度的反向传播

最后一步，也是最神奇的一步：误差继续传播，直达输入的词向量。

我们现在的目标是算出 $\frac{\partial \mathcal{L}}{\partial x}$ 。这意味着我们要问：“输入的词向量要怎么改，才能让预测更准？” 这正是 Word2Vec 等技术的核心——让词向量在训练中自己学会“移动”到有意义的位置。

1. 计算过程

计算方法是将误差通过隐藏层权重矩阵 $W^{(h)}$ 再反向投射回去： $\frac{\partial \mathcal{L}}{\partial x} = (W^{(h)})^T \cdot \frac{\partial \mathcal{L}}{\partial z^{(h)}}$ 。

以输入向量的第一个分量 $x_1$ 为例（该分量对应第一个 <s> 的第一个维度）：

\frac{\partial \mathcal{L}}{\partial x_1} = \sum_{k=1}^{4} W^{(h)}_{k,1} \cdot \frac{\partial \mathcal{L}}{\partial z^{(h)}_k}

代入 $W^{(h)}$ 的第一列 $[0.01, -0.01, 0.02, -0.02]$ 和上面的梯度值：

\approx 0.01(0.0177) - 0.01(-0.0063) + 0.02(-0.0054) - 0.02(0.0169) \approx 0.000177 + 0.000063 - 0.000108 - 0.000338 \approx -0.000206

以此类推，我们可以算出完整的 9 维输入梯度 $\frac{\partial \mathcal{L}}{\partial x}$ 。

2. 词向量的累积更新

注意，我们的输入 $x$ 实际上是由三个相同的词 <s> 拼接而成的。因此，<s> 这个词向量在本次训练中的总误差，应该是这三个位置梯度的累加。

\frac{\partial \mathcal{L}}{\partial c(\text{'<s>'})} = \underbrace{\frac{\partial \mathcal{L}}{\partial x}_{1:3}}_{\text{位置1梯度}} + \underbrace{\frac{\partial \mathcal{L}}{\partial x}_{4:6}}_{\text{位置2梯度}} + \underbrace{\frac{\partial \mathcal{L}}{\partial x}_{7:9}}_{\text{位置3梯度}}

最终，我们使用这个累加后的梯度来更新 <s> 的词向量：

c(\text{'<s>'})^{\text{new}} = c(\text{'<s>'})^{\text{old}} - \eta \cdot \frac{\partial \mathcal{L}}{\partial c(\text{'<s>'})}

通过无数次这样的微调，原本随机初始化的 <s> 向量就会慢慢变成一个真正能代表“句首”含义的数学向量。

4.5 参数更新

根据计算出的梯度，我们使用学习率 $\eta = 0.1$ 更新模型参数（SGD 步骤）。

1. 输出层权重更新 ( $W^{(y)}$ )

公式： $W^{(y)} \leftarrow W^{(y)} - \eta \frac{\partial \mathcal{L}}{\partial W^{(y)}}$

以连接 $h_1$ 到输出目标“我”( $y_2$ ) 的权重 $W^{(y)}_{2,1}$ 为例：

梯度计算： $\frac{\partial \mathcal{L}}{\partial W^{(y)}_{2,1}} = \frac{\partial \mathcal{L}}{\partial y_2} \cdot h_1 \approx (-0.9091) \cdot 0.0068 \approx -0.00618$

更新步：

W^{(y)\text{new}}_{2,1} = 0.02 - 0.1 \times (-0.00618) = 0.02 + 0.000618 = 0.020618

直观意义：因为 $h_1$ 是正数 ( $0.0068$ )，且我们需要提高“我”的概率（即提高 $y_2$ ），所以权重应该变大。

2. 词向量更新 ( $C$ )

公式： $C \leftarrow C - \eta \frac{\partial \mathcal{L}}{\partial C}$

以 <s> 的第一个维度为例（累积了三个位置的梯度）：

梯度计算： $\frac{\partial \mathcal{L}}{\partial c(\text{'<s>'})_1} \approx -0.000155$ （数值非常小，因为初始权重还是随机且相互抵消的）

更新步：

c(\text{'<s>'})^{\text{new}}_1 = 0.05 - 0.1 \times (-0.000155) = 0.05 + 0.0000155 = 0.0500155

直观意义：虽然变化微小，但经过在海量数据上的无数次迭代，这些微小的推动力汇聚起来，最终会将 <s> 推向向量空间中正确的位置。

3. 更新后的参数全貌

经过这一轮反向传播，我们的模型参数发生了如下微小的物理变化（保留6位小数）：

更新后的 词向量矩阵 $C^{\text{new}}$ （仅第一行 <s> 被修正了）：

C^{\text{new}} = \begin{bmatrix} 0.050015 & -0.060013 & 0.029807 \\ -0.080000 & 0.070000 & -0.040000 \\ 0.030000 & -0.020000 & 0.090000 \\ -0.070000 & 0.080000 & -0.050000 \\ 0.020000 & -0.030000 & 0.070000 \\ -0.040000 & 0.050000 & -0.060000 \\ 0.060000 & -0.070000 & 0.020000 \\ -0.090000 & 0.040000 & -0.030000 \\ 0.010000 & -0.010000 & 0.080000 \\ -0.050000 & 0.090000 & -0.070000 \\ 0.040000 & -0.020000 & 0.010000 \\ \end{bmatrix}

更新后的 隐藏层权重 $W^{(h)\text{new}}$ ：

W^{(h)\text{new}} = \begin{bmatrix} 0.009909 & -0.019891 & 0.029945 & -0.040091 & 0.050109 & -0.060055 & 0.069909 & -0.079891 & 0.089945 \\ -0.009968 & 0.019962 & -0.029981 & 0.040032 & -0.050038 & 0.060019 & -0.069968 & 0.079962 & -0.089981 \\ 0.020027 & -0.030033 & 0.040016 & -0.049973 & 0.059967 & -0.069984 & 0.080027 & -0.090033 & 0.010016 \\ -0.020086 & 0.030103 & -0.040052 & 0.049914 & -0.059897 & 0.069948 & -0.080086 & 0.090103 & -0.010052 \\ \end{bmatrix}

更新后的 输出层权重 $W^{(y)\text{new}}$ （注意第二行目标词权重的显著提升）：

W^{(y)\text{new}} = \begin{bmatrix} 0.009938 & -0.019938 & 0.029950 & -0.039950 \\ \mathbf{0.020618} & \mathbf{-0.030618} & \mathbf{0.040500} & \mathbf{-0.050500} \\ 0.029938 & -0.039938 & 0.049950 & -0.059950 \\ 0.039938 & -0.049938 & 0.059950 & -0.069950 \\ 0.049938 & -0.059938 & 0.069950 & -0.079950 \\ 0.059938 & -0.069938 & 0.079950 & -0.089950 \\ 0.069938 & -0.079938 & 0.089950 & -0.009950 \\ 0.079938 & -0.089938 & 0.009950 & -0.019950 \\ 0.089938 & -0.009938 & 0.019950 & -0.029950 \\ -0.010062 & 0.020062 & -0.030050 & 0.040050 \\ -0.020062 & 0.030062 & -0.040050 & 0.050050 \\ \end{bmatrix}

💡 总结
可以看到，为了让模型更倾向于预测“我”，与“我”相关的输出层连接权重（第二行）得到了最显著的增强（约 +0.0006），而底层的词向量 <s> 仅发生了极为微小的位移（约 +0.000015）。这符合深度学习的规律：越靠近输出层，梯度信号越强，调整越剧烈；越靠近底层，信号越微弱，需要依靠海量数据的长期浸泡才能发生质变。

NPLM实例详解：以"我 喜欢 机器 学习"为例

NPLM实例详解：以"我喜欢机器学习"为例