LayerNorm
LayerNorm(Layer Normalization)
对每个样本的最后一个维度(通常是 hidden_size)进行归一化,计算公式如下:
对于输入 $x \in \mathbb{R}^H$($H$ 是 hidden_size):
1. 计算均值和方差
$$
\mu = \frac{1}{H} \sum_{i=1}^H x_i
$$
$$
\sigma^2 = \frac{1}{H} \sum_{i=1}^H (x_i - \mu)^2
$$
2. 归一化
$$
\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}}
$$
3. 缩放和平移
$$
y_i = \gamma_i \cdot \hat{x}_i + \beta_i
$$
其中:
- $\epsilon$ 是防止除零的小常数
- $\gamma$ 和 $\beta$ 是可学习的参数(与
hidden_size同维度)
|
|
Linked Mentions
-
No backlinks found.