Skip to main content

One post tagged with "Normalization"

View All Tags

· 2 min read
Hu Chen

提高收敛速度。

Batch Normalization

批量归一化 (Batch Normalization),对于一个DNN,第 ll 层的净输入为 z(l)\boldsymbol{z}^{(l)} 经过仿射变换 (Affine Transformation) =Wa(l1)+b=\boldsymbol{W}\boldsymbol{a}^{(l-1)}+\boldsymbol{b},激活函数 f()f(·)

a(l)=f(Wa(l1)+b)\boldsymbol{a}^{(l)}= f(\boldsymbol{W}\boldsymbol{a}^{(l-1)}+\boldsymbol{b})

In practice,BN before Affine Transformation, after activation function. 对一个中间层的单个神经元进行归一化,使用 Standardization 将净输入 zl\boldsymbol{z}^{l}

Layer Normalization

层归一化 (Layer Normalization) 对一个中间层的所有神经元进行归一化, 在RNN中,净输入 zt\boldsymbol{z}_t 由于会累加前一时刻的状态,会随着时间慢慢变大或变小,从而导致梯度爆炸或者消失,LN可以缓解。

KK 个样本的 mini-batch Z(l)=[z(1,l);...;z(K,l)]\boldsymbol{Z}^{(l)}=[\boldsymbol{z}^{(1,l)};...;\boldsymbol{z}^{(K,l)}],其中每个样本的特征向量用列向量表示,BN 是对矩阵的 Z(l)\boldsymbol{Z}^{(l)} 的每一行进行归一化,LN是对矩阵的每一列进行归一化。

Weight Normalization

不对净输入进行归一化,对权重进行归一化。