提高收敛速度。
Batch Normalization
批量归一化 (Batch Normalization),对于一个DNN,第 层的净输入为 经过仿射变换 (Affine Transformation) ,激活函数 ,
In practice,BN before Affine Transformation, after activation function. 对一个中间层的单个神经元进行归一化,使用 Standardization 将净输入
Layer Normalization
层归一化 (Layer Normalization) 对一个中间层的所有神经元进行归一化, 在RNN中,净输入 由于会累加前一时刻的状态,会随着时间慢慢变大或变小,从而导致梯度爆炸或者消失,LN可以缓解。
个样本的 mini-batch ,其中每个样本的特征向量用列向量表示,BN 是对矩阵的 的每一行进行归一化,LN是对矩阵的每一列进行归一化。
Weight Normalization
不对净输入进行归一化,对权重进行归一化。