Günter Klambauer, Thomas Unterthiner, Andreas Mayr, and Sepp Hochreiter,
Self-Normalizing Neural Networks, arXiv:1706.02515 [cs.LG].
使用 Banach fixed point theorem f
(x) = x 證明
,讓每一層的訊號平均值為 0
、標準差為 1
,避免 梯度消失/爆炸問題 (Vanishing/Exploding Gradients Problems)
,可以訓練深度的神經網路
。
沒有留言:
張貼留言