DNNの基礎知識についてのまとめ - Deep Learning 脱初心者めざして

深層ニューラルネットの訓練

今回は、深層ニューラルネットワーク(以下DNN)の問題点を挙げ、その解決法を示します。

勾配降下法による更新では下位層の接続の重みがほとんど変わらず、訓練が良い解に収束しなくなること

逆に勾配がどんどん急になり、多くの層の重みが更新によって膨大になり、アルゴリズムが発散してしまうこと
→ 層によって学習速度が大幅に変わってしまう

信号を適切に流すために、各層の入出力の分散を等しくする必要があり、層を通過する前後の勾配の分散も等しい必要がある

訓練中に前の層のパラメータの変化に伴い、各層の入力分布が変化する問題(内部共変量シフト)に対処するためのテクニック
各層の活性化関数を実行する直前に、入力の0を中心とするセンタリングと正規化を行い、層ごとに二つの新しいパラメータをそれぞれ使ってスケーリングとシフトを行う
→ 各層の入力の最適なスケールと平均をモデルに学習させる

バックプロパゲーションステップでは勾配をクリッピングし、一定の閾値を超えないようにするテクニック
ただ、一般にバッチ正規化の方が主流

既存のNNを探し、そのネットワークの下位層を再利用すること → 時間の大幅短縮、訓練データを減らせる

多くの人が様々なタスクのために機械学習モデルを訓練し、プレトレーニング済みのモデルを一般開放している

それまでの勾配を重視

Momentum最適化の変種元の位置の勾配ではなく、慣性の方向に少し進んだところで測定された勾配を使うことで、正確性が増した

最も急な次元に沿って勾配ベクトルをスケールダウンする
→ パラメータの要素ごとに適応的に学習係数を調整しながら学習を行う手法 - 適応学習率(adaptive learning rate) 傾斜が急な次元では傾斜が緩やかな次元よりも早く学習率を下げる

ただし、学習率が大きく下がるため、全体の最適値に到達する前にアルゴリズムが止まってしまう

Adaの問題点を解決過去の全ての勾配を均一に加算していくのではなく、過去の勾配を徐々に忘れて、新しい勾配の情報が反映されるように加算 → 指数平均移動 : 指数関数的に過去の勾配のスケールを減少させる

MomentumとRMSPropのアイデアの融合
- Momentum 過去の勾配の指数関数的減衰平均を管理
- RMSProp 過去の勾配の二乗の指数関数的減衰平均を管理
ハイパーパラメータ
- 慣性減衰ハイパーパラメータ β1 : 0.9
- スケーリング減衰ハイパーパラメータ β2 : 0.999