隠れ層(中間層)の活性化関数において、シグモイド関数ではなくReLUを使用するのか?
モデルの学習の最中に、誤差関数の勾配が0になってしまう問題を、勾配消失問題と呼びます。 シグモイド関数の微分では最大値が0.25であるため、勾配消失問題が発生していた。その点、ReLUの微分では最大値は1.0になるため、勾配消失を防ぐことができる。