К моему предыдущему посту.
Как известно, чем дальше матричное умножение от выходов сети, тем меньше изменений они претерпевают на каждом шаге обучения. Это известная проблема
пропадающего градиентаВ моей исходной формулировке веса были представлены частицами с одинаковой массой (равной единице). Поэтому сеть училась, но долго. А когда я добавил
(
Read more... )