В комментарии к
предыдущему посту коллега
p2004r подсказал замечательную мысль по поводу того, что надо бы смотреть не на количество эпох, а на количество градиентов, которые увидела сетка при обучении. И получается вот такая замечательная картина.
1) Смотрим по-старому, динамика обучения в зависимости от числа эпох:
(
Read more... )