В комментарии к
предыдущему посту коллега
p2004r подсказал замечательную мысль по поводу того, что надо бы смотреть не на количество эпох, а на количество градиентов, которые увидела сетка при обучении. И получается вот такая замечательная картина.
1) Смотрим по-старому, динамика обучения в зависимости от числа эпох:
2) Теперь то же самое, но в зависимости от количества батчей (масштаб по OX сделан криво, поэтому цена деления такая странная - надо домножать на число сэмплов в обучающем датасете):
То есть начиная с какого-то размера батча (>100 в данном случае) сетка обучается примерно с одинаковым темпом для разных batch_size. Разница только в том, что для каких-то значений обучение обрывается раньше, и максимальная точность не достигается.
Новая тетрадка
выложена в репозиторий.
PS: сделан расчет еще для нескольких batch_size и получился вот такой график максимально достижимой точности: