Aug 29, 2022 01:10
...про нейронные сети.
Adam с его "усредненную скорость поделить на корень квадратный из усреднённого квадрата скоростей" довольно сильно напоминает не только правильное применение диагонального приближения матрицы Фишера, но и преобразования Лоренца. Те, что m=m0/sqrt(1-v^2/c^2).
Я, когда-то, делал оптимизацию второго порядка на основе Лагранжиана, и включение в Лагранжиан покоординатного преобразования Лоренца (массы и ускорения) позволяло получать чуть более устойчивую оценку приближения к минимуму.
В настоящий момент я думаю, а можно ли использовать не покоординатное преобразование Лоренца, а его векторный аналог? Ограничивать сверху скорость изменения всех весов сразу, а не по отдельности каждого.
Надо подумать.
оптимизация