Гессиан: thesz

thesz

Гессиан

Jan 06, 2025 17:01

https://arxiv.org/pdf/2106.16225 - ранг Гессиана (Hessian) нейросетей много меньше количества параметров. Причём в статье выводится точная формула ранга.

Из интересных спецэффектов обнаружено большое количество одинаковых собственных значений.

Ещё там указывается, что улучшение обобщения за счёт увеличения ширины слоёв или глубины сети непосредственно связано с уменьшением отношения ранга к числу параметров.

Собственных мыслей у меня по этому поводу мало.

На stackoverflow увидел интересное соображение про нейросети: для любых двух значений в каком-то скрытом слое мы можем переставить вектора их вычислений и их коэффициенты в вычислениях, поэтому количество минимумов для нейросети может быть (для современных моделей) практически сколь угодно большим, даже если функция потерь выпукла.

Если я правильно понял, в статье рассматривается Гессиан функции потерь по выборке (популяции). То есть, речь идёт не о Гессиане одной пары, а о сумме Гессианов.

В общем, огорчительно это. ;)

нейронные сети, оптимизация