https://arxiv.org/pdf/2106.16225 - ранг Гессиана (Hessian) нейросетей много меньше количества параметров. Причём в статье выводится точная формула ранга.
Из интересных спецэффектов обнаружено большое количество одинаковых собственных значений.
Ещё там указывается, что улучшение обобщения за счёт увеличения ширины слоёв или глубины сети непосредственно связано с уменьшением отношения ранга к числу параметров.
Собственных мыслей у меня по этому поводу мало.
На stackoverflow увидел интересное соображение про нейросети: для любых двух значений в каком-то скрытом слое мы можем переставить вектора их вычислений и их коэффициенты в вычислениях, поэтому количество минимумов для нейросети может быть (для современных моделей) практически сколь угодно большим, даже если функция потерь выпукла.
Если я правильно понял, в статье рассматривается Гессиан функции потерь по выборке (популяции). То есть, речь идёт не о Гессиане одной пары, а о сумме Гессианов.
В общем, огорчительно это. ;)