Исследователи из Университета Иннополис и МФТИ получили 1 млн рублей за лучшую научную статью в конкурсе AI Journey Science. О победе ученых «Хайтек» сообщила пресс-служба ИТ-вуза.
Статья «Техники сжатия активаций слоев и градиентов для распределенного обучения моделей ИИ» исследователей ИИ из Университета Иннополис и МФТИ - Михаила Рудакова, Александра Безносикова, Ярослава Холодова и Александра Гасникова - признана лучшей научной работой на конференции Sber AI Journey.
Авторы исследования получают приз на конференции AI Journey 2023. Фото: Университет Иннополис
Для обучения современных моделей ИИ, таких, например, как ChatGPT, LLaMA или BLOOM, требуется много вычислительных ресурсов, объясняют исследователи. Поэтому обучение, как правило, проводится на нескольких серверах, между которыми модель делится последовательно с помощью техники параллелизации. Передача данных между устройствами занимает много времени, поэтому для ускорения обучения применяется сжатие. В статье исследователи показали, с какими параметрами сжатия можно эффективно тренировать и применять эти модели.
Мы экспериментируем с разными техниками сжатия активаций слоев нейронных сетей и их градиентов: квантизация, сжатие TopK или «жадное» сжатие, добавляем техники компенсации ошибки. Наши результаты показывают особенности применения сжатия во время обучения, дообучения и применения моделей машинного обучения.
Михаил Рудаков, студент первого курса магистратуры Университета Иннополис и соавтор научной работы
Ученые определили границы применимости сжатия, для которых качество модели соответствует исходному, и выяснили, что можно сжимать передаваемую информацию в 10 раз практически без потери качества модели. Исследователи отмечают, что они одними из первых ставят эксперименты над сжатием информации в задаче распределенного машинного обучения с разделением модели по разным устройствам и исследуют применимость разных техник компенсации ошибки.