Ускорение локальных нейронок с помощью параметров: kvisaz

kvisaz

Ускорение локальных нейронок с помощью параметров

May 06, 2024 15:53

На Reddit подсказали, что для ускорения домашней текстовой нейронки надо чуть уменьшить загрузку видеокарты.

Обстоятельства:
1. нейронка уже не влазит целиком в видеопамять (все что толще 18 гигабайт как файл)
2. пользователь может задавать загрузку видеокарты (количество слоев нейронки, запущенных в нее).
3. Нейронка сильно задумывается - до 10 минут - до выдачи первого символа.

Так вот, чтобы она не задумывалась по 10 минут, на 24 гигабайтах видеопамяти надо уменьшить число слоев нейронки, заливаемых в видеопамять, с 64 до 52. Цифры даны для размера контекста 4096 токенов. Чем больше контекст, тем больше проблемы на любительском оборудовании.

Вывод: эти слои - они без учета контекстного окна. На контекст нужно еще дополнительно выделать видеопамять. Странно даже, что в софте не стоят галочки или хотя бы предупреждения (речь идет о софте, призванном ускорять и упрощать запуск нейронок, так что претензия оправдана)

Результат:
- нейронка типа Commander R+ наконец-то стала давать текст всего после 8-10 секундной паузы. Пусть со скоростью 2-3 токена в секунду, но она и раньше так давала. Самой мучительной была жуткая пауза до первого символа, которая доходила до 10 минут.

Итак, с приемлемыми условиями и практически в режиме реального чата на RTX4090 можно запускать
- Commander R+
- Llama 3 70b

Обе версии с сильной квантизацией. 2-3 токена в секунду - это на самом деле очень медленно. И на вывод текста в 2000 знаков у Llama 3 70b с 40 гигабайтным файлом модели вчера ушло почти полчаса. Я успел в магазин сходить и вернуться, а она все писала и писала.

У Llama 3 70b есть квантизованная версия которая весит всего 21 гигабайт - и она почти полностью входит в память видеокарты, хотя мой текущий софт - LM Studio - и воет, что она не полностью.

Вот эта последняя версия дает 20-30 токенов в секунду, и единственное, что порой мучало, это нелепая пауза до 10 минут на контексте 8000. Но теперь это перестало быть проблемой.

нейронки