На Reddit подсказали, что для ускорения домашней текстовой нейронки надо чуть уменьшить загрузку видеокарты.
Обстоятельства:
1. нейронка уже не влазит целиком в видеопамять (все что толще 18 гигабайт как файл)
2. пользователь может задавать загрузку видеокарты (количество слоев нейронки, запущенных в нее).
3. Нейронка сильно задумывается - до 10 минут - до выдачи первого символа.
Так вот, чтобы она не задумывалась по 10 минут, на 24 гигабайтах видеопамяти надо уменьшить число слоев нейронки, заливаемых в видеопамять, с 64 до 52. Цифры даны для размера контекста 4096 токенов. Чем больше контекст, тем больше проблемы на любительском оборудовании.
Вывод: эти слои - они без учета контекстного окна. На контекст нужно еще дополнительно выделать видеопамять. Странно даже, что в софте не стоят галочки или хотя бы предупреждения (речь идет о софте, призванном ускорять и упрощать запуск нейронок, так что претензия оправдана)
Результат:
- нейронка типа Commander R+ наконец-то стала давать текст всего после 8-10 секундной паузы. Пусть со скоростью 2-3 токена в секунду, но она и раньше так давала. Самой мучительной была жуткая пауза до первого символа, которая доходила до 10 минут.
Итак, с приемлемыми условиями и практически в режиме реального чата на RTX4090 можно запускать
- Commander R+
- Llama 3 70b
Обе версии с сильной квантизацией. 2-3 токена в секунду - это на самом деле очень медленно. И на вывод текста в 2000 знаков у Llama 3 70b с 40 гигабайтным файлом модели вчера ушло почти полчаса. Я успел в магазин сходить и вернуться, а она все писала и писала.
У
Llama 3 70b есть квантизованная версия которая весит всего 21 гигабайт - и она почти полностью входит в память видеокарты, хотя мой текущий софт -
LM Studio - и воет, что она не полностью.
Вот эта последняя версия дает 20-30 токенов в секунду, и единственное, что порой мучало, это нелепая пауза до 10 минут на контексте 8000. Но теперь это перестало быть проблемой.