Dec 31, 2023 10:16
Я предсказал, что большие ЛЛМ резко подешевеют, а ЛЛМ влезающие в графическую карту будут в 10 раз быстрее.
Большие ЛЛМ дешевеют понемногу. Но гонять миллионы токенов пока накладно, даже с Антропиком.
Кроме того, Гугл выложил бесплатный API, и там даже доступен gemini pro.
Есть и другие бесплатные API. Но троттлинг не позволит гонять миллионы токенов.
А что с offline ЛЛМ?
Сначала после Лламы вышел Мистраль, а потом - DeciLM.
Мистраль заметно быстрее Лламы, а DeciLM - заметно быстрее Мистраля. Но не в 10 раз.
Не верьте рекламе DeciLM про 4.4x быстрее Мистраля. Он-то может и быстрее, но с библиотекой Infery LLM, из которого доступны, похоже, только документация и примеры.
Offline LLM на пользовательской графической карте уже работают очень быстро, особенно с квантизацией, но на миллион токенов нужны минуты. Что, впрочем, может быть и приемлимо.
Чего не случилось: Не раскрутился retnet. Я не понимаю почему. Я вижу, что с ним экспериментируют, но серьёзных моделей никто не тренирует.