Критерий отбора - гармоничность текстов на русском языке, способность рассуждать вторична.
Обновлено 19 апреля 2024:
- Вышла Llama 3. 8b модель отлично пишет на русском. Всякие опенчаты теперь не нужны.
Для чего можно использовать локальные нейронки, когда есть онлайн гиганты?
Как бесплатные и без цензуры процессоры текста
- для конспектирования,
- оценки,
- создания тегов
- несложных подсказок и работ для программирования (см. deepseek coder)
- основу для локального плагина для редакторов кода для автокомплита и подсказок
- извлечения списка фактов. Кстати, во многих случаях именно список фактов и терминов из статьи показывает намного более качественный текст, чем собственно попытка перевода, в которой локальные нейронки часто косячат тем, что вставляют английские слова и иероглифы
Модели для синтеза русского языка и перевода
1. LLama 3 Instruct 8b и выше. Официально ее раздают только при логине и рассмотрении вашего эккаунта на HuggingFace. Поищите копии, к примеру, вот
NousResearch/Meta-Llama-3-8B-Instruct Она переводит и пишет на русском лучше всех предыдущих, так что эпоху отдельных "русскоязычных нейронок" видимо можно закрывать. Скоро будет от нее много детей, если будете выбирать среди детей - смотрите на мультиязычность.
2. Бывший фаворит
OpenChat 3.5 , он очень быстрый, он компактный (7b), у него хорошее окно контекста - тысячи знаков, он может, при некоторых ухищрениях в промпте, выполнять роль простого переводчика или пересказчика. При этом скорость его работы на моей системе очень хорошая, что позволяет быстро экспериментировать в реальном времени, быстрее зачастую, чем у больших онлайн-нейронок типа GPT4 и Claude
Внимание, Open Chat Gemma - не следует качать, он даже по общим параметрам не лучше, а в русском языке, в задаче "перевода" лажает со страшной силой. Нужна версия на Мистрале, то есть базовая.
3.
TheBloke/Toppy-M-7B-GGUF - квантизованная версия, очень быстро работает на моей системе (RTX4090, 128Гб оперативки), сильно не тестировал пока, но ее как русскоязычную хвалили в
этом треде на реддите Не подходящие для задач перевода
1. OpenBuddy Mixtral 7bx8 - просто крайне плохо воспринимает промпты через oobabooga text generation web ui. Возможно, нужны знания для запуска. Пока удалил с компа. Все равно внутри - 7b модели, так что можно просто пользовать Open Chat
2.
https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo - это Qwen 1.5 - 32B, вышедший в апреле 2024. Хорошо понимает запрос на русском, но пишет с 5-процентным вкраплением английских слов и китайских иероглифов.
3.
TheBloke/Nous-Hermes-2-Yi-34B-GGUF - хорошо показал себя как переводчик и почти гладко синтезирует текст с нуля. Любит вставлять иероглифы.
4.
teknium_OpenHermes-2.5-Mistral-7B - быстрый и почти корректный переводчик (хуже современного Гугл Транслейта, но вставляет плохие слова и английские слова гораздо реже. Можно сравнить с Open Chat.
Особенно надо отметить на HuggingFace такие компании
-
OpenChat-
OpenBuddy Про них говорят, что у них лучшие мультиязычные версии локальных нейронок и действительно, по субъективным ощущениям, качество русского текста у них гораздо лучше, чем у всех базовых моделей.
При появлении новых перспективных локальных нейронок следует заглядывать к ним в ожидании мультиязычных доработок - качество уже зарекомендовано.
Тестовые площадки ---------------------
- для OpenChat и некоторых других локальных версий, а также больших нейронок -
https://chat.lmsys.org/- для OpenBuddy -
https://huggingface.co/spaces/OpenBuddy/ChatWithBuddy Моя система 2023-2024 ----------------------
- Windows
- 128 RAM
- SSD
- 24 VRAM RTX 4090
Трюки, хаки, особенности ------------------------------
- openbuddy-mixtral-7bx8-v16.3-32k.Q6_K.gguf - скорость вывода - 1.5 токена в секунду. Уменьшение размера контекста с 32 до 4k не дает ощутимого прироста (потому и уменьшать особо смысла нет)
- openbuddy-mixtral-7bx8-v16.3-32k.Q4_K_M.gguf - скорость вывода - 6.8 токенов в секунду! Практически нормальная скорость для чата
- мораль из пп1-2: для RTX4090 надо выбирать модели с требованием RAM менее 30 Гб (28.97 GB в таблице для Q4_K_M). Где-то между 28 и 35 гигабайтами требований к RAM проходит нелинейный обрыв производительности в несколько раз!
- TheBloke/Nous-Hermes-2-Yi-34B-GGUF дает больше 20 токенов в секунду, что сравнимо с 7b моделями, а качество гораздо выше.
- OpenBuddy модели любят вставлять иероглифы в русский текст
- самая низкая температура генерирует более пристойный текст, чем самая высокая. Более того, недостатки низкой температуры только в повторяющихся словах и в том, что от запуска к запуску модель выдает почти одинаковый - если не полностью одинаковый вывод при том же промпте
- OpenChat хорош в переводе на температуре 0.35
- лучше всего маленькие нейронки переводят маленькие кусочки текста?
- https://promptingweekly.substack.com/ - человек делится опытом работы с локальными нейронками, не доволен Мистралем, хвалит модели от Nous (по причине следования промпту)