Русскоязычные нейронки для оффлайн работы: kvisaz

kvisaz

Русскоязычные нейронки для оффлайн работы

Mar 15, 2027 15:15

Критерий отбора - гармоничность текстов на русском языке, способность рассуждать вторична.

Обновлено 19 апреля 2024:

Вышла Llama 3. 8b модель отлично пишет на русском. Всякие опенчаты теперь не нужны.

Для чего можно использовать локальные нейронки, когда есть онлайн гиганты?
Как бесплатные и без цензуры процессоры текста

- для конспектирования,
- оценки,
- создания тегов
- несложных подсказок и работ для программирования (см. deepseek coder)
- основу для локального плагина для редакторов кода для автокомплита и подсказок
- извлечения списка фактов. Кстати, во многих случаях именно список фактов и терминов из статьи показывает намного более качественный текст, чем собственно попытка перевода, в которой локальные нейронки часто косячат тем, что вставляют английские слова и иероглифы

Модели для синтеза русского языка и перевода

1. LLama 3 Instruct 8b и выше. Официально ее раздают только при логине и рассмотрении вашего эккаунта на HuggingFace. Поищите копии, к примеру, вот NousResearch/Meta-Llama-3-8B-Instruct

Она переводит и пишет на русском лучше всех предыдущих, так что эпоху отдельных "русскоязычных нейронок" видимо можно закрывать. Скоро будет от нее много детей, если будете выбирать среди детей - смотрите на мультиязычность.

2. Бывший фаворит OpenChat 3.5 , он очень быстрый, он компактный (7b), у него хорошее окно контекста - тысячи знаков, он может, при некоторых ухищрениях в промпте, выполнять роль простого переводчика или пересказчика. При этом скорость его работы на моей системе очень хорошая, что позволяет быстро экспериментировать в реальном времени, быстрее зачастую, чем у больших онлайн-нейронок типа GPT4 и Claude

Внимание, Open Chat Gemma - не следует качать, он даже по общим параметрам не лучше, а в русском языке, в задаче "перевода" лажает со страшной силой. Нужна версия на Мистрале, то есть базовая.

3. TheBloke/Toppy-M-7B-GGUF - квантизованная версия, очень быстро работает на моей системе (RTX4090, 128Гб оперативки), сильно не тестировал пока, но ее как русскоязычную хвалили в этом треде на реддите

Не подходящие для задач перевода

1. OpenBuddy Mixtral 7bx8 - просто крайне плохо воспринимает промпты через oobabooga text generation web ui. Возможно, нужны знания для запуска. Пока удалил с компа. Все равно внутри - 7b модели, так что можно просто пользовать Open Chat

2. https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo - это Qwen 1.5 - 32B, вышедший в апреле 2024. Хорошо понимает запрос на русском, но пишет с 5-процентным вкраплением английских слов и китайских иероглифов.

3. TheBloke/Nous-Hermes-2-Yi-34B-GGUF - хорошо показал себя как переводчик и почти гладко синтезирует текст с нуля. Любит вставлять иероглифы.

4. teknium_OpenHermes-2.5-Mistral-7B - быстрый и почти корректный переводчик (хуже современного Гугл Транслейта, но вставляет плохие слова и английские слова гораздо реже. Можно сравнить с Open Chat.

Особенно надо отметить на HuggingFace такие компании
- OpenChat
- OpenBuddy

Про них говорят, что у них лучшие мультиязычные версии локальных нейронок и действительно, по субъективным ощущениям, качество русского текста у них гораздо лучше, чем у всех базовых моделей.

При появлении новых перспективных локальных нейронок следует заглядывать к ним в ожидании мультиязычных доработок - качество уже зарекомендовано.

Тестовые площадки ---------------------

- для OpenChat и некоторых других локальных версий, а также больших нейронок - https://chat.lmsys.org/
- для OpenBuddy - https://huggingface.co/spaces/OpenBuddy/ChatWithBuddy

Моя система 2023-2024 ----------------------

- Windows
- 128 RAM
- SSD
- 24 VRAM RTX 4090

Трюки, хаки, особенности ------------------------------

openbuddy-mixtral-7bx8-v16.3-32k.Q6_K.gguf - скорость вывода - 1.5 токена в секунду. Уменьшение размера контекста с 32 до 4k не дает ощутимого прироста (потому и уменьшать особо смысла нет)
openbuddy-mixtral-7bx8-v16.3-32k.Q4_K_M.gguf - скорость вывода - 6.8 токенов в секунду! Практически нормальная скорость для чата
мораль из пп1-2: для RTX4090 надо выбирать модели с требованием RAM менее 30 Гб (28.97 GB в таблице для Q4_K_M). Где-то между 28 и 35 гигабайтами требований к RAM проходит нелинейный обрыв производительности в несколько раз!
TheBloke/Nous-Hermes-2-Yi-34B-GGUF дает больше 20 токенов в секунду, что сравнимо с 7b моделями, а качество гораздо выше.
OpenBuddy модели любят вставлять иероглифы в русский текст
самая низкая температура генерирует более пристойный текст, чем самая высокая. Более того, недостатки низкой температуры только в повторяющихся словах и в том, что от запуска к запуску модель выдает почти одинаковый - если не полностью одинаковый вывод при том же промпте
OpenChat хорош в переводе на температуре 0.35
лучше всего маленькие нейронки переводят маленькие кусочки текста?
https://promptingweekly.substack.com/ - человек делится опытом работы с локальными нейронками, не доволен Мистралем, хвалит модели от Nous (по причине следования промпту)

нейронки