Топ-9 локальных и офлайн LLM для использования уже сегодня: germangenshin

germangenshin

Топ-9 локальных и офлайн LLM для использования уже сегодня

Dec 21, 2024 19:00

С появлением квантизированных LLM на HuggingFace и таких экосистем ИИ, как H20, Text Gen и GPT4All, которые позволяют загружать веса LLM на ваш компьютер, у вас есть возможность использовать свободный, гибкий и безопасный ИИ. Вот девять лучших локальных/офлайн LLM, которые вы можете попробовать прямо сейчас!

1 Hermes 2 Pro GPTQ

Hermes 2 Pro - это современная языковая модель, тщательно настроенная компанией Nous Research. Она использует обновлённую и очищенную версию набора данных OpenHermes 2.5, а также недавно введённый набор данных Function Calling и JSON Mode, разработанный внутри компании. Эта модель основана на архитектуре Mistral 7B и обучена на 1,000,000 инструкций/чата качества GPT-4 или лучше, преимущественно на синтетических данных.

Модель

Hermes 2 Pro GPTQ

Размер модели

7.26 ГБ

Параметры

7 миллиардов

Квантизация

4-бит

Тип

Mistral

Лицензия

Apache 2.0

Hermes 2 Pro на Mistral 7B - это новый флагманский Hermes 7B, предлагающий улучшенные характеристики в различных тестах, включая AGIEval, BigBench Reasoning, GPT4All и TruthfulQA. Её улучшенные возможности делают её подходящей для широкий спектр задач обработки естественного языка (NLP), таких как генерация кода, создание контента и приложения разговорного ИИ.

2 Zephyr 7B Beta

Zephyr - это серия языковых моделей, обученных действовать в качестве полезных помощников. Zephyr-7B-Beta - это вторая модель в серии, настроенная из Mistral-7B-v0.1 с использованием оптимизации прямых предпочтений (DPO) на смеси общественно доступных синтетических наборов данных.

Модель

Hermes 2 Pro GPTQ

Размер модели

7.26 ГБ

Параметры

7 миллиардов

Квантизация

4-бит

Тип

Mistral

Лицензия

Apache 2.0

Удаление встроенной согласованности обучающих наборов данных улучшает производительность Zephyr-7B-Beta на таких тестах, как MT-Bench, увеличивая её полезность в различных задачах. Однако это изменение может привести к созданию проблемного текста при определённых вводах.

3 Falcon Instruct GPTQ

Эта квантизированная версия Falcon основана на архитектуре только декодера и настроена на базовую модель TII's raw Falcon-7b. Базовая модель Falcon была обучена на выдающемся 1.5 триллиона токенов, полученных из публичного интернета. Как модель, основанная на инструкциях и зарегистрированная под лицензией Apache 2, Falcon Instruct идеально подходит для малых предприятий, которым нужна модель для перевода текста и ввода данных.

Модель

Falcon-7B-Instruct

Размер модели

7.58 ГБ

Параметры

7 миллиардов

Квантизация

4-бит

Тип

Falcon

Лицензия

Apache 2.0

Однако эта версия Falcon не подходит для дополнительной настройки и предназначена только для выводов. Если вы хотите произвести дообучение Falcon, вам придется использовать необработанную модель, для чего требуется доступ к аппаратному обеспечению для обучения корпоративного уровня, такому как NVIDIA DGX или AMD Instinct AI Accelerators.

4 GPT4ALL-J Groovy

GPT4All-J Groovy - это модель только декодера, настроенная компанией Nomic AI и зарегистрированная под лицензией Apache 2.0. GPT4ALL-J Groovy основана на оригинальной модели GPT-J, которая известна своим качеством генерации текста по подсказкам. GPT4ALL -J Groovy была донастроена как чат-модель, что делает её отличной для быстрого и креативного генерации текста. Это делает GPT4All-J Groovy идеальной для создателей контента, помогая им в написании и творческих работах, будь то поэзия, музыка или истории.

Модель

GPT4ALL-J Groovy

Размер модели

3.53 ГБ

Параметры

7 миллиардов

Квантизация

4-бит

Тип

GPT-J

Лицензия

Apache 2.0

К сожалению, базовая модель GPT-J была обучена на наборе данных только на английском языке, что означает, что даже эта донастроенная модель GPT4ALL-J может общаться и выполнять генерацию текста только на английском.

5 DeepSeek Coder V2 Instruct

DeepSeek Coder V2 - это продвинутая языковая модель, улучшающая возможности кодирования и математического мышления. Она поддерживает широкий спектр языков программирования и предлагает расширённую длину контекста, что делает её универсальным инструментом для разработчиков.

Модель

DeepSeek Coder V2 Instruct

Размер модели

13 ГБ

Параметры

33 миллиарда

Квантизация

4-бит

Тип

DeepSeek

Лицензия

Apache 2.0

По сравнению с предшественником, DeepSeek Coder V2 показывает значительные улучшения в задачах, связанных с кодом, рассуждениях и общих возможностях. Он расширяет поддержку языков программирования с 86 до 338 и увеличивает длину контекста с 16K до 128K токенов. В стандартных бенчмарках он превосходит модели, такие как GPT-4 Turbo, Claude 3 Opus и Gemini 1.5 Pro в тестах программирования и математики.

6 Mixtral-8x7B

Mixtral-8x7B представляет собой разреженную смесь экспертных (MoE) моделей, разработанных Mistral AI. Она включает восемь экспертов на MLP, всего 45 миллиардов параметров. Однако во время вывода активируется только два эксперта на токен, что делает её вычислительно эффективной и сопоставимой по скорости и стоимости с плотной моделью в 12 миллиардов параметров.

Модель

Mixtral-8x7B

Размер модели

12 ГБ

Параметры

45 миллиардов (8 экспертов)

Квантизация

4-бит

Тип

Mistral MoE

Лицензия

Apache 2.0

Mixtral поддерживает длину контекста 32k токенов и превосходит Llama 2 70B по большинству тестов, отвечая на требования производительности GPT-3.5. Он хорошо работает на нескольких языках, включая английский, французский, немецкий, испанский и итальянский, что делает его универсальным выбором для различных задач NLP.

7 Wizard Vicuna Uncensored-GPTQ

Wizard-Vicuna GPTQ - это квантизированная версия Wizard Vicuna, основанная на модели LlaMA. В отличие от большинства LLM, выпущенных для публики, Wizard-Vicuna - это неконтролируемая модель, у которой отсутствует согласованность. Это означает, что модель не имеет тех же стандартов безопасности и морали, что и большинство моделей.

Модель

Wizard-Vicuna-30B-Uncensored-GPTQ

Размер модели

16.94 ГБ

Параметры

30 миллиардов

Квантизация

4-бит

Тип

LlaMA

Лицензия

GPL 3

Хотя это может представлять проблему с контролем согласованности ИИ, наличие неконтролируемой LLM также раскрывает её лучшие качества, позволяя ей отвечать без ограничений. Это также позволяет пользователям добавлять свою собственную согласованность в том, как ИИ должен действовать или отвечать на основе данной подсказки.

8 Orca Mini-GPTQ

Хотите поэкспериментировать с моделью, обученной по уникальному методу обучения? Orca Mini - это неофициальная реализация модели, подготовленной по исследованиям Microsoft Orca. Она была обучена с использованием метода обучения «учитель-ученик», где набор данных был полон объяснений, а не только подсказок и ответов. Это, по сути, должно привести к тому, что студент будет более умным, и модель сможет понять проблему, а не просто искать пары ввода-вывода, как это происходит в типичных LLM.

Модель

Orca Mini-GPTQ

Размер модели

8.11 ГБ

Параметры

3 миллиарда

Квантизация

4-бит

Тип

LlaMA

Лицензия

MIT

С всего лишь тремя миллиардами параметров, Orca Mini GPTQ легко запускать даже на менее мощных системах. Однако эта модель не должна использоваться для профессиональных целей, так как она генерирует ложную информацию, предвзятые и оскорбительные ответы. Эту модель следует использовать для обучения и экспериментов с Orca и его методами.

9 Llama 2 13B Chat GPTQ

или

Llama 2 - это преемник оригинальной Llama LLM, предлагающий улучшенные характеристики и универсальность. Вариант 13B Chat GPTQ настроен для приложений разговорного ИИ, оптимизированных для английского диалога.

Модель

Llama 2 13B Chat GPTQ

Размер модели

7.26 ГБ

Параметры

13 миллиардов

Квантизация

4-бит

Тип

Llama 2

Лицензия

Лицензия Meta

Llama 2 предназначена для коммерческого и исследовательского использования. Условия её лицензирования позволяют компаниям с менее чем 700 миллионами пользователей использовать её без дополнительных сборов. Эта модель идеально подходит для организаций, ищущих надёжное решение для чат-бота, требующее минимального дополнительного обучения.

Некоторые из перечисленных моделей имеют несколько версий по параметрам. В общем, модели с большим количеством параметров показывают лучшие результаты, но требуют более мощного оборудования, тогда как модели с меньшим количеством параметров будут генерировать менее качественные результаты, но могут запускаться на менее мощных системах. Если вы не уверены, сможет ли ваш ПК запустить модель, сначала попробуйте версию с меньшими параметрами, а затем продолжайте, пока разница в производительности не станет неприемлемой.

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Вы также можете читать меня в:

Telegram: https://t.me/gergenshin
Яндекс Дзен: https://dzen.ru/gergen
Официальный сайт: https://www-genshin.ru

локальные модели, llm, офлайн