С появлением квантизированных LLM на HuggingFace и таких экосистем ИИ, как H20, Text Gen и GPT4All, которые позволяют загружать веса LLM на ваш компьютер, у вас есть возможность использовать свободный, гибкий и безопасный ИИ. Вот девять лучших локальных/офлайн LLM, которые вы можете попробовать прямо сейчас!
1 Hermes 2 Pro GPTQ
Hermes 2 Pro - это современная языковая модель, тщательно настроенная компанией Nous Research. Она использует обновлённую и очищенную версию набора данных OpenHermes 2.5, а также недавно введённый набор данных Function Calling и JSON Mode, разработанный внутри компании. Эта модель основана на архитектуре Mistral 7B и обучена на 1,000,000 инструкций/чата качества GPT-4 или лучше, преимущественно на синтетических данных.
Модель
Hermes 2 Pro GPTQ
Размер модели
7.26 ГБ
Параметры
7 миллиардов
Квантизация
4-бит
Тип
Mistral
Лицензия
Apache 2.0
Hermes 2 Pro на Mistral 7B - это новый флагманский Hermes 7B, предлагающий улучшенные характеристики в различных тестах, включая AGIEval, BigBench Reasoning, GPT4All и TruthfulQA. Её улучшенные возможности делают её подходящей для широкий спектр задач обработки естественного языка (NLP), таких как генерация кода, создание контента и приложения разговорного ИИ.
2 Zephyr 7B Beta
Zephyr - это серия языковых моделей, обученных действовать в качестве полезных помощников. Zephyr-7B-Beta - это вторая модель в серии, настроенная из Mistral-7B-v0.1 с использованием оптимизации прямых предпочтений (DPO) на смеси общественно доступных синтетических наборов данных.
Модель
Hermes 2 Pro GPTQ
Размер модели
7.26 ГБ
Параметры
7 миллиардов
Квантизация
4-бит
Тип
Mistral
Лицензия
Apache 2.0
Удаление встроенной согласованности обучающих наборов данных улучшает производительность Zephyr-7B-Beta на таких тестах, как MT-Bench, увеличивая её полезность в различных задачах. Однако это изменение может привести к созданию проблемного текста при определённых вводах.
3 Falcon Instruct GPTQ
Эта квантизированная версия Falcon основана на архитектуре только декодера и настроена на базовую модель TII's raw Falcon-7b. Базовая модель Falcon была обучена на выдающемся 1.5 триллиона токенов, полученных из публичного интернета. Как модель, основанная на инструкциях и зарегистрированная под лицензией Apache 2, Falcon Instruct идеально подходит для малых предприятий, которым нужна модель для перевода текста и ввода данных.
Модель
Falcon-7B-Instruct
Размер модели
7.58 ГБ
Параметры
7 миллиардов
Квантизация
4-бит
Тип
Falcon
Лицензия
Apache 2.0
Однако эта версия Falcon не подходит для дополнительной настройки и предназначена только для выводов. Если вы хотите произвести дообучение Falcon, вам придется использовать необработанную модель, для чего требуется доступ к аппаратному обеспечению для обучения корпоративного уровня, такому как NVIDIA DGX или AMD Instinct AI Accelerators.
4 GPT4ALL-J Groovy
GPT4All-J Groovy - это модель только декодера, настроенная компанией Nomic AI и зарегистрированная под лицензией Apache 2.0. GPT4ALL-J Groovy основана на оригинальной модели GPT-J, которая известна своим качеством генерации текста по подсказкам. GPT4ALL -J Groovy была донастроена как чат-модель, что делает её отличной для быстрого и креативного генерации текста. Это делает GPT4All-J Groovy идеальной для создателей контента, помогая им в написании и творческих работах, будь то поэзия, музыка или истории.
Модель
GPT4ALL-J Groovy
Размер модели
3.53 ГБ
Параметры
7 миллиардов
Квантизация
4-бит
Тип
GPT-J
Лицензия
Apache 2.0
К сожалению, базовая модель GPT-J была обучена на наборе данных только на английском языке, что означает, что даже эта донастроенная модель GPT4ALL-J может общаться и выполнять генерацию текста только на английском.
5 DeepSeek Coder V2 Instruct
DeepSeek Coder V2 - это продвинутая языковая модель, улучшающая возможности кодирования и математического мышления. Она поддерживает широкий спектр языков программирования и предлагает расширённую длину контекста, что делает её универсальным инструментом для разработчиков.
Модель
DeepSeek Coder V2 Instruct
Размер модели
13 ГБ
Параметры
33 миллиарда
Квантизация
4-бит
Тип
DeepSeek
Лицензия
Apache 2.0
По сравнению с предшественником, DeepSeek Coder V2 показывает значительные улучшения в задачах, связанных с кодом, рассуждениях и общих возможностях. Он расширяет поддержку языков программирования с 86 до 338 и увеличивает длину контекста с 16K до 128K токенов. В стандартных бенчмарках он превосходит модели, такие как GPT-4 Turbo, Claude 3 Opus и Gemini 1.5 Pro в тестах программирования и математики.
6 Mixtral-8x7B
Mixtral-8x7B представляет собой разреженную смесь экспертных (MoE) моделей, разработанных Mistral AI. Она включает восемь экспертов на MLP, всего 45 миллиардов параметров. Однако во время вывода активируется только два эксперта на токен, что делает её вычислительно эффективной и сопоставимой по скорости и стоимости с плотной моделью в 12 миллиардов параметров.
Модель
Mixtral-8x7B
Размер модели
12 ГБ
Параметры
45 миллиардов (8 экспертов)
Квантизация
4-бит
Тип
Mistral MoE
Лицензия
Apache 2.0
Mixtral поддерживает длину контекста 32k токенов и превосходит Llama 2 70B по большинству тестов, отвечая на требования производительности GPT-3.5. Он хорошо работает на нескольких языках, включая английский, французский, немецкий, испанский и итальянский, что делает его универсальным выбором для различных задач NLP.
7 Wizard Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ - это квантизированная версия Wizard Vicuna, основанная на модели LlaMA. В отличие от большинства LLM, выпущенных для публики, Wizard-Vicuna - это неконтролируемая модель, у которой отсутствует согласованность. Это означает, что модель не имеет тех же стандартов безопасности и морали, что и большинство моделей.
Модель
Wizard-Vicuna-30B-Uncensored-GPTQ
Размер модели
16.94 ГБ
Параметры
30 миллиардов
Квантизация
4-бит
Тип
LlaMA
Лицензия
GPL 3
Хотя это может представлять проблему с контролем согласованности ИИ, наличие неконтролируемой LLM также раскрывает её лучшие качества, позволяя ей отвечать без ограничений. Это также позволяет пользователям добавлять свою собственную согласованность в том, как ИИ должен действовать или отвечать на основе данной подсказки.
8 Orca Mini-GPTQ
Хотите поэкспериментировать с моделью, обученной по уникальному методу обучения? Orca Mini - это неофициальная реализация модели, подготовленной по исследованиям Microsoft Orca. Она была обучена с использованием метода обучения «учитель-ученик», где набор данных был полон объяснений, а не только подсказок и ответов. Это, по сути, должно привести к тому, что студент будет более умным, и модель сможет понять проблему, а не просто искать пары ввода-вывода, как это происходит в типичных LLM.
Модель
Orca Mini-GPTQ
Размер модели
8.11 ГБ
Параметры
3 миллиарда
Квантизация
4-бит
Тип
LlaMA
Лицензия
MIT
С всего лишь тремя миллиардами параметров, Orca Mini GPTQ легко запускать даже на менее мощных системах. Однако эта модель не должна использоваться для профессиональных целей, так как она генерирует ложную информацию, предвзятые и оскорбительные ответы. Эту модель следует использовать для обучения и экспериментов с Orca и его методами.
9 Llama 2 13B Chat GPTQ
или
Llama 2 - это преемник оригинальной Llama LLM, предлагающий улучшенные характеристики и универсальность. Вариант 13B Chat GPTQ настроен для приложений разговорного ИИ, оптимизированных для английского диалога.
Модель
Llama 2 13B Chat GPTQ
Размер модели
7.26 ГБ
Параметры
13 миллиардов
Квантизация
4-бит
Тип
Llama 2
Лицензия
Лицензия Meta
Llama 2 предназначена для коммерческого и исследовательского использования. Условия её лицензирования позволяют компаниям с менее чем 700 миллионами пользователей использовать её без дополнительных сборов. Эта модель идеально подходит для организаций, ищущих надёжное решение для чат-бота, требующее минимального дополнительного обучения.
Некоторые из перечисленных моделей имеют несколько версий по параметрам. В общем, модели с большим количеством параметров показывают лучшие результаты, но требуют более мощного оборудования, тогда как модели с меньшим количеством параметров будут генерировать менее качественные результаты, но могут запускаться на менее мощных системах. Если вы не уверены, сможет ли ваш ПК запустить модель, сначала попробуйте версию с меньшими параметрами, а затем продолжайте, пока разница в производительности не станет неприемлемой.
Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!
Вы также можете читать меня в: