С прискорбием сообщаю, что на
https://huggingface.co/ найти качественную квантизацию любой модели в формат GGUF практически невозможно.
Как говорится, хочешь сделать хорошо - сделай сам.
Итак, есть гид по командам HuggingFace, благодаря которым можно скачать нужные модели в исходниках, а затем провести квантизацию в нужный формат.
- https://huggingface.co/docs/huggingface_hub/guides/download - закачка
- https://github.com/ggerganov/llama.cpp - конвертация
- https://github.com/ggerganov/llama.cpp/discussions/2948 - дискуссия о проблеме конвертации
- https://huggingface.co/welcome - общий обзор
Первое, что необходимо сделать - это установить python. Рекомендую 3.11:
https://www.python.org/downloads/windows/ Для Win64 ставьте Win64 версию.
Вам повезло - я уже проделал с помощью Chat GPT работу по созданию утилиты, которая выкачивает модель и конвертирует в один из качественных форматов:
https://disk.yandex.ru/d/M7nRPEZK0TeEmA Скриншот привёл, чтобы было понятно как это выглядит.
Чтобы вставить правильное название в поле ID модели надо зайти на сайт и выбрать модель и скопировать имя:
Учтите, что варианты, в названии которых присутствует AWQ - имеют увеличенную в 4 раза длину контекста. Но теряют в точности:
Оригинальные репозитории можно найти по адресам:
- LLama: https://huggingface.co/meta-llama
- Qwen: https://huggingface.co/Qwen
- MistralAI: https://huggingface.co/mistralai
- nVidia: https://huggingface.co/nvidia
- GradientAI: https://huggingface.co/gradientai
- AIDC-AI: https://huggingface.co/AIDC-AI
Чтобы использовать свой токен зайдите после регистрации на сайте HuggingFace.co по адресу:
https://huggingface.co/settings/tokens и создайте свой токен. Его потом надо вставить в мою утилиту (вместо моего токена). Но можно продолжать использовать мой - он только для чтения.
Кроме того, надо установить GIT и TortoiseGIT:
- GIT: https://gitforwindows.org/
- TortoiseGIT: https://tortoisegit.org/download/
После установки - перезагрузитесь.
Затем, в какой-нибудь папке, на диске, на котором много свободного места нажмите правую кнопку и сделайте Git Clone этого адреса:
https://github.com/ggerganov/llama.cpp.git Получится вот так:
Зелёный кружочек на папке с исходниками проекта llama.cpp
И также, как на скриншоте распакуйте мою утилиту.
Далее, выполните последовательно начиная с пункта 0 по пункт 4 все CMD файлы. Они установят нужные пакеты и можно станет пользоваться утилитой.
На данный момент так выглядит моя LM-Studio:
Как можно заметить - в столбце «Издатель» моя фамилия. Но на HuggingFace вы таких точных моделей не найдёте.
Разница в качестве кодогенерации весьма существенная (в пользу моих вариантов моделей).
Скачать LM-Studio тут:
https://lmstudio.ai/ Необходимо знать, что только под Windows можно иметь мало видеопамяти + много оперативной памяти и запускать LLM(большие языковые модели) в формате GGUF разгружая решение задачи на процессор.
Предложение для организаций:
- Помогу подобрать компьютер для запуска LLM
- Помогу настроить компьютер
- Помогу решать задачи (кодогенерация, рефакторинг, отладка и прочее) используя лучшие промпты как промпт инженер.
- Помогу обучить коллектив.
- Помогу создать и редактировать техническое задание.
Моя почта: nikitayev@mail.ru
Telegram:
https://t.me/nikitayev Новостная группа по технологиям:
https://t.me/nikitaevai