Как получить правильную квантизацию модели

Dec 17, 2024 17:43


С прискорбием сообщаю, что на https://huggingface.co/ найти качественную квантизацию любой модели в формат GGUF практически невозможно.

Как говорится, хочешь сделать хорошо - сделай сам.

Итак, есть гид по командам HuggingFace, благодаря которым можно скачать нужные модели в исходниках, а затем провести квантизацию в нужный формат.


  1. https://huggingface.co/docs/huggingface_hub/guides/download - закачка
  2. https://github.com/ggerganov/llama.cpp - конвертация
  3. https://github.com/ggerganov/llama.cpp/discussions/2948 - дискуссия о проблеме конвертации
  4. https://huggingface.co/welcome - общий обзор

Первое, что необходимо сделать - это установить python. Рекомендую 3.11:

https://www.python.org/downloads/windows/

Для Win64 ставьте Win64 версию.

Вам повезло - я уже проделал с помощью Chat GPT работу по созданию утилиты, которая выкачивает модель и конвертирует в один из качественных форматов: https://disk.yandex.ru/d/M7nRPEZK0TeEmA



Скриншот привёл, чтобы было понятно как это выглядит.

Чтобы вставить правильное название в поле ID модели надо зайти на сайт и выбрать модель и скопировать имя:



Учтите, что варианты, в названии которых присутствует AWQ - имеют увеличенную в 4 раза длину контекста. Но теряют в точности:



Оригинальные репозитории можно найти по адресам:

  1. LLama: https://huggingface.co/meta-llama
  2. Qwen: https://huggingface.co/Qwen
  3. MistralAI: https://huggingface.co/mistralai
  4. nVidia: https://huggingface.co/nvidia
  5. GradientAI: https://huggingface.co/gradientai
  6. AIDC-AI: https://huggingface.co/AIDC-AI

Чтобы использовать свой токен зайдите после регистрации на сайте HuggingFace.co по адресу: https://huggingface.co/settings/tokens и создайте свой токен. Его потом надо вставить в мою утилиту (вместо моего токена). Но можно продолжать использовать мой - он только для чтения.

Кроме того, надо установить GIT и TortoiseGIT:

  1. GIT: https://gitforwindows.org/
  2. TortoiseGIT: https://tortoisegit.org/download/

После установки - перезагрузитесь.

Затем, в какой-нибудь папке, на диске, на котором много свободного места нажмите правую кнопку и сделайте Git Clone этого адреса: https://github.com/ggerganov/llama.cpp.git

Получится вот так:



Зелёный кружочек на папке с исходниками проекта llama.cpp

И также, как на скриншоте распакуйте мою утилиту.

Далее, выполните последовательно начиная с пункта 0 по пункт 4 все CMD файлы. Они установят нужные пакеты и можно станет пользоваться утилитой.

На данный момент так выглядит моя LM-Studio:



Как можно заметить - в столбце «Издатель» моя фамилия. Но на HuggingFace вы таких точных моделей не найдёте.

Разница в качестве кодогенерации весьма существенная (в пользу моих вариантов моделей).

Скачать LM-Studio тут: https://lmstudio.ai/

Необходимо знать, что только под Windows можно иметь мало видеопамяти + много оперативной памяти и запускать LLM(большие языковые модели) в формате GGUF разгружая решение задачи на процессор.

Предложение для организаций:

  1. Помогу подобрать компьютер для запуска LLM
  2. Помогу настроить компьютер
  3. Помогу решать задачи (кодогенерация, рефакторинг, отладка и прочее) используя лучшие промпты как промпт инженер.
  4. Помогу обучить коллектив.
  5. Помогу создать и редактировать техническое задание.


Моя почта: nikitayev@mail.ru

Telegram: https://t.me/nikitayev

Новостная группа по технологиям: https://t.me/nikitaevai

llama.cpp, lm studio, искусственный интеллект

Previous post Next post
Up