Запуск модели dolphin-2.9-llama3-70b.q6 на KoboldAI Lite 1.63: nikitayev

nikitayev

Запуск модели dolphin-2.9-llama3-70b.q6 на KoboldAI Lite 1.63

Apr 28, 2024 12:47

Столкнулся с проблемой запуска модели

PrunaAI/dolphin-2.9-llama3-70b-GGUF-smashed

в утилите LM Studio

LM Studio - Discover, download, and run local LLMs

Но в KoboldAI Lite 1.63 удалось подобрать параметры, чтобы модель успешно запустилась и даже сравнительно неплохо отработала.

Формулировка задачи приведена тут:

Что не понравилось:

Настройки Kobold:

Модель разбита на 8 частей и закачана при помощи LM Studio.

Предпочтительно запускать на процессоре - так работает намного стабильнее.

Размер контекста указывать точно как указано в настройках модели.

Параметры модели можно найти через LM Studio:

Где узнать размер контекста и другие параметры.

Количество потоков указать почти столько же, сколько у вашего процессора потоков.

BLAS Batch Size желательно ставить на максимум.

Далее жмём Launch.

Лучший вариант сценария - «New Instruct»

Первая страница настроек

Max Ctx. Tokens = установить по максимум токенов для модели.

Top p Sampling = 1 - тут как и для LM Studio надо отключить параметр

Temperature = 0.1 - желательно вообще отключить установив 0

Amount to Gen. = установить как BLAS Batch Size (n_batch в настройках модели)

На картинке выше можно увидеть n_batch.

На вкладке с расширенными настройками можно отключить дополнительные параметры:

Top-K = 0

Top-A = 0

Typ. = 1

TFS = 1

Seed = -1 (может быть другим)

Min-P = 0 - сильно влияет на количество генерируемого кода

PrPen. = 0 - все параметры, отвечающие за пенальтирование за повторение необходимо отключить

Smp. Order = 6,0,1,3,4,2,5 - это лишь рекомендуемый набор.

Выводы:

Код получается так себе. И никакой пиар на том, что это целый LLama3 70B не помогает. Модель Dolphin + LLama 3 должна была получиться намного лучше, но не получилось.

Пока, лучшие результаты получаются у классической Mixtral-8x7B, но ещё лучше - у TheBloke/FlatDolphinMaid-8x7B-GGUF

TheBloke/FlatDolphinMaid-8x7B-GGUF · Hugging Face

koboldcpp, llama 3 70b, ИИ, lm studio, llama 3