Столкнулся с проблемой запуска модели
PrunaAI/dolphin-2.9-llama3-70b-GGUF-smashed в утилите LM Studio
LM Studio - Discover, download, and run local LLMs Но в KoboldAI Lite 1.63 удалось подобрать параметры, чтобы модель успешно запустилась и даже сравнительно неплохо отработала.
Формулировка задачи приведена тут:
Что не понравилось:
Настройки Kobold:
Модель разбита на 8 частей и закачана при помощи LM Studio.
Предпочтительно запускать на процессоре - так работает намного стабильнее.
Размер контекста указывать точно как указано в настройках модели.
Параметры модели можно найти через LM Studio:
Где узнать размер контекста и другие параметры.
Количество потоков указать почти столько же, сколько у вашего процессора потоков.
BLAS Batch Size желательно ставить на максимум.
Далее жмём Launch.
Лучший вариант сценария - «New Instruct»
Первая страница настроек
Max Ctx. Tokens = установить по максимум токенов для модели.
Top p Sampling = 1 - тут как и для LM Studio надо отключить параметр
Temperature = 0.1 - желательно вообще отключить установив 0
Amount to Gen. = установить как BLAS Batch Size (n_batch в настройках модели)
На картинке выше можно увидеть n_batch.
На вкладке с расширенными настройками можно отключить дополнительные параметры:
Top-K = 0
Top-A = 0
Typ. = 1
TFS = 1
Seed = -1 (может быть другим)
Min-P = 0 - сильно влияет на количество генерируемого кода
PrPen. = 0 - все параметры, отвечающие за пенальтирование за повторение необходимо отключить
Smp. Order = 6,0,1,3,4,2,5 - это лишь рекомендуемый набор.
Выводы:
Код получается так себе. И никакой пиар на том, что это целый LLama3 70B не помогает. Модель Dolphin + LLama 3 должна была получиться намного лучше, но не получилось.
Пока, лучшие результаты получаются у классической Mixtral-8x7B, но ещё лучше - у TheBloke/FlatDolphinMaid-8x7B-GGUF
TheBloke/FlatDolphinMaid-8x7B-GGUF · Hugging Face