Aug 02, 2024 17:33
Столкнувшись недавно с лимитом запросов к AI в Warp'e, заинтересовался наконец что можно локально у себя запустить, на машине без мощного GPU. И оказалось вовремя, китайцы тут удружили недавно. Теперь есть модели, которые довольно шустро работают на CPU, безо всяких видеокарт. Рецепт такой:
1) ставим программу ollama.
2) в одном табе терминала пишем "ollama serve".
3) в другом табе пишем "ollama run deepseek-coder-v2:16b".
При первом запуске она скачает несколько гигов модели, потом будет запускаться за считанные секунды. Ест до 9 гигов RAM, когда думает. После запуска пишем там вместо промпта сперва "/set parameter num_thread 10" (по умолчанию она использует половину логических ядер, у меня их всего 12, потому 10 отдать ей на размышления - получается неплохо). И потом можно задавать всякие вопросы по программированию и администрированию. Результат не идеальный, конечно, но весьма впечатляет для штуки, работающей локально, без интернета и чужих кластеров.
находки