Распознавание голоса нейросетью: nomadmoon

nomadmoon

Распознавание голоса нейросетью

Nov 16, 2024 03:31

Еще одна напоминалка себе и миру

https://github.com/ggerganov/whisper.cpp/releases/download/v1.6.0/whisper-bin-x64.zip - программа для запуска для Windows (архив)

https://huggingface.co/ggerganov/whisper.cpp/blob/main/ggml-large-v3.bin - сама нейросеть, весит 3.1 гига, положил в ту же папку куда распаковал архив программы для запуска для Windows

команда
main.exe -m ggml-large-v3.bin --language auto KWhatsApp.wav

пояснения:
-m ggml-large-v3.bin - какой файл нейросети использовать.

--language auto - автоопределять язык, без этого распознает голос и сразу переводит на английский. Можно сразу --language ru, немного сэкономит время

WhatsApp.wav - файл с записью, только несжатый WAV и только на 16KHz. Сэмплов в инете кстати не нашел, поэтому скачал голосовушку в воцапе через Whatsapp Web и преобразовал её в WAV 16KHz с помощью Audacity. Ну если кому то нужно то могу выложить уже перекодированный тестовый файл куда нить.

Видеокарту, судя по всему, в моем случае, программа не использует, поэтому работать теоретически должно на любом железе.