Oct 28, 2024 12:04
Модель Whisper с феноменальным качеством транскрибирования голоса вышла два года назад, но мне все еще очень не хватает следующей простой штуки:
1. втыкаешь в нее URL на ютуб, или засылаешь аудио-файл.
2. получаешь текст: удобно отформатированный, разбитый на абзацы и реплики, со знаками препинания и РАЗБИТЫЙ НА СОБЕСЕДНИКОВ (техническое название "диаризация").
3. Это все. Третьего пункта не надо.
Кто-нибудь знает, есть ли такое? Если есть, я буду постоянно пользоваться, донатить, могу заплатить за сервис (если качество реально офигенное и допиливать руками ничего не надо).
Каждые несколько месяцев я пытаюсь найти такое, нахожу несколько разных Github-репозиторий в духе "соберите сами из Whisper, этой отдельной сетки для диаризации, говна и палок", но оно обычно сырое, или сомнительного качества диаризация, или вообще не работает для не-английского языка. Если есть такое "поднимите сами", но вылизанное, как конфекта, и реально работает, я тоже не против, дайте ссылку. Если есть сайт, дайте сайт. Спасибо!
искусственный интеллект