диаризацию в массы

Oct 28, 2024 12:04

Модель Whisper с феноменальным качеством транскрибирования голоса вышла два года назад, но мне все еще очень не хватает следующей простой штуки:

1. втыкаешь в нее URL на ютуб, или засылаешь аудио-файл.
2. получаешь текст: удобно отформатированный, разбитый на абзацы и реплики, со знаками препинания и РАЗБИТЫЙ НА СОБЕСЕДНИКОВ (техническое название "диаризация").
3. Это все. Третьего пункта не надо.

Кто-нибудь знает, есть ли такое? Если есть, я буду постоянно пользоваться, донатить, могу заплатить за сервис (если качество реально офигенное и допиливать руками ничего не надо).

Каждые несколько месяцев я пытаюсь найти такое, нахожу несколько разных Github-репозиторий в духе "соберите сами из Whisper, этой отдельной сетки для диаризации, говна и палок", но оно обычно сырое, или сомнительного качества диаризация, или вообще не работает для не-английского языка. Если есть такое "поднимите сами", но вылизанное, как конфекта, и реально работает, я тоже не против, дайте ссылку. Если есть сайт, дайте сайт. Спасибо!

искусственный интеллект

Previous post Next post
Up