Модель Whisper с феноменальным качеством транскрибирования голоса вышла два года назад, но мне все еще очень не хватает следующей простой штуки
( Read more... )
Таких сервисов полно, но им нужно отдавать аудио или видеофайл, который сперва надо скачать.
Если не ошибаюсь, YouTube не предоставляет API на скачивание аудиодорожки, и вообще не заинтересован в такого рода сервисах, т.к. резко упадет количество просмотров.
Если это *единственная* проблема, я готов скачать через ssyoutube.com или yt-dlp и дать им каждый раз. Но даже для такого воркфлоу я не нашел сервиса, который делает точный транскрипт, отформатированный на предложения и абзацы, с идентификацией спикеров, и на всех/многих языках.
Comments 11
Если не ошибаюсь, YouTube не предоставляет API на скачивание аудиодорожки, и вообще не заинтересован в такого рода сервисах, т.к. резко упадет количество просмотров.
Reply
Reply
На многих языках - нет, такого еще не видел, но это дело времени.
Harpa.ai может делать выжимки и обзоры. С полными транскрипциями я не заморачивался, но наверняка модно подобрать промпт.
Reply
Есть даунлоадеры с ю-туба которые отлично скачивают и сохраняют аудиодорожку.
Reply
Я тоже давно такое хочу. Только я, увы, в существование такого не верю…
Reply
Почему нет, вроде просто распознавание речи в стенограмму работает на ура и давно. А отсюда до поставленой задачи один шаг.
Reply
Reply
Если не трудно, дайте знать когда кто-то сделает модель, способную понимать тяжелый индийский акцент (на английском). Потому что это какой-то атас.
Reply
Да, это соберите сами, бич ии решений
Reply
Leave a comment