диаризацию в массы

Oct 28, 2024 12:04

Модель Whisper с феноменальным качеством транскрибирования голоса вышла два года назад, но мне все еще очень не хватает следующей простой штуки ( Read more... )

искусственный интеллект

Leave a comment

Comments 11

2worldscollide October 28 2024, 10:55:41 UTC
Таких сервисов полно, но им нужно отдавать аудио или видеофайл, который сперва надо скачать.

Если не ошибаюсь, YouTube не предоставляет API на скачивание аудиодорожки, и вообще не заинтересован в такого рода сервисах, т.к. резко упадет количество просмотров.

Reply

avva October 28 2024, 11:09:11 UTC
Если это *единственная* проблема, я готов скачать через ssyoutube.com или yt-dlp и дать им каждый раз. Но даже для такого воркфлоу я не нашел сервиса, который делает точный транскрипт, отформатированный на предложения и абзацы, с идентификацией спикеров, и на всех/многих языках.

Reply

2worldscollide October 28 2024, 11:12:46 UTC
https://www.sybill.ai/

На многих языках - нет, такого еще не видел, но это дело времени.

Harpa.ai может делать выжимки и обзоры. С полными транскрипциями я не заморачивался, но наверняка модно подобрать промпт.

Reply

a_konst October 28 2024, 12:35:48 UTC

Есть даунлоадеры с ю-туба которые отлично скачивают и сохраняют аудиодорожку.

Reply


lrudman October 28 2024, 12:37:03 UTC

Я тоже давно такое хочу. Только я, увы, в существование такого не верю…

Reply

levtsn October 28 2024, 18:41:20 UTC

Почему нет, вроде просто распознавание речи в стенограмму работает на ура и давно. А отсюда до поставленой задачи один шаг.

Reply


piramidon October 28 2024, 13:49:55 UTC
Можете попробовать https://goodtape.io/, не уверен, насколько отвечает требованиям.

Reply


ny_quant October 28 2024, 16:42:06 UTC

Если не трудно, дайте знать когда кто-то сделает модель, способную понимать тяжелый индийский акцент (на английском). Потому что это какой-то атас.

Reply


levtsn October 28 2024, 18:39:46 UTC

Да, это соберите сами, бич ии решений

Reply


Leave a comment

Up