Автоматическое распознавание речи, в т.ч. в сложных условиях

May 08, 2020 13:56

https://chimechallenge.github.io
https://chimechallenge.github.io/chime6/

Как я уже писал ранее здесь и тут (нет времени искать этот пост, может позже залинкую), уже давно можно вести запись переговор любых для ( Read more... )

voice recognition, Россия, ЦРТ, privacy, ФСБ, СОРМ-3, СОРМ, спецслужбы, cctv

Leave a comment

anonymous May 8 2020, 14:36:21 UTC
А перевод речи в текст насколько хорошо работает? Если он для идеальных условий записи на ютубе иногда (стоит включить автоматически сгенерированные субтитры) выдаёт чушь. И у ютуба там совершенно чудовищные ресурсы на это пущены. А у всего государственного, как всегда, роспил съел большую часть средств, а остальное сделано для галочки. А если язык не английский, если сленг? Если запись зашумлена? В машине всегда зашумлена: громкую связь многие-то сделать не могут. Там нужен микрофонный массив или направленные микрофоны. Через микрофон спрятанный под торпедой речь можно не разобрать даже ушами.

Reply

sporaw May 8 2020, 14:55:04 UTC
Про зашумленные записи, записи нескольких людей, говорящих одновременно (перебивающих друг друга или параллельно) - это все об этом. Как раз выделить разных людей, распознать и обозначить их.

Насколько плохо или хорошо работает распознавание - тут это не принципиально. Сегодня работает с таким-то качеством, а завтра обновили софтину и работает уже с другим. В общем случае распознание работает достаточно для того, чтобы получать груды осмысленного текста с маленьким объемом данных (в смысле не аудиопоток закодированный, а просто текст).

Reply

anonymous May 8 2020, 17:13:47 UTC
Хорошо сжать можно и без перевода в текст. Тот же GSM 06.10 -- это 13.5 кБит/сек, менее 1ГБайта непрерывной записи за неделю. Если паузы выкинуть, то в гигабайт несколько месяцев помещается. А сжать можно существенно лучше.

Reply

sporaw May 8 2020, 17:22:57 UTC
1) Любые кодеки понижают сильно качество. И общее правило: чем сильнее сжимает - тем хуже качество (Ваш КО). Самый лучший кодек в этом смысле - это полное синтезирование сказанного. Т.е. преобразование речи в текст, передача сжатого текста, распаковка его - и синтез речи.

2) > А сжать можно существенно лучше.

А текст-то еще лучше. На порядки. Его просто тупо меньше.
Вы помножьте на число абонентов, число звонков и проч.
Причем, что самое важное - текст можно индексировать и по нему искать (причем выполнять и сложный поиск). Как в несекретных чатах Telegram.

Reply

unclesam1234 May 9 2020, 21:15:17 UTC
что значит понижают качество? GSM всегда использует эти кодеки, при любом звонке. 13.5кБит/сек это не понижение качества, это получение в raw виде того что передается по сети мобильной связи.

Reply

sporaw May 9 2020, 02:30:17 UTC
> А перевод речи в текст насколько хорошо работает?

По ссылкам есть соответствующие оценки.

Reply


Leave a comment

Up