Comments | sporaw: Автоматическое распознавание речи, в т.ч. в сложных условиях

sporaw

Автоматическое распознавание речи, в т.ч. в сложных условиях

May 08, 2020 13:56

https://chimechallenge.github.io
https://chimechallenge.github.io/chime6/

Как я уже писал ранее здесь и тут (нет времени искать этот пост, может позже залинкую), уже давно можно вести запись переговор любых для ( Read more... )

voice recognition, Россия, ЦРТ, privacy, ФСБ, СОРМ-3, СОРМ, спецслужбы, cctv

Comments 25

nihao_62 May 8 2020, 14:17:37 UTC

Особенно, если есть, где сохранять.

А у некоторых есть, где сохранять. И ведь не всё пишут в отрытый доступ.

( ... )

anonymous May 8 2020, 14:36:21 UTC

А перевод речи в текст насколько хорошо работает? Если он для идеальных условий записи на ютубе иногда (стоит включить автоматически сгенерированные субтитры) выдаёт чушь. И у ютуба там совершенно чудовищные ресурсы на это пущены. А у всего государственного, как всегда, роспил съел большую часть средств, а остальное сделано для галочки. А если язык не английский, если сленг? Если запись зашумлена? В машине всегда зашумлена: громкую связь многие-то сделать не могут. Там нужен микрофонный массив или направленные микрофоны. Через микрофон спрятанный под торпедой речь можно не разобрать даже ушами.

sporaw May 8 2020, 14:55:04 UTC

Про зашумленные записи, записи нескольких людей, говорящих одновременно (перебивающих друг друга или параллельно) - это все об этом. Как раз выделить разных людей, распознать и обозначить их.

Насколько плохо или хорошо работает распознавание - тут это не принципиально. Сегодня работает с таким-то качеством, а завтра обновили софтину и работает уже с другим. В общем случае распознание работает достаточно для того, чтобы получать груды осмысленного текста с маленьким объемом данных (в смысле не аудиопоток закодированный, а просто текст).

anonymous May 8 2020, 17:13:47 UTC

Хорошо сжать можно и без перевода в текст. Тот же GSM 06.10 -- это 13.5 кБит/сек, менее 1ГБайта непрерывной записи за неделю. Если паузы выкинуть, то в гигабайт несколько месяцев помещается. А сжать можно существенно лучше.

sporaw May 8 2020, 17:22:57 UTC

1) Любые кодеки понижают сильно качество. И общее правило: чем сильнее сжимает - тем хуже качество (Ваш КО). Самый лучший кодек в этом смысле - это полное синтезирование сказанного. Т.е. преобразование речи в текст, передача сжатого текста, распаковка его - и синтез речи.

2) > А сжать можно существенно лучше.

А текст-то еще лучше. На порядки. Его просто тупо меньше.
Вы помножьте на число абонентов, число звонков и проч.
Причем, что самое важное - текст можно индексировать и по нему искать (причем выполнять и сложный поиск). Как в несекретных чатах Telegram.

Thread 6

kiwibird May 8 2020, 14:58:06 UTC

Потом при необходимости из текста можно воспроизводить синтезатором с нейросеткой, обученной ранее под этого же человека.

anonymous May 9 2020, 07:46:34 UTC

>> Особенно, если касаться какого-нибудь Яндекса с его алисами.

Здесь нужно еще, пожалуй, отметить, что в использовании любого сервиса Яндекса -- риск. К Яндексу нужно относиться как к твиттеру, к примеру, если каждый раз перед поисковым запросом вы готовы написать в Твиттер от своего имени "я ищу то-то", то искать можно. "Я получил письмо от того-то текст такой-то, еду на такси с тем-то туда-то. Ищу в картинках вот это. Выкладываю на Яндекс-диск вот такой файл."

Ну и, разумеется, аккаунт не заводить и пользоваться только через веб с VPN-ном и во вкладке инкогнито.

Здесь, конечно, вместо слова Яндекс можно подставить и любое другое вроде мэйл ру, ВКонтакте и т.д., но по поводу этих Я-хипстеров, почему-то реально бомбит.

johnconst May 9 2020, 17:39:42 UTC

"Соответственно, неважно какой у вас способ связи (сим-карта, городской, VoIP и т.п.) - важно, чтобы ваша запись проходила через системы контроля. Ваш голос будет выявлен в любой из записей и разговор(ы) будут запротоколированы."

А если разговор дважды зашифрован, например голосовое общение zRTP(шифрованный медиа-поток) внутри OpenVPN тоннеля с Perfect Forward Secrecy.
Интересно, такое они смогут расшифровать и прослушать ?

То-то, я смотрю, опен-сорсные приложения, которые такое предлагают массовой популярностью не пользуются. Интересно, почему ? (риторический вопрос)

sporaw May 9 2020, 17:54:47 UTC

Если вы делаете проверку fingerprints, то это более-менее надежно (но так же, все зависит от реализации).
Если нет - то технически возможен MITM и съем информации на этом уровне. Цитата, которую вы привели - как раз "проходит через системы контроля".

anonim_legion May 12 2020, 03:00:52 UTC

Да почему не пользуются. Просто вся реализация zRTP/SRTP является на редкость кривой, причём по комплексу причин. Начнём с того, что те кто этим всем занимаются в эксплуатации, писать умеют разве что на bash.

sporaw May 12 2020, 11:54:25 UTC

Ггг, неплохо ))