Автоматическое распознавание речи, в т.ч. в сложных условиях: sporaw

sporaw

Автоматическое распознавание речи, в т.ч. в сложных условиях

May 08, 2020 13:56

https://chimechallenge.github.io
https://chimechallenge.github.io/chime6/

Как я уже писал ранее здесь и тут (нет времени искать этот пост, может позже залинкую), уже давно можно вести запись переговор любых для преобразования в текст, оригинальные записи не сохранять (для массового случая), и сохранять на какой-то срок (допустим до 30 дней) только нужные, если по тексту выявлены специальные маркерные слова или фразы, или если стоит условный сторожок на собеседниках (хотя бы одном из участников). В случае невостребованности сохраненных экземпляров - удалять. Таким образом можно вести полную запись всех разговоров, объемы записей очень небольшие, т.к. это просто текст, который можно еще при желании и держать легко-сжатым.

Стоит так же понимать, что по временно-сохраненным записям можно производить биометрическую идентификацию лиц и в потоке выявлять лиц по голосовым отпечаткам, на которых так же есть сторожок. Соответственно, неважно какой у вас способ связи (сим-карта, городской, VoIP и т.п.) - важно, чтобы ваша запись проходила через системы контроля. Ваш голос будет выявлен в любой из записей и разговор(ы) будут запротоколированы.

При определенных условиях (внедрении определенных систем городского аудио-контроля, например, как есть/были в США в некоторых местах), можно получать еще очень много информации. Напомню так же, что во многих местах, где стоит видеонаблюдение (для многих может быть удивительным) пишется не только видео-поток, но и аудио-поток. Например, в лифтах.

Про разговоры во всяких каршэринговых машинах - это тоже вопрос времени и желания. Особенно, если касаться какого-нибудь Яндекса с его алисами.

В общем, я категорически не рекомендую:
- использовать голосовую связь GSM, телефонию или VoIP (ну, это давно рекомендация, поэтому здесь просто как прописная истина)
- общаться в гостиницах в номерах
- общаться в кафе и ресторанах в определенных зонах города
- общаться в машинах
- общаться в лифтах
- (в идеале) не применять голосовую связь даже для e2e или неподтвержденного e2e (во многих случаях это сложно сделать, крайне неудобно, но все же)
- для любителей "безопасно" общаться в парках тоже есть решение: микрофонная решетка (микрофонный массив).

(Да, и вы помните, что автоматическая обработка переписки (и переговоров), например, в целях анти-спам, т.е. компьютерами (программным способами), без участия людей, не является нарушением тайны переписки/переговоров? Соответственно, это все открывает огромные возможности для проведения массовой слежки за всеми переговорами кого угодно, как угодно и где угодно).

Как обычно сошлюсь на достаточно неплохой вариант из прошлого - фильм "Враг государства" (1998). Вы можете смело считать, что это - настоящее. (Все, что нужно, в этом фильме было, включая голосовые отпечатки, сделанные по образцам).

P.S. Чтобы понять насколько все это серьезно именно с точки зрения безопасности (точнее - потери privacy): команда ЦРТ заняла первое место в CH6-2. Можете сделать выводы. Что такое ЦРТ (читай - на практике ФСБ) - частично писал в прошлых постах ( здесь и тут). Про их продукцию и проч.

voice recognition, Россия, ЦРТ, privacy, ФСБ, СОРМ-3, СОРМ, спецслужбы, cctv