Как я уже писал ранее здесь и тут (нет времени искать этот пост, может позже залинкую), уже давно можно вести запись переговор любых для
( Read more... )
А перевод речи в текст насколько хорошо работает? Если он для идеальных условий записи на ютубе иногда (стоит включить автоматически сгенерированные субтитры) выдаёт чушь. И у ютуба там совершенно чудовищные ресурсы на это пущены. А у всего государственного, как всегда, роспил съел большую часть средств, а остальное сделано для галочки. А если язык не английский, если сленг? Если запись зашумлена? В машине всегда зашумлена: громкую связь многие-то сделать не могут. Там нужен микрофонный массив или направленные микрофоны. Через микрофон спрятанный под торпедой речь можно не разобрать даже ушами.
Про зашумленные записи, записи нескольких людей, говорящих одновременно (перебивающих друг друга или параллельно) - это все об этом. Как раз выделить разных людей, распознать и обозначить их.
Насколько плохо или хорошо работает распознавание - тут это не принципиально. Сегодня работает с таким-то качеством, а завтра обновили софтину и работает уже с другим. В общем случае распознание работает достаточно для того, чтобы получать груды осмысленного текста с маленьким объемом данных (в смысле не аудиопоток закодированный, а просто текст).
Хорошо сжать можно и без перевода в текст. Тот же GSM 06.10 -- это 13.5 кБит/сек, менее 1ГБайта непрерывной записи за неделю. Если паузы выкинуть, то в гигабайт несколько месяцев помещается. А сжать можно существенно лучше.
1) Любые кодеки понижают сильно качество. И общее правило: чем сильнее сжимает - тем хуже качество (Ваш КО). Самый лучший кодек в этом смысле - это полное синтезирование сказанного. Т.е. преобразование речи в текст, передача сжатого текста, распаковка его - и синтез речи.
2) > А сжать можно существенно лучше.
А текст-то еще лучше. На порядки. Его просто тупо меньше. Вы помножьте на число абонентов, число звонков и проч. Причем, что самое важное - текст можно индексировать и по нему искать (причем выполнять и сложный поиск). Как в несекретных чатах Telegram.
что значит понижают качество? GSM всегда использует эти кодеки, при любом звонке. 13.5кБит/сек это не понижение качества, это получение в raw виде того что передается по сети мобильной связи.
Reply
Насколько плохо или хорошо работает распознавание - тут это не принципиально. Сегодня работает с таким-то качеством, а завтра обновили софтину и работает уже с другим. В общем случае распознание работает достаточно для того, чтобы получать груды осмысленного текста с маленьким объемом данных (в смысле не аудиопоток закодированный, а просто текст).
Reply
Reply
2) > А сжать можно существенно лучше.
А текст-то еще лучше. На порядки. Его просто тупо меньше.
Вы помножьте на число абонентов, число звонков и проч.
Причем, что самое важное - текст можно индексировать и по нему искать (причем выполнять и сложный поиск). Как в несекретных чатах Telegram.
Reply
Reply
По ссылкам есть соответствующие оценки.
Reply
Leave a comment