питерский Центр речевых технологий

Aug 06, 2010 18:47

экскурсия в сабж была все-таки великолепная. Несмотря на казус с Яндекс.Картами. Наверное, ни одна компания, с которыми я раньше общалась, не выпускала на журналистов сразу такое количество техспецов, которые были готовы рассказать про всё в подробностях. Когда я вдруг обнаружила себя не слушающей тихо в уголке, как обычно, а ЗАДАЮЩЕЙ ВОПРОСЫ, я так удивилась, что задолбала этими вопросами, по-моему, всех.

ЦРТ сейчас идет от работы чисто на ВПК через продукты для большого бизнеса к массовому пользователю. Мне, честно говоря, кажется, что пока ни массовый пользователь, ни технологии не готовы к встрече друг с другом. Голосовая навигация - это вряд ли для компьютеров, скорее для мобильных устройств. Озвучка текстов... может, это кому-то и надо, но пока большинство людей предпочитают по диагонали пробежать текст глазами, а не в десять раз дольше вдумчиво его слушать.

а вот автоматизация колл-центров и справочных систем, распознавание темы и ключевых слов в разговоре (таргетинг рекламы же!), голосовая навигация (домохозяйки перестанут пугаться интернет-магазинов, пенсионеры перестанут водить носом по клавиатуре, дети, которые не умеют читать, залипнут в интернеты раньше, чем снимут подгузник) - это уже интереснее

При рассказе про голосовую навигацию сразу подумала о нашем iii.ru. Если человечек будет распознавать реплики и/или отвечать на них голосом - это ж круто, наверное.

Я раньше была уверена, что распознавание речи - это сложно, а вот синтез - нечего делать. Оказалось, вполне равные задачи. Причем есть два вида технологий синтеза - в первом случае речь "собирают" из нарезанных на мелкие куски текстов, наговоренных диктором, причем чем мельче куски, тем выше качество. Звук "с" после "о" и перед "а" - это, например, один элемент, а звук "с" после "л" и перед "т" - совсем другой. А во втором случае собирают механизм, в котором воспроизводится строение человеческого речевого аппарата - голосовые связки, носоглотка, губы, легкие, и т.д. И он уже производит звуки.

Мне вспомнилось, как в далеком компьютерном детстве в нашем поселке по рукам ходил диск с программой "Горыныч". Обещалось, что если ее поставить на компьютер, можно в микрофон говорить названия файлов, команды, папки, и т.д., и будет та самая голосовая навигация. Ну, работало оно, мягко говоря, не особо. Оказалось, создатели этого Горыныча не сами разработали технологию, а у кого-то ее взяли и адаптировали, насколько получилось, к русскому языку. Чем сильно подгадили организациям типа ЦРТ тем, что люди, слушающие про голосовую навигацию, морщат нос и говорят "а, что-то типа Горыныча"?

А вот распознавать поток свободной разговорной речи программы пока не могут. Так что не будет создателям говносайтов золотой возможности перегонять видео, или там, подкасты в тексты. Ну, если и будет - то лет через 5. Google по словам ЦРТшников, пару лет назад обучался распознавать словесный поток на речах политиков (они эти речи произносят четко, правильно и красиво), писал об этом проекте, а потом внезапно перестал.

ну и еще из открытий: оказывается, если вы пытаетесь что-то доказать диктофонной записью чужой речи (обещания, угрозы, разговоры и всё такое), то хороший адвокат заставит суд эту запись не принимать во внимание - потому что не может служить доказательством запись с несертифицированного диктофона.

Отдельно впечатлений доставили журналисты. Мне всё меньше хочется называться одним словом с этими людьми. Не то чтобы они плохие, но шаблонные до умопомрачения. Распознавание речи - это непременно Кровавая Рука Кремля, которая будет собирать голоса простых граждан и всё на свете о них знать. И к тому же продавать базы на компакт-дисках у метро. Будто бы у кого-то когда-то были проблемы с тем, чтобы что-то узнать про граждан. Клавиатурные шпионы, которые номера кредитных карт безо всякого речевого анализа воруют - это неинтересно, а вот "они же запишут СЕБЕ ТУДА мой голос, когда я буду отдавать команды сайту" - это ужас-ужас.

Какой-то бородатый мужик, который, как оказалось, не только мне не стал отвечать, из какого же он издания, невероятно старался задать "острый злой вопрос", заходил и оттуда, и отсюда, и наконец скреативил: "а вы убиваете русский язык!" Типа, вместо всего богатства великого и могучего, которое человек обрушивает на живую девочку в колл-центре, он будет вынужден общаться с машиной простыми стандартизированными командами, и всё богатство и могучесть в таком общении похоронит. Ага, то-то язык поисковых запросов у населения так популярен.

Расскажите же, френды, ваш взгляд на востребованность распознавания-анализа-синтеза речи в интернетных и мобильных сервисах. На каких рынках и для каких задач оно хорошо подойдет?

+ чужой большой красивый отчёт: http://mardinskiy.livejournal.com/51768.html
Previous post Next post
Up