Пример очередного технологического прорыва: распознавание речи: ailev

ailev

Пример очередного технологического прорыва: распознавание речи

Dec 22, 2014 15:40

Прорыв в распознавании речи -- это хороший пример опровержения аргумента "вы уже двадцать лет говорите, что XXX будет реализовано, и ничего этого не происходит. Значит, и не произойдёт". Вот статья 2010 года, в которой говорится, что в распознавании речи давно ничего не происходит, поэтому "зелен виноград" -- делается вывод о том, что распознавание речи в управлении компьютеров вовсе не нужно: http://blog.codinghorror.com/whatever-happened-to-voice-recognition/, ибо люди делают ошибку распознавания речи 2-4%, а у компьютера ошибка много-много лет зашкаливает за десяток процентов и прогресса не наблюдается.

Но вот свеженький материал о достижениях известного профессора Andrew Ng, который сейчас помогает Baidu -- https://gigaom.com/2014/12/18/baidu-claims-deep-learning-breakthrough-with-deep-speech/. Без шума система Baidu Deep Speech распознаёт речь с ошибкой 6.56%, и только в условиях зашумлённости ошибка идёт в одном слове из пяти (19.06%). Бывший чемпион был Google API, у которого эти результаты были 6.64% без помех и 30.47% в условиях шума. Интересно и то, что новые алгоритмы распознавания очень щадяще относятся к вычислительным ресурсам и памяти.

Поэтому больше никакого "зелёного винограда" (https://gigaom.com/2014/09/04/baidu-says-its-massive-deep-learning-system-is-nearly-complete/): Baidu CEO Robin Li told Bloomberg that 10 percent of the company’s search queries are currently done by voice, and that voice and image search will surpass text queries within five years.

UPDATE: у Google Now способности ещё круче оказались -- он имеет подотчётные Гуглю (и заодно спецслужбам) "волшебные уши", то есть внимательно слушает окружение и понимает, какие фильмы вы смотрите и какие песенки слушаете. О чём может рассказать вам (ну, или кому-нибудь): http://bgr.com/2014/12/11/best-google-now-tricks-jeopardy/

В тексте по первой ссылке (2010 год! Всего четыре года назад!) также обсуждается уход от систем распознавания рукописного текста -- по причине того, что качество этого распознавания плохое. В 2014 году системы распознавания текста работают не хуже, а в некоторых случаях и лучше человека (superhuman performance -- http://ailev.livejournal.com/1102234.html).

И таких технологических прорывов в самых застойных проблемах сейчас множество, так что аргумент "вы много лет нам об этом рассказываете, а воз и ныне там" сегодня никак нельзя считать сильным аргументом. Жизнь меняется, жизнь меняется быстро.