OK, Google, кто твой хозяин?

Feb 12, 2017 13:44

Есть у Гугла такая система голосового управления всем на свете, которая называется Google Home и стоит $129. В основе её лежит софтинка, которая летом 2012 года вышла на рынок под названием Google Now (и тогда же стала частью Android 4.1), а впоследствии переименовалась в Google Assistant, чтобы те, кто в танке, догадались: речь идёт об аналоге Siri.


Google Home - это изначально просто такая колонка с микрофоном, воспринимающая голосовые команды хозяина и отвечающая на них тоже голосом, за неимением дисплея. Но, естественно, затачивалась она не под поиск Google для слепых и безруких, а под пресловутый «Интернет вещей». То есть умеет подключаться по Bluetooth к системам управления «умным домом» и служит для них голосовым интерфейсом. Естественно, в случае, когда такие системы инсталлированы в квартире владельца.

Вот широко известная в Америке видеореклама, показывающая, что эта система умела делать по состоянию на октябрь 2016:

image Click to view


Система, как и многие её предшественницы, приводится в действие фразой «OK Google». Всё, что владелец устройства произносит вслед за этими волшебными словами, расценивается системой как голосовая команда - и исполняется.

Неделю назад эту самую рекламу показали в прайм-тайм по всем американским каналам во время трансляции Superbowl LI. И во множестве домов, где установлена колонка Google Home, голоса актёров из рекламного ролика привели к её самопроизвольной активации. В соответствии с командами из ролика, в квартирах телезрителей начал зажигаться и гаснуть свет, включалась музыка, из динамика сыпались кулинарные рецепты и испанские переводы английских приветствий... Заодно владельцы устройства могли оценить степень его многозадачности - и многие остались недовольны. Хотя, если говорить честно, она тут совершенно не нужна. Даже пользователь, обладающий даром чревовещания, вряд ли станет одновременно, на два голоса, отдавать электронному ассистенту разные команды.

Навскидку кажется странным, что неприятности начались только теперь, хотя сервисы активируются командой OK Google уже пятый год. Но на самом деле тут всё просто. Когда пользователь говорил OK Google своему телефону или очкам, он только к этому девайсу и обращался. Соответственно, телефон в кармане соседа этих команд не слышал, и никак на них не реагировал. А когда орать заветный «сим-сим» поручили жизнерадостным комсомольцам из телерекламы, и стали транслировать их вопли через качественные колонки на всю гостиную в каждом втором американском доме (трансляцию Superbowl LI смотрели 111,3 млн зрителей), то система расслышала ключевые для себя слова и метнулась исполнять последующие команды, в порядке их поступления.

Вот и всё, что нам, в сущности, нужно знать про голосовой интерфейс ввода.
На случай, если мы не знали этого раньше.
В отличие от систем, использующих для доступа пароли, коды доверенных устройств, отпечатки пальцев и контуры лица, голосовой ввод на сегодня совершенно анонимен и бесхозен. Им может пользоваться кто угодно. И для отдачи команд (смартфону, компьютеру, системе бронирования, офисному лифту), и для диктовки текстов.
Задача распознавания «хозяина» в этой технологии пока что не ставилась и не решалась.

Как показал инцидент во время трансляции Superbowl, это открывает необъятный простор для злоупотреблений - и для лулзов (написать, например, песню, где OK Google или Hey Siri станет припевом), и для несанкционированного доступа к чужим устройствам в пределах слышимости.

Месяцем раньше похожая неприятность постигла пользователей аналогичного устройства от Amazon в Южной Калифорнии. После того, как в местных теленовостях показали сюжет, где маленькая девочка заказала через Amazon Echo домик для своей куклы и полтора кило печенья, ведущий прокомментировал:
- Мне понравилось, как девочка сказала Alexa ordered me a dollhouse.
Эта фраза, произнесённая хорошо поставленным дикторским голосом, была расценена многими устройствами Amazon Echo как команда начать покупку кукольного домика в онлайн-магазине. Для владельцев Echo этот инцидент негативных финансовых последствий не имел, потому что процесс покупки интерактивен, а ведущий продолжать тему не стал. Зато на интернет-магазины в Сан-Диего обрушился шквал неоконченных заявок на покупки кукольных домиков...

Впрочем, разбираться с рисками предоставим параноикам и другим экспертам. Куда более печальный вывод, лично для меня - что технологии голосового ввода сегодня остаются в очень сыром и недоразвитом виде. Те решения, которые мы сегодня имеем на массовом рынке - это не бета и даже не альфа-версия. Это скорей прототип. А жаль, потому что речевой ввод текстов и команд - штука действительно очень крутая и полезная.

android, аудио, google

Up