Она сделает все, что попросишь: разработчики Siri создают искусственный интеллект нового типа

Aug 28, 2014 19:49

После того, как корпорация Apple 04 октября 2011 года объявила о выходе iPhone 4s, пресса все свое внимание сосредоточила - нет, не на скоростном процессоре A5 и не на навороченной камере; вместо них в центре внимания оказалась необычная новая функция: голосовой помощник Siri. Поведение первой версии Siri, наделенной женским голосом, сильно напоминало человеческое; программа понимала команды и выдавала ответы - это был прорыв в области искусственного интеллекта, который, казалось, приблизил нас к пресловутой сингулярности (концепция «технологической сингулярности», предложенная Вернором Винджем - прим. перев.). Siri прекрасно выполняла отдельные просьбы, типа «Установите будильник на 6:30 утра» или «Позвоните Диане на мобильный телефон». Siri обладала индивидуальностью: если бы мы спросили ее о том, существует ли Бог или нет, то она бы, правда не без некоторых сомнений, благоразумно ответила: «Я стараюсь не смешивать духовное начало с компьютерным».

Однако в течение следующих нескольких месяцев ограниченность Siri стала для всех очевидной. Если попросить ее заказать билет на самолет, то она лишь переадресует вас к специализированным веб-сайтам, но не предложит варианты рейсов, не говоря уж о бронировании места. Попросите ее приобрести одну из новых книг Ли Чайлда ((Lee Child) британский писатель, автор триллеров - прим. перев.), и она не сможет этого сделать. И хотя Apple с тех пор расширил возможности Siri, и программа научилась теперь заказывать, например, столик в ресторанах OpenTable, она все равно не способна соединить два разных запроса, например: забронировать столик и одновременно, скажем, согласовать этот заказ с распорядком дня пользователя. Siri умеет выполнять каждую из команд по отдельности, но осуществлять их одновременно, т.е. заказывать столик в ресторане, сверяясь с органайзером, она не умеет.

И вот в настоящее время небольшая группа разработчиков из стартапа Viv Labs пытается создать более продвинутую форму искусственного интеллекта, которая бы смогла преодолеть ограниченность Siri. По уверениям создателей, в отличие Siri, умеющей выполнять лишь те задачи, на которые ее запрограммировали разработчики компании Apple, новая версия будет способна самообучаться - а это порождает почти безграничные возможности. Viv Labs уверяет, что со временем их программа будет способна учитывать индивидуальные предпочтения пользователя и почти бесконечное количество условий, с тем чтобы выдать ответ практически на любой запрос и выполнить любую просьбу.

«Siri - это всего лишь, так сказать, одна из глав большой книги», - говорит один из основателей Viv Labs Даг Китлаус (Dag Kittlaus). Ну что ж, ему виднее. До перехода в Viv Labs, Китлаус вместе с другими соучредителями, Адамом Чейером (Adam Cheyer) и Крисом Бригемом (Chris Brigham), участвовал в создании Siri.

В течение последних двух лет команда Viv Labs создает продукт под именем Viv (в названии лежит латинский корень со значением «жить»). Данный проект скрывался под завесой секретности, но те немногие, кто с ним соприкоснулись, отзываются о нем восторженно. «Здесь самое важное - заглянуть в будущее, - говорит Орен Этциони (Oren Etzioni), известный эксперт по искусственному интеллекту, возглавляющий Институт искусственного интеллекта имени Пола Аллена. - Если Viv Labs добьется успеха, то в будущем появится большое количество интеллектуальных помощников и связанная с ними многомиллиардная индустрия».

Viv Labs - не единственная компания, претендующая на часть этого рынка. Область искусственного интеллекта превратилась в арену мощной борьбы между корпорациями, причем интернет-гиганты уже раскупают стартапы и талантливых специалистов, занятых разработкой искусственного интеллекта. Недавно корпорация Google приобрела за 500 миллионов долларов британскую компанию DeepMind, занятую разработками в области «глубокого обучения», и заманила в свою штаб-квартиру в Маунтин-Вью, штат Калифорния, двух легендарных специалистов в этой области - Джеффри Хинтона (Geoffrey Hinton) и Рэя Курцвейла (Ray Kurzweil). В компании Facebook тоже имеется своя группа, специализирующаяся на задачах «глубокого обучения», под руководством Яна Лекуна (Yann LeCun) из Нью-Йоркского университета. Их цель - создать искусственный интеллект нового поколения, который бы смог использовать для прогнозирования массивные базы данных и выполнять команды пользователя.

Программа Viv хочет стать первым ориентированным на потребителя интеллектуальным ассистентом, который и призван решить поставленные задачи; она хочет быть не только умной и гибкой, но и, так сказать, вездесущей. Создатели Viv надеются, что когда-нибудь их программа будет присутствовать в многочисленных гаджетах, подключаемых к Интернету, а пользователи с ее помощью будут получать доступ к искусственному интеллекту, как к коммунальным услугам, например, к электричеству. Проще говоря, продолжают ученые, пользователи получат возможность подключаться к «глобальному мозгу», поддерживающему миллионы различных приложений и девайсов.

«Я очень горжусь Siri и тем влиянием, которое она оказала на мир, но во многих отношениях это влияние можно было бы расширить, - говорит Чейер. - Для меня, например, недостаточно таких свойств как мобильность, доступность, компактность и возможность использования в рамках предприятия. Я хотел бы сделать нечто, способное радикально изменить принципы создания программного обеспечения».

Компания Viv labs расположилась за обычной дверью без вывески, в обыкновенном офисном здании в центре города Сан-Хосе. Посетитель сначала оказывается в скромных апартаментах, проходит мимо бильярдного стола и попадает в единственный зал, в котором за длинными столами сидят несколько инженеров, устремив свои взгляды в мониторы компьютеров. Первым начинает рассказывать Китлаус. Он - менеджер по продукту; работал в свое время в компаниях Motorola и Apple.

Китлаус признает, что на рынке уже существует множество систем с голосовым управлением. Помимо Siri, на рынке есть еще и Google Now, который может предвидеть некоторые из команд пользователя; к примеру, она способна дать такой совет: на дорогах пробки, поэтому выезжай в аэропорт на 15 минут раньше. А недавно корпорация Microsoft, которая уже давно неравнодушна к технологиям машинного обучения, представила систему Cortana, напоминающую Siri. Да и компания Amazon тоже стала использовать голосовые технологии в своих телепрограммах.

Но, по мнению Китлауса, всем конкурирующим продуктам в большой мере свойственна функциональная ограниченность. К мнению Китлауса присоединяется и Чейер: «Сервис Google Now использует огромный граф знаний; пользователь может задавать отдельные вопросы, типа „Где родился Авраам Линкольн?“ и получить точный ответ. Можно задать и отдельный вопрос о населении города - система опять предложит ответ вместе с диаграммой. Однако Google Now не воспринимает смешанные вопросы, вроде такого: „Каково население города, в котором родился Авраам Линкольн?“» Google Now способна ответить на каждый из двух подвопросов, но объединить воедино или же сделать какое-нибудь правдоподобное предположение она не в состоянии. Подобно Siri, она не может выйти за рамки программного кода, введенного в нее программистом.

Viv должна преодолеть эту ограниченность и выйти за рамки программного кода, поскольку она сама и будет его генерировать; никаких программистов для этого не потребуется. Возьмем, например, составную команду: «Мне нужен билет до Далласа и чтобы в сиденье мог поместиться человек, ростом с баскетболиста Шакила О’Нила». А после грамматического разбора предложения программа Viv выполнит свой главный трюк - автоматически создаст эффективную программу, способную проанализировать информацию из различных источников (скажем, связать сайты бронирования билетов, типа Kayak и SeatGuru, со справочником Национальной баскетбольной ассоциации (NBA)), а затем предложит человеку, обладающему высоким ростом, билеты на соответствующие места - причем ответ будет получен за долю секунды!

Программа Viv является открытой системой, что позволяет самым разным проектам и приложениям стать частью ее гигантского мозга. Технические требования минимальны; правда, без краткого «обучения» (в некоторых случаях, занимающее несколько минут) все же не обойтись, поскольку Viv необходимо сначала научиться профессиональному жаргону по конкретной теме. Способность программы Viv к пониманию будет прогрессировать по мере пополнения базы знаний; создатели Viv заложили в ее основу три принципа, или по их выражению «столпа»: 1) обучение осуществляется с погружением во внешнюю среду; 2) объем генерируемой информации будет превышать объем полученной; 3) обучение должно происходить ежедневно. Машинное обучение Viv, как и других систем искусственного интеллекта, построено на базе сложных алгоритмов анализа текста и поведения пользователей программы - чем больше людей, тем умнее система становится. Получив информацию о своих пользователях и потребляемых ими услугах, Viv начинает просеивать обширное количество данных и выискивает новые способы их анализа и обработки.

Китлаус говорит, что, в конечном счете, из программы Viv должен получиться цифровой помощник, который способен заранее определять вкусы и потребности пользователя. Китлаус представляет себе работу Viv следующим образом: вот, скажем, в два часа ночи у закусочной стоит человек в состоянии подпития и, обращаясь к своему телефону, говорит - «Я пьян». И на основе этой информации Viv, не говоря ни слова, сама начнет думать за своего хозяина: она сама выберет автосервис и закажет машину к той самой закусочной, рядом с которой стоит бедолага, а затем сама сообщит водителю домашний адрес. Участие владельца Viv вообще не требуется.

Китлаус отвечает за стратегию и маркетинг; он - единственный среди десяти разработчиков, кто не занимается написанием программ. Китлаус чем-то напоминает Стива Джобса (Steve Jobs), а Чейер - Стива Возняка (Steve Wozniak), поскольку он - идейный вдохновитель проекта. Однако Чейер, в отличие от эксцентричного создателя Apple II, везде, и в работе и за ее пределами, проявляет дотошность и тщательность. В детстве он занимал призовые места в соревнованиях по сборке кубика Рубика с результатом в среднем 26 секунд. А познакомившись с программированием, он тут же окунулся в него с головой. «Мне казалось, что компьютеры созданы специально для меня», - говорит Чейер. В школе он сформулировал для себя собственные принципы, дабы покорить весь мир. «Самое главное для меня - это, так сказать, вербально выразить поставленную цель, - говорит он. - Я облекаю в словесную форму свои чувства и потребности, концентрируюсь на словах. И всем говорю, что, мол, „работаю над тем-то и тем-то“. И чем чаще я это повторяю, тем больше сам в это верю. А уж если я что-то сказал, значит, просто, обязан это сделать. И мне всегда помогут. В общем, мой подход работает».

В результате, Чейеру удалось предложить свои ранние компьютерные наработки, включая самые крутые, институту SRI International в Менло-Парк, разработавшему в свое время концепцию компьютерных окон и компьютерной мыши. Именно там, в начале 2000-х годов, при поддержке DARPA Чейер возглавил проект по созданию «человекоподобной системы, которая способна воспринимать окружающий мир, осознавать его, рассуждать о нем, а также составлять графики расписания, общаться и выполнять команды, поступающие извне». В итоге SRI International выдала на-гора виртуального помощника под названием CALO (Cognitive Assistant that Learns and Organizes - «Познающий обучаемый помощник, которое организует распорядок дня»). Разработчики искусственного интеллекта установили высокую планку, не в последнюю очередь благодаря созданной ими системе распознавания естественных языков. Правда, не совсем понятно, что будет после того, как эту пятилетнюю программу свернут.

Все описываемые выше события произошли после того, как Китлаус покинул компанию Motorola и стал работать в SRI International в качестве ответственного за бизнес-направление. Увидев прототип CALO, он тут же увидел в этом прототипе идеальное дополнение к недавно выпущенной версии iPhone и предложил Чейеру на его основе создать стартап. В 2007 году с благословения SRI International, они получили лицензию на технологию, включили третьего соучредителя - эксперта в области искусственного интеллекта по имени Том Грюбер (Tom Gruber) и переименовали прототип, дав ему имя Siri.

К небольшой команде подключился инженер Крис Бригем (Chris Brigham), работа которого над проектом CALO чрезвычайно впечатлила Чейера. Разработчики переехали в Сан-Хосе, горя желанием завершить проект за два года. «Понимание естественного языка - это одна из самых трудных задач, стоявших перед нами», - говорит Чейер. В конце концов, у них вышло приложение для iPhone, способное выполнять целый ряд задач - вызвать такси, заказывать столик в ресторане, покупать билеты в кино и поддерживать диалог. Сервис запустили в феврале 2010 года. А три недели спустя, позвонил сам Стив Джобс с намерением купить стартап.

«Он был очень хорошо наслышан о нашем приложении. Это меня потрясло», - говорит Чейер. Поначалу они ничего никому продавать не хотели, но Джобс настаивал, выдвинув мощный аргумент: корпорация Apple, в отличие от их стартапа, способна предложить Siri намного более широкому кругу потребителей. Джобс пообещал вставить их приложение на iPhone в качестве ключевого элемента. В апреле 2010 года Apple купил компанию, как сообщалось, за 200 миллионов долларов.

Основная часть команды разработчиков Siri перешла в Apple вместе со своим проектом. Однако не успел Siri стать успешным многоязычным продуктом, предназначенным для миллионов пользователей, как у некоторых членов первоначальной команды разработчиков возникли трения с новым руководством Apple, которое, в отличие от Джобса, не питало столь сильной любви к их детищу. И тогда на следующий день после запуска проекта, в день смерти Стива Джобса, Китлаус покинул Apple. Через несколько месяцев за Китлаусом последовал Чейер. «Я уверен, если бы Стив был жив, то я бы до сих пор работал в Apple, - говорит Чейер. - Но получилось как получилось». (Правда, третий соучредитель Siri, Грюбер, так и остался в Apple.)

Через несколько месяцев Китлаус снова связался с Чейером и Бригемом. Их продолжал занимать вопрос, каким станет мир лет этак через пять. И вот, в тот самый момент, когда они излагали свои мысли на белой маркерной доске в доме Китлауса, Бригем выдвинул следующую идею: нужна программа, которая бы смогла по-новому объединять известные ей данные. В дальнейшем участники той встречи выдвинули концепцию облачного интеллекта - так сказать, глобального мозга. «Единственный способ, с помощью которого можно сконструировать этого глобального помощника, работающего в режиме диалога, - сделать его доступным для третьих лиц. Надо, чтобы любой мог к нему подключиться», - поясняет Бригем.

В прошлом они постоянно усовершенствовали Siri, создавая задел на его дальнейший апргейд, ведь они и предполагать не могли, что его когда-нибудь купит Apple. До того, как Джобс приобрел их софт, они подключили Siri к примерно 45 ресурсам, таким как AllMenus.com и Yahoo, в то время как Apple смог подсоединить Siri к менее, чем полудюжине. «В 2014 году Siri стал менее функциональным, чем в 2010 году», - говорит Гэри Моргенталер (Gary Morgenthaler), один из спонсоров оригинального приложения.

Чейер и Бригем привлекли к работе специалистов в различных областях искусственного интеллекта и программирования. Для того, чтобы произвести некоторые из самых сложных элементов (системы, позволяющие Viv понимать язык и писать собственные программы) они подключили к проекту Марка Гэйбела (Mark Gabel) из Техасского университета в Далласе и привлекли еще одного видного эксперта - Дэвида Гондека (David Gondek), одного из создателей суперкомпьютера Watson.

Финансовую поддержку оказала Солина Чау (Solina Chau), партнер (по бизнесу и т.д.) одного из самых богатых людей в Китае, Ли Кашина (Li Ka-shing). Чау управляет венчурной компанией Horizons Ventures. Помимо инвестирования в Facebook, DeepMind и Summly (куплен компанией Yahoo), она помогла профинансировать Siri. Когда основатели Viv попросили у Чау 10 миллионов долларов, она тут же сказала: «Я в доле. Вы хотели бы получить деньги прямо сейчас?»

И вот, в начале мая на еженедельном собрании разработчиков Китлаус обратился к ним с такими словами: «Сейчас можно заметить прогресс. Мы подбираемся все ближе и ближе к цели». Каждый из разработчиков сообщает о достигнутых результатах и намечает следующие шаги. Вот, один из программистов, например, объясняет, как он пытается заставить Viv, чтобы она ответила, скажем, на следующий запрос: «Хочу взять билет на дешевый рейс на 2 июля из аэропорта Сан-Франциско в аэропорт Шарля де Голля, и чтобы обратный рейс был в следующий понедельник». Оказывается, на прошлой неделе этот программист подключил базу бронирования билетов, а сейчас, открыв виртуальный телефон на экране гаджета, изложил свою просьбу. И Viv подсказала оптимальный ответ на запрос: рейс 455 авиакомпании «Люфтганза». «В соответствии с вашими предпочтениями вам подходит место 61G», - отвечает Viv, после чего пользователю предлагается произвести оплату по карте.

Разработчики Viv полагают, что их продукт заинтересует не только производителей компьютеров, но также производителей телевизоров, автомобильные компании, разработчиков приложений и т.д. - для них Viv будет играть, наверное, ту же роль, какую в свое время играли микропроцессоры Intel для производителей компьютерного «железа». Разработчики Viv уже представляют, как среди привычных всем иконок, таких как «Вкл.», «Wi-Fi» и «Bluetooth», будет красоваться символ, обозначающий их продукт - «Viv».

«[Искусственный] интеллект превращается в одну из разновидностей коммунальных услуг, - считает Китлаус. - Парень, было бы неплохо охватить всю внешнюю среду вокруг тебя, и чтобы внешняя среда знала про тебя все, что нужно, и готова была сделать для тебя все, что угодно!»

На основе Viv могла бы возникнуть принципиально новая экономика; Китлаус полагает, что Viv может сыграть важную роль в становлении того, что он называет «экономикой виртуальных рекомендаций». Взять, к примеру, сервис знакомств Match.com. С его помощью ежедневно устраиваются до 50 тысяч свиданий. Но, Китлаус заметил, что «Match.com не в состоянии давать советы, типа: „Позвольте мне предложить вам билеты туда-то и туда-то? Хотите, я закажу для вас в ресторане столик? Может, заказать машину, чтобы заехать за вашей девушкой? Хотите, чтобы на столик вашей девушке положили букет?“» Зато это умеет делать Viv.

Создать подобную среду - задача трудная, поэтому Viv Labs торопится продать ее какому-нибудь интернет-гиганту. «Давайте разберемся, чего мы хотим изначально как основатели стартапа, - говорит Китлаус. - Мы мечтаем о сплошной компьютеризации. Мы хотим глобального охвата и собираемся понять, как двигаться в этом направлении». Получается, Viv Labs опять будут кому-то продавать? «Я глубоко убежден в том, что они сами должны выстраивать эту среду. Они смогут ею управлять только самостоятельно», - говорит Барт Суонсон (Bart Swanson), представитель Horizons в руководстве Viv Labs.

Достигнут ли они успеха, конечно же, неизвестно. «Теоретически у Viv очень большое будущее, но пока только теоретически», - говорит Моргенталер, первоначальный спонсор Siri. По его словам, самая большая проблема заключается в следующем: смогут ли тысячи подключенных к ней компонентов работать вместе или же они станут конфликтовать, что приведет к сбоям в работе Viv, и она будет совершать глупые ошибки? Сумеет ли она их исправлять? «Этого никто не знает, но я уверен в том, что, в конечном счете, сумеет. Правда, не знаю, когда это будет и как», - считает Моргенталер.

Его мнение разделяет и большинство других экспертов, которые уже знакомы с предыдущими демо-версиями этой программы. Среди них и Вишал Шарма (Vishal Sharma), вице-президент по развитию Google Now. Когда Чейер продемонстрировал ему, как Viv советует выбрать вино, прекрасно сочетающееся с некоторым из выбранных блюд, Шарма просто потерял дар речи от восхищения. «Я еще нигде не видел, чтобы какая-то программа смогла так же хорошо давать советы, - признался он. - Ошибки, конечно, случаются; но нечто, похожее на эту программу, должно обязательно появиться».

И действительно, Viv много чего умеет делать, и тем вполне оправдывает ожидания учредителей Viv Labs. Программа Viv должна доказать, что ее уникальная способность - то есть умение самой писать программы - поможет переваривать петабайты данных. Благодаря интенсивному обучению, потенциал Viv будет постоянно расти; ее будут хорошо раскупать, даже несмотря на то, что у нее отсутствует солидный фундамент, который имеется у Google и Apple. Пусть к Viv подключаются разработчики, которые заявляли о том, что готовы поставить свои программные продукты на несколько разных платформ. Кроме того, Viv должна быть столь же очаровательной, как Скарлетт Йоханссон (Scarlett Johansson) в фильме «Она» («Her»), ведь людям хотелось бы доверять свою личную информацию не роботу, а приятному собеседнику, который займет важное место в жизни владельца гаджета.

Разработчики Siri уверены, что новая версия их программы затмит предыдущую. Но случится ли это и когда именно - на этот вопрос даже сама Viv ответить не сможет. Пока не сможет.

Смотрите также:
Русскоязычная Siri

Искусственный интеллект

Previous post Next post
Up