В сентябре я был в Амстердаме на конференции
Affective Computers and Intelligent Interaction (ACII). Конференция посвящена компьютерным моделям эмоциональных процессов и созданию роботов (интерфейсов), которые распознают эмоции пользователя или сами выражают эмоции при общении с пользователем. Сейчас эта конференция проводится европейской ассоциацией
HUMAINE. Конференция охватывает проблемы нескольких наук: это компьютерные исследования, психология, анализ поведения, лингвистика и т. д. Традиционно эти проблемы рассматриваются на разных конференциях, но здесь они объединены вокруг задачи компьютерного моделирования. В этом году в Амстердаме проходили подряд три разных события (очень близкие по теме) - это конференция ACII, симпозиум по обработке социальных сигналов (я написал про него
вот тут) и Intelligent Virtual Agents (IVA) - конференция про "компьютерных человечков", увы я туда не попал.
Для этих конференций организаторы сняли помещения в Rode Hoed - бывшей протестантской церкви 17 века. Сейчас эти помещения сдаются для разных религиозных и светских мероприятий.
Амстердам - замечательный город (я там был в первый раз), в перерывах между секциями можно сидеть на деревянной пристани на берегу канала и кормить хлебом уток с полосатыми лапами.
Напишу отрывочно про то, что мне показалось интересным из докладов на конференции.
Конечно, достаточно много прикладных исследований, направленных на распознавание стресса или усталости (это плохо для операторов, водителей и пользователя из-за компьютера надо заставлять иногда вставать). Но я эти исследования пропущу.
Приглашённый докладчик
Justine Cassell “Social Practice: Sociocultural Approaches to Identity in Embodied Conversational Agents?”
Чёрное население США использует такой специальный диалект, который называется African American Eglish (AAE). Да, сильно отличается от английского, на приведённом видео игры двух детей я ничего не понял. Использование этого диалекта сложно связано с социальными ролями (кто - наш, кто не наш, с кем мы общаемся, с кем - нет). Интересно пронаблюдать и описать правила переключения между стандартным английским и AAE.
После долгих наблюдений игры реальных детей (где и как они переходят с английского на AAE), можно создать компьютерного агента (трёхмерную фигуру), которая будет вместе с ребёнком собирать паззл на столе, причём можно менять стратегии поведения этой фигуры (на самом деле - фигурой управляет человек) и соответственно, в экспериментальной ситуации смотреть, где и как ребенок переходит с нормализованного английского на AAE. Это пример использования современных интерфейсов для решения чисто лингвистической задачи.
Другие доклады.
Если сравнить несколько постановок одной пьесы или несколько кинопостановок, то можно заметить сходства и различия в игре актёров в одной и той же сцене. Оказывается, жесты левой рукой артикулируют расслабленное сосотояние, а жесты правой рукой - проявления скорее враждебных действий!
Ну, про выводы поднялся большой спор (а правши ли актёры? и т. д.), но замечательно то, что сравнение жестов из 2-х фильмов, это вполне доступная тема для курсовой или диплома.
(это доклад Gesture and Emotion: Can basic gestural form features discriminate emotions? Michael Kipp, Jean-Claude Martin)
Теперь про роботов.
Click to view
Это масштабное исследование, в котором в шахматном клубе установили робота iCat, и дети могли выбирать, с кем играть - со сверстниками или с роботом. Робот демонстрировал очень прикольную мимику и дети демонстрировали очень прикольную мимику (детей записывали на видео, получился замечательный материал). Очень ценные наблюдения о долговременной эмоциональной динамике - то есть когда детям надоедает играть с iCat (ну, в рамках всего клуба такое "надоедание" заняло 5 месяцев); главный вопрос - как устроены такие длительные эмоциональные процессы.
It's All in the Game: Towards an Affect Sensitive and Context Aware Game Companion Ginevra Castellano, Iolanda Leite, André Pereira, Carlos Martinho, Ana Paiva, Peter William McOwan
Эмоция может вызываться простым стимулом (протухшее мясо вызывает отвращение) или более сложным стимулом, включающим оценку будущих событий, их вероятность и т. д. (так происходит в случае надежды). Эти сложные эмоции можно попробовать смоделировать. Вот эти агенты играют в кости (но правила какие-то завороченные, похоже на покер). Их эмоции вызываются достаточно сложными стимулами, которые включают и текущее состояние и прогноз относительно будущих событий в игре. (There’s Always Hope: Enhancing Agent Believability through Expectation-Based Emotions Tibor Bosse, Edwin Zwanenburg)
Я раньше думал, что "раппорт" - это "ругательное" слово, которое используется только в псевдоучениях типа НЛП. Там под этим словом понимают жесты, мимику, поведение, которые поддерживают оппонента по диалогу (когда он говорит, он будет чувствовать, что его слова важны и интересны для собеседника). Оказывается этой теме есть место в серьёзных исследованиях (Rapport and Facial Expressions Ning Wang, Jonathan Gratch) Кроме этого исследования, на самом деле, было много других работ, посвящённых действиям слушателя в диалоге - тем знакам, которые обеспечивают для говорящего обратную связь при синтезе речи.
Очень интересная постановка задачи в докладе A socio-emotional model of impoliteness for Non-Player Characters (Sabrina Campano, Nicolas Sabouret) - они пытаются создать "невежливый интерфейс". Дело в том, что в обычной ситуации человек стремится смягчать свои высказывания и соблюдать стратегии Браун-Левинсона (это теория вежливости). Но если мы разрабатываем компьютерную игру про криминальный мир (ух, там такая графика! такие бандиты!), то там герои должны быть регулярно невежливы. Причём уровень невежливости зависит от их эмоционального состояния. Правда здорово? Мы этого мафиозника начинаем бесить и он начинает нам хамить! Я серьёзно: очень интересная постановка задачи!
Один из самых интересных докладов - “I can feel it too!”: Emergent empathic reactions between synthetic characters (Sérgio Hortas Rodrigues, Samuel Francisco Mascarenhas, João Dias, Ana Paiva). Там множество человечков, которые живут в виртуальном мире, обладают способностью к сопереживанию. То есть если Вася ругает Петю, то друзья Васи радуются, а друзья Пети - хмурятся. Видео общения этих человечков получается просто очаровательным!
Докладчики из компании Филипс рассказывали про плеер, который выбирает музыку в зависимости от настроения пользователя. Он меряет тонкие изменения температуры тела и КГР (кожно-гальваническую реакцию) - и на основании этого определяет песни, которые хорошо действуют на пользователя... правда вся эта система действует с существенными задержками и с малой точностью, но кажется достаточно уверенно движется к коммерческому внедрению.
На конференции была демонстрационная секция. Это значит, кто коммерческие компании и университеты могли ставить туда технические устройства, чтобы другие участники с ними игрались. Например, там было множество разных трёхмерных человечков на экранах, с которыми можно было разговаривать (кхе-кхе, ну не очень пока получается разговаривать - но человечки есть очень прикольные) и т. д.
Chameleon project
Click to view
Chameleon project - это живые портреты. Когда на них никто не смотрит, на них спящие лица, но когда к ним кто-то подходит, они просыпаются и демонстрируют ту эмоцию (выражение лица), которую испытывает наблюдатель. Дело в том, что над портретом стоит маленькая камера, которая снимает посетителя, невидимый компьютер распознаёт его мимику и запускает тот клип, где актёр демонстрирует сходное выражение лица. Тётенька на портрете понимала мою вымученную улыбку и улыбалась в ответ, а вот дяденька корчил жуткую гримасу отвращения. Примерно вот так на видео выше, только на конференции была более продвинутая версия.
Что это у него на спине? Это тактильный интерфейс. Современные игры умеют передавать пользователю ощущения не только через изображение, но и, например, через вибрацию джойстика. Эти руки на спине сделаны для того, чтобы передавать игроку ощущение от объятий (если кто-то обнимает его в трёхмерной игрушке). Мне очень понравилось бархатное сердце, которое вешается на грудь и передаёт в грудь стук сердца (в этом сердце встроенный динамик). Ощущаешь этот стук как свой собственный, поэтому когда стук ускоряется натурально чувствуешь возбуждение.
Ну и фантастическая секция про музыку: компьютеры должны будут распознавать эмоцию пользователя и передавать это настроение в музыке (нечто в этом роде делает рояль, но только у него слишком много кнопок :), а ещё они должны будут вместе с человеком слушать музыку и впадать в то или иное настроение. Вот пример интерфейса, который слушает разные исполнения Гайдна и проникается разными эмоциями (эмоции отражаются на координатной сетке в нижней части кадра).
Click to view
Ещё, очень интересна мысль о том, что классическую музыку можно анализировать по множеству разных шкал, но если применить эти же шкалы к популярной музыке, то значения многих шкал слипаются (начинают изменяться синхронно - между ними не наблюдается никакой разницы). То есть в классической музыки можно выражать большой спектр эмоций, а в популярной музыке этот спектр оказывается сильно ограничен (Using Dimensional Descriptions to Express the Emotional Content of Music Roddy Cowie, Cian Doherty, Edelle McMahon)
Ну вот. Получилось, что я не про всё написал, ну да ладно. Что главное: на примере этой конференции видно, что коммуникация - это очень широкая область; эмоциональное взаимодействие, работу с компьютером, прослушивание музыки - всё можно рассматривать как коммуникацию и изучать почти (или совсем) лингвистическими методами. Причём такое пересечение наук открывает много совершенно неожиданных проблем для исследования.