Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

Mar 19, 2016 01:33

статья для Хабра
https://habrahabr.ru/post/280186/
тут просто резервная копия (там статья уже пропала просто, после модерации)

Мы все знаем, что алкоголь и общение, вместо составляют не всегда хорошую комбинацию, даже у звезд. Тем не менее, многие из нас повторяют этот опыт снова и снова. И этот опыт дал американским ученым (Nabil Hossain с приятелями из University of Rochester) интересную идею. В итоге, американские ученые разработали нейронную сеть, способную распознавать в Twitter посты, написанные в состоянии алкогольного опьянения и как эти сообщения распределяются по всему обществу. Кроме того, полученная математическая модель может определять, где авторы «пьяных» постов находились в момент их написания.
Об этом сообщает MIT Technology Review.



Для создания своей нейросети специалисты из University of Rochester в течение целого года собирали твиты, в которых используется специфическая «алкогольная» лексика. Из этого набора, фильтровались все твиты, которые упоминают алкоголь или связанных с алкоголем слов, таких, как "пьяный", "пиво", "вечеринка" и так далее. Анализ около 11 000 постов помог установить, является ли автор сообщения тем, кто пьет спиртное, и был ли твит написан непосредственно во время употребления напитка. Это достаточно большой набор твитов для алгоритма машинного обучения.

Ученые также решили определить, откуда пользователи чаще всего пишут «пьяные» твиты.



Чтобы понять, находился ли автор поста дома, анализировалось употребление специфической «домашней» лексики (например «диван» или «ванна»). Кроме того, по возможности, использовались данные геолокации. Для уточнения координат пользователей, были разработаны дополнительные алгоритмы, например было интересно узнать, дома пользователи, или где-либо еще? Типовые алгоритмы включают в себя анализ мест отправки последнего сообщения в интервале времени от 1 часа ночи, до 6 часов утра. Тем не менее методы имеют свои недостатки и не высокую точность.

Hossain с коллегами разработали другой подход. Они составили список слов и фраз, наиболее вероятно отправленных из своих домов, таких как "Наконец дома!", или "в ванне", "на диване", "перед телевизором" и так далее. Данные твиты были исходным набором данных для уточнения местоположения людей, на основе которых нейросетью были сформированы собственные модели определения людей дома. Алгоритм уточнял, как местоположение пользователя дома, коррелирует с другими показателями, такими как местоположение последнего твита днём, самым массовым расположением твита, процент твитов из определенного места и т.п.

Опираясь на несколько показателей, нейросеть значительно повысила точность. В итоге Hossain и соавторы утверждают, что могут определять пользователей вне дома с точностью до 100 метров с вероятностью в 80%. Это значительно лучше, чем любая предыдущая работа.

Вместе, эти два метода позволили команде разработать модель, когда и где люди пьют. И они использовали это, чтобы сравнить примеры типичные питья в Нью-Йорке, и в пригородной зоне округа Монро.

Исследователи делают это, путем деления каждой области сетку из 100 х 100 ячеек и маркировки тех областей, где есть твиты, связанные с алкоголем. Что позволяет им разрабатывать и сравнивать "тепловые карты" употребления алкоголя для каждой области.

Также различаются твиты о теме питья сделаных из домашнего местоположения, от твитов в других местах. Намечаются точки продаж алкоголя в каждой области. Это позволяет исследователям изучить взаимосвязь между плотностью твитов, отправленных из разных регионов в состоянии алкогольного опьянения и плотности продажи алкоголя.

Результаты интересны для ознакомления. Во-первых, Hossain отметил, что более высокая доля твитов в Нью-Йорке связаны с алкоголем, чем в графстве Монро. "Одно из возможных объяснений является то, что переполненный город, такой как Нью-Йорк с высокой плотностью продажи алкоголя, много людей при общении, вероятно, используют более высокий уровень потребления алкоголя" говорят они.



Более того, данные геолокации показывают, что более высокая доля людей пьет дома (или в пределах 100 метров от дома) в Нью-Йорке, чем в графстве Монро, где большая часть людей пьет далее, чем в километре от дома.

Тепловые карты, также, выявляют интересные закономерности. Это позволяет команде находить области в 100 х 100 метров, в квадратах сетки, где были, по крайней мере пять твитов об алкоголе. "Мы считаем, что такие области являются признаком деятельности необычной питьевой активности," утверждает Hossain.

Они также обнаружили корреляцию между плотностью продажи алкоголя в регионе, и количеством твитов, указывающих, что кто-то пьет в настоящее время. Возникает интересный вопрос о том, как корреляция и причинно-следственная связь связаны в данном случае. Высокая плотность продажи алкоголя заставляет людей пить больше? Или пьющие стекаются в районы с высокой плотностью продажи алкоголя? Конечно, такого рода данные сами по себе не могут ответить на этот вопрос.

Тем не менее, достоинство этого метода является то, что это дешево и быстро. Другие методы, для получения аналогичной информации являются чрезвычайно дорогими и отнимаю много времени.

Как правило, требуется, чтобы люди были тщательно отобраны, для заполнения заранее подготовленных вопросников, которые должны быть далее тщательно проанализированы. Нейросеть же, обученная к этому методу может даже контролировать употребление алкоголя в режиме реального времени. "Наши результаты показывают, что твиты могут обеспечить подробной информацией о происходящем в городах", говорят исследователи.

Есть особенности, конечно. Существует искажение в данных, собранных из Twitter, так как преобладают молодые люди и представлена небольшая часть населения, активном пользующаяся социальными сетями. Но подобные искажения присутствуют в других сбора данных методы, например, опросы, как правило, не учитывают людей, которые не хотят проходить обследования, таких как некоторые иммигранты. Выявление искажений статистических данных, является важной частью всех сбора данных методов.

В дальнейшем авторы исследования хотят научить нейросеть определять пол, возраст, этническую принадлежность и иные особенности по записям в Twitter. Ученые считают, что это поможет в изучении влияния алкоголя на здоровье. Такое, казалось бы не серьезное исследование, имеет достаточно высокую практическую важность, так как только в США, из-за злоупотребления алкогольными напитками умирает 75 000 человек в год. Наличие модели потребления алкоголя в обществе, позволит наметить обоснованные пути решения данной проблемы с минимальными затратами.
Previous post Next post
Up