Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

    В свете текущих выходных, важно не забывать, что алкоголь и общение, вместе составляют не всегда хорошую комбинацию, даже у звезд. Тем не менее, многие из нас повторяют этот опыт снова и снова. И этот опыт дал американским ученым (Nabil Hossain с приятелями из University of Rochester) интересную идею. В итоге, американские ученые разработали нейронную сеть, способную распознавать в Twitter посты написанные в состоянии алкогольного опьянения. Кроме того, полученная математическая модель может определять, где авторы «пьяных» постов находились в момент их написания.
    Об этом сообщает MIT Technology Review.



    Для создания своей нейросети специалисты из University of Rochester в течение целого года собирали твиты, в которых используется специфическая «алкогольная» лексика. Из этого набора, фильтровались все твиты, которые упоминают алкоголь или связанных с алкоголем слов, таких, как «пьяный», «пиво», «вечеринка» и так далее. Анализ около 11 000 постов помог установить, является ли автор сообщения тем, кто пьет спиртное, и был ли твит написан непосредственно во время употребления напитка. Это достаточно большой набор твитов для алгоритма машинного обучения.

    Ученые также решили определить, откуда пользователи чаще всего пишут «пьяные» твиты.



    Чтобы понять, находился ли автор поста дома, анализировалось употребление специфической «домашней» лексики (например «диван» или «ванна»). Кроме того, по возможности, использовались данные геолокации. Для уточнения координат пользователей, были разработаны дополнительные алгоритмы, например было интересно узнать, дома пользователи, или где-либо еще? Типовые алгоритмы включают в себя анализ мест отправки последнего сообщения в интервале времени от 1 часа ночи, до 6 часов утра. Тем не менее методы имеют свои недостатки и не высокую точность.

    Hossain с коллегами разработали другой подход. Они составили список слов и фраз, наиболее вероятно отправленных из своих домов, таких как «Наконец дома!», или «в ванне», «на диване», «перед телевизором» и так далее. Данные твиты были исходным набором данных для уточнения местоположения людей, на основе которых нейросетью были сформированы собственные модели определения людей дома. Алгоритм уточнял, как местоположение пользователя дома, коррелирует с другими показателями, такими как местоположение последнего твита днём, самым массовым расположением твита, процент твитов из определенного места и т.п.

    Опираясь на несколько показателей, нейросеть значительно повысила точность. В итоге Hossain и соавторы утверждают, что могут определять пользователей вне дома с точностью до 100 метров с вероятностью в 80%. Это значительно лучше, чем любая предыдущая работа.

    Вместе, эти два метода позволили команде разработать модель, когда и где люди пьют. И они использовали это, чтобы сравнить типичные примеры питья в Нью-Йорке, и в пригородной зоне округа Монро.

    Исследователи делают это, путем деления каждой области сетку из 100 х 100 ячеек и маркировки тех областей, где есть твиты, связанные с алкоголем. Что позволяет им разрабатывать и сравнивать «тепловые карты» употребления алкоголя для каждой области.

    Также различаются твиты о теме питья сделаных из домашнего местоположения, от твитов в других местах. Намечаются точки продаж алкоголя в каждой области. Это позволяет исследователям изучить взаимосвязь между плотностью твитов, отправленных из разных регионов в состоянии алкогольного опьянения и плотности продажи алкоголя.

    Результаты интересны для ознакомления. Во-первых, Hossain отметил, что более высокая доля твитов в Нью-Йорке связаны с алкоголем, чем в графстве Монро. «Одно из возможных объяснений является то, что переполненный город, такой как Нью-Йорк с высокой плотностью продажи алкоголя, способствует тому, что больше людей при общении, используют более высокий уровень потребления алкоголя из-за его доступности» говорят они.



    Более того, данные геолокации показывают, что более высокая доля людей пьет дома (или в пределах 100 метров от дома) в Нью-Йорке, чем в графстве Монро, где большая часть людей пьет далее, чем в километре от дома.

    Тепловые карты, также, выявляют интересные закономерности. Это позволяет команде находить области в 100 х 100 метров, в квадратах сетки, где были, по крайней мере пять твитов об алкоголе. «Мы считаем, что такие области являются признаком деятельности необычной питьевой активности» утверждает Hossain.

    Они также обнаружили корреляцию между плотностью продажи алкоголя в регионе, и количеством твитов, указывающих, что кто-то пьет в настоящее время. Возникает интересный вопрос о том, как корреляция и причинно-следственная связь связаны в данном случае. Высокая плотность продажи алкоголя заставляет людей пить больше? Или пьющие стекаются в районы с высокой плотностью продажи алкоголя? Конечно, такого рода данные, сами по себе не могут ответить на этот вопрос.

    Тем не менее, достоинство этого метода является то, что это дешево и быстро. Другие методы, для получения аналогичной информации, являются чрезвычайно дорогими и отнимают много времени.

    Как правило, требуется, чтобы люди были тщательно отобраны, для заполнения заранее подготовленных вопросников, которые должны быть далее тщательно проанализированы. Нейросеть же, обученная к этому методу, может даже контролировать употребление алкоголя в режиме реального времени. «Наши результаты показывают, что твиты могут обеспечить подробной информацией о происходящем в городах», говорят исследователи.

    Есть особенности, конечно. Существует искажение в данных, собранных из Twitter, так как преобладают молодые люди и представлена небольшая часть населения, активно пользующаяся социальными сетями. Но, подобные искажения, присутствуют в других методах сбора информации, например, опросы, как правило, не учитывают людей, которые не хотят проходить обследования, таких как некоторые иммигранты.



    Выявление искажений статистических данных является важной частью всех методов сбора информации.

    В дальнейшем авторы исследования хотят научить нейросеть определять пол, возраст, этническую принадлежность и иные особенности по записям в Twitter. Ученые считают, что это поможет в изучении влияния алкоголя на здоровье. Такое, казалось бы не серьезное исследование, имеет достаточно высокую практическую важность, так как только в США, из-за злоупотребления алкогольными напитками умирает 75 000 человек в год. Наличие модели потребления алкоголя в обществе, позволит наметить обоснованные пути решения данной проблемы с минимальными затратами.

    Only registered users can participate in poll. Log in, please.

    Можно ли определить ваши координаты по меткам в социальных сетях?

    • 1.9%Да, каждый день пишу несколько сообщений о происходящем вокруг4
    • 23.7%Пишу редко, информации о расположении оставляю мало50
    • 45.0%Никогда не упоминаю своего распложения95
    • 39.3%Не пользуюсь социальными сетями83
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 22

      0
      Ну как понятно. Не понятно зачем? Как это
      позволит наметить обоснованные пути решения
      Открывать бары подальше от дома?
        +1
        Решения есть. Можно взять пример Норвегии, они вполне успешно решили эту проблему, проблема была и решали её системно 50 лет. В статье про алкогольную политику в Норвегии всё четко расписано по пунктам, подальше от дома магазины по продаже алкоголя, и работают они не круглосуточно.

        Сухой закон в США, СССР пример неудачного решения проблемы. Причем в СССР ошибка более грубая, так как был проигнорирован мировой опыт. С другой стороны пик рождаемости и минимум смертности в СССР пришелся на 1987 год, но это кратковременный успех, в отличие от Норвегии.
        На примере ЕС видно, что все по разному решают проблему, единства в методах нет, как и в США кстати, где в некоторых штатах сухой закон

        Вернувшись к статье, нельзя конечно сказать, что вот новый метод решит 100% всех проблем, но никакая статистика тут не помешает, данные в реальном времени, пригодятся аналитикам. Причем как медикам, так и "силам зла", корпорациям продавцам, они так же смогут сделать выводы, как можно продать больше своей продукции.
          0
          Угу, про США можно вспомнить "чудесный" пример Юты, дающий, тем не менее, весьма посредственный результат.
            +1
            Согласен. Помню в Норвегии километров 150 пришлось проехать в поисках ближайшего алко магазина. Да и то за нами закрыл двери в три часа дня в субботу — закрываемся. Но не думаю, что сильно помогает в борьбе с алкоголизмом, самогон никто не запрещал. Например, финам не столько "сухой закон" помог, сколько замена пьянства спортом. Алкоголики остались, но их стало меньше, ибо в стране культивировался активный, здоровый образ жизни. А в когда в России поход в бассейн стоит как две, а то и три бутылки водки (а не наоборот, как, например, в большинстве стран Европы), то не удивителен выбор молодежи.
              0
              В России поход в бассейн стоит до 100 рублей (1.3$), у нас в Белгороде, детям дешевле, сотрудникам компании и бесплатно дают пользоваться часто, особого спроса нет.
              В Финляндии цены
              Спорт и развлечения
              Фитнес/спортзал, месячный платеж (абонемент) для одного взрослого 53,74 $
              Теннисный корт в аренду ( 1 час в суб./воскр.) 16,12 $
              Билет в кино на международный релиз фильма, 1 место 12,40 $

              Передвижение и транспорт
              Билет в один конец (городской транспорт) 3,72 $

              Магазины
              Большая бутылка воды (полтора литра) 2,45 $
              Бутылка красного вина (средняя цена) 11,16 $
              Пиво местного производства (пол-литра, бутылированное) 3,72 $
              Пачка сигарет Мальборо 6,82 $

              Как-бы и в Финляндии вместо 1 часа тенниса можно неделю пиво пить вечерами, цена пива сравнима с водой и одной поездкой на автобусе (у нас пиво в 4 раза дороже поездки на автобусе). При средней зарплате в 2500$ можно и в Финляндии пить и курить (не наблюдаю ограничительных и неподъемных цен), как и в России ни кто водку пить не заставляет, многие (но не все конечно) по своей инициативе ведут здоровый образ жизни, фанаты спорта.
              В выборе образа жизни много неизвестных причин, и тут одна из попыток разобраться что к чему. Простых и быстрых методов привить здоровый образ жизни нет, в Европе проблему решали пол века с переменным успехом.
                0
                Хорошо у вас в Белгороде. Вот наши цены в Питере: газпромовские бассейны (из недорогих) — 450 рэ. (сейчас это 6 евро), 50-метровые бассейны — от 600 рэ (около 8 евро). — это за 45 мин. воды. Сколько стоит водка — наверно сами знаете, от 200 рэ. В Хельсинки 4,5 — 5 евро без ограничения времени + сауна и прорубь. Водка стоит от 15 евро. Да, кстати, у нас средняя стоимость маршрутки по городу — 40 рэ = бутылка 0.5 пива. Так что все относительно.
                  0
                  В Питере и зарплаты повыше, отличия существенные, как разные страны.
                  Водка, кстати, сама по себе ценности не имеет, как и вода для бассейна, нужны сопутствующие атрибуты, а они стоят в 10 раз дороже, посидеть в баре вечером от 2000.
                  Просто для уточнения контекста, бассейн, кроме спорта, это так же и "тусовка" в хороших условиях, некорректно сравнивать с распитием водки на лавочке без закуски на холоде. В аналогичных условиях, в баре, итоговые затраты будут больше, чем в бассейне в несколько раз.
                  На турнике позаниматься вообще можно бесплатно. У нас в городе есть специальная площадка, где с утра до ночи занимается группа ребят и весьма успешно, типа такой
                  image
                  Пригород плотно охвачен велодорожками. Скоростным шоссейникам они не нравятся, но по мне лучше помедленней ехать по велодорожке (все равно это велопрогулка и скорость не принципиальна), чем гадать, увидит тебя очередная фура или нет.
                  Проблемы есть, конечно. Но не наблюдаю спортивного фанатизма у жителей, перегрузки спортивной инфраструктуры, очередей к турникам, занятых стадионов и пробок на велодорожках.
                  В дни школьного выпускного, кстати, наступает полный сухой закон, алкоголь не продается вообще, граждане относятся с пониманием и ни разу не слышал каких-то сожалений об этом (как в статье, у нас так-же):
                  https://people.onliner.by/2013/06/12/prodavcy-zapret/
          0
          Сильно сомневаюсь применимости статистических методов twittter, хороший генератор шума.
            0
            Если брать единичные твиты, да, это шум. Но когда твитов десятки тысяч, в шуме неизбежно находится полезная информация статистическими методами. По аналогии с радиосигналом, при передаче данных шумоподобным радиосигналом, он не отличим для внешнего наблюдателя от шума. Но зная, что искать, можно из шумоподобного сигнала, выделять полезные данные.
              0
              Разве так потоди, но твиты публиются вперемешку, счучайные и целевые
                0
                Как-раз работа для нейросети, выделять крупицы ценной информации из шума.
            0
            Такое приложение — хороший способ для определения интересных баров и пабов поблизости :)
            Но почему только твиттер? В том же фейсбуке многие пишут посты с указанием локации. И фейсбук гораздо более популярная социалка.
              0
              Может алкоссеть организовать?
            0
            В СНГ менталитет другой. Когда пьют водку(пиво, коньяк и т.д.), общаются с собутыльниками, а не в твиттере.
              0
              Во всех странах есть некоторый процент исключений, как и ни в одной стране нет полного погружения в виртуальную реальность. Такое впечатление, что российские студенты и школьники поголовно выкладывают всё в Instagram, люди постарше уже реже, но много таких что выкладывают фото с работы даже там где фотографироваться нежелательно, так как это достаточно важные объекты.
              В твиттере не нужно общаться кстати, достаточно заметки абстрактной, и не в стиле "я выпил 150 грамм в баре за углом", а "ну я ваще овввааапппяя :) :( ггг", этого достаточно, чтобы нейросеть нашла девиацию в стиле письма, времени отправки сообщения и предположила с вероятностью в 95% что автор в нетрезвом состоянии. Лайки и репосты могут дать информацию о коллективе и много чего еще.
              0
                0
                Не очень понятно, откуда в посте взялась нейросеть. В тексте по ссылке говорится просто о неком метод машинного обучения, без особых подробностей, а в препринте — о методе опорных векторов.
                  0
                  Надо будет уточнить этом момент, может ли метод опорных векторов работать с абстрактным текстом, как и нейросеть?
                    0
                    Я не совсем понимаю, что вы имеете в виду, говоря "как и нейросеть", но метод опорных векторов вполне можно использовать для работы с текстом, нужно только правильно построить признаки. Сделать это можно по-разному, например, при помощи bag-of-words.
                    Тем не менее, я не нашёл никаких упоминаний нейросетей ни в новости, на которую вы ссылаетесь, ни в препринте.
                  0
                  Мне эта статья напомнила новости и рекламу про всякие наносмеси и нанопокрытия: «новый стиральный порошок с нанодобавкой!», «новое суперсверло с нанопокрытием!» и т.п. То есть, все выводы — тривиальные и очевидные (типа, сенсация! Ученые создали самообучающуюся нейросеть, проанализировали все твиты за год и установили, что плотность машин в Нью-Йорке больше, чем в Графстве Монро! Более того, оказалось, что водители больше времени проводят в пробках в Нью-Йорке, чем в графстве Монро! Ученые надеятся, что эти новые и неожиданные данные помогут борьбе за снижение аварийности на дорогах! Ура)

                  А от таких перлов я вообще вообще под столом: «собирали твиты, в которых используется специфическая «алкогольная» лексика. Из этого набора, фильтровались все твиты, которые упоминают алкоголь или связанных с алкоголем слов, таких, как «пьяный», «пиво», «вечеринка» и так далее.»
                  По-моему, слова «пьяный, пиво, вечеринка и так далее» это и есть та самая «алкогольная лексика». То есть, в зависимости от значения слова «фильтровались» (оставлялись в выборке или выкидывались из нее), описываемые два шага либо полностью повторяют друг друга, не меняя выборку, либо полностью взаимоисключают друг друга, выдавая нулевую выборку. Либо трудности перевода? :)
                    0
                    Статья не сенсация. Но есть несколько интересных моментов
                    • Анализ социальных сетей в реальном времени с «тепловой картой»;
                    • Замена соцопросов;
                    • Алгоритм машинного обучения.

                    Социологи делают свою работу, и тут просто один из новых методов для повышения качества их работы. Наблюдая за чужой выполненной работой всё тривиально (на примере болельщиков, что знают как надо играть), но когда сам что-то делаешь, возникает много вопросов, на которые надо найти ответы, и люди часто совершают ошибки.
                    Задача в контексте этой статьи, как снизить употребление алкоголя в странах, не вызывая неудобств для людей и социальных протестов? Хотя бы на 1%, как это сделать? Сократить время продажи алкоголя, построить стадион, сократить количество точек продаж, запустить социальную рекламу? Если всё тривиально, почему оздоровление общества почти во всех странах идет с переменным успехом? Имеющиеся данные просто капля в море, когда речь заходит о реальных проектах, и решения принимаются в основном хаотично, без обратной связи об успешности.

                  Only users with full accounts can post comments. Log in, please.