Pull to refresh

Анализ текстов SMS пользователей ЗАО «Мегафон»

Data Mining
image

Мы проанализировали 862 уникальных текста SMS на частотность употребляемых слов, распределили по городам и сгруппировали по получателям. За основу были взяты тексты, находящиеся короткое время в открытом доступе на популярном поисковом сервисе.

Чтобы нельзя было идентифицировать получателя сообщения, мы удалили телефонные номера, тексты, содержащие пароли, и другую информацию, которая может повредить отправителям или получателям.

Данный проект интересен нам исключительно в исследовательских и промо целях.

Некоторые результаты под катом.


Количественные параметры


Количество уникальных сообщений в базе: 862

Регионы получателей sms (Топ-5):
  1. Москва — 399
  2. Санкт-Петербург — 60
  3. Самарская область — 40
  4. Оренбургская область — 31
  5. Республика Башкортостан — 28

Период отправки: 07.07.2011—16.07.2011
Общее количество слов (включая предлоги): 23 581
Количество неповторяющихся слов: 5 559
Среднее количество слов в одном sms: 27,3 из них неповторяющихся — 6,4

Ограничения


База sms имеет определенные ограничения и не рассматривается как репрезентативный источник.

Ограничения:
  • в выборку попали только sms, отправленные через веб-формы;
  • методика выборки не случайна и базируется на алгоритмах Яндекса;
  • общее количество отправленных sms за период не известно.
Текстовые сообщения, посылаемые через веб-формы, отличаются по среднему количеству символов (символов больше), аудитории и, соответственно, содержанию. Веб-формами чаще всего пользуются в следующих случаях:
  • экономия средств;
  • нет или заблокирован сотовый телефон;
  • для сохранения анонимности;
  • прочее: по привычке, долго набирать длинный текст, удобнее.

В выдаче Яндекса значилось более 8 000 записей, при этом, доступно для просмотра было менее 1 000. В результаты поиска попали не все сообщения, отправленные через сервис, а только ранжированные поисковым роботом.

Тем не менее, источник представляет интерес для исследования современной письменной речи в силу самобытности и приватности текстов.

Некоторые наблюдения


Радует позитивный настрой большинства пользователей, они любят друг друга, целуют, скучают и ждут, просят больше писать, говорить и звонить. Поздравляют друг друга с днем любви, семьи и верности, с днем рождения и свадьбы, чаще приходят, чем уходят.

С другой стороны «люблю» часто соседствует с частицей «не», а в текстах встречаются слова и угрозы, которые не пропускают семейные фильтры.

Дом для большинства пользователей превыше работы, но о деньгах пишут гораздо чаще. Добро, радость и счастье побеждают зло и проблемы. Чаще пишут о маме, чем о жене и детях, предпочитают больше сегодня и завтра, меньше вспоминают о том, что было вчера.

Большинство сообщений переполняют эмоции настолько, что количество восклицательных знаков и смайликов догоняет количество букв. Тексты не отличаются грамотностью, что становится нормой, редкие сообщения написаны без ошибок.

Резюме


На удивление, количество «добрых» комментариев победило количество «злых», хотя, на первый взгляд, все выглядело наоборот.
Tags:Мегафонанализ текстапост-самоубийца
Hubs: Data Mining
Total votes 144: ↑90 and ↓54+36
Views3.1K