
Мы проанализировали 862 уникальных текста SMS на частотность употребляемых слов, распределили по городам и сгруппировали по получателям. За основу были взяты тексты, находящиеся короткое время в открытом доступе на популярном поисковом сервисе.
Чтобы нельзя было идентифицировать получателя сообщения, мы удалили телефонные номера, тексты, содержащие пароли, и другую информацию, которая может повредить отправителям или получателям.
Данный проект интересен нам исключительно в исследовательских и промо целях.
Некоторые результаты под катом.