Comments 69
xxx: еще кто-нибудь диссертацию напишет на этих данных
yyy: Мде, лучше бы алгоритм генерации урлов поизучали, хоть какая-нибудь польза.
xxx: надеюсь хабр сольет этот пост
Диссертацию будут писать «внешние администраторы» Мегафона, у них сейчас много времени).
На наш взгляд, чем больше этой теме уделят внимания сейчас, тем меньше вероятность повторения в будущем.
С урлами разберемся, спасибо.
С урлами разберемся, спасибо.
Ну а что плохого в диссертации по этим данным?) Мало, разве что…
Очень интересно читать тексты этих смс — мне-то такого не пишут, и сам не пишу.
Очень интересно читать тексты этих смс — мне-то такого не пишут, и сам не пишу.
Красиво
Забавно, наткнулся на СМС где дан адрес заначки какой-то, наверное наркотики :)
Заголовок — для диссертации, содержание — введение в курсовой работе 1-ого курса. :)
Почитаешь некоторые сообщения, и так грустно становится. Сколько ненависти в людях.
чаще приходят, чем уходят
А как же закон сохранения пользователей?
Видать не забыть этих СМС Яндексу!
> Тексты не отличаются грамотностью, что становится нормой, редкие сообщения написаны без ошибок.
Пичалька =(
Пичалька =(
Простите, но как понять фразу: «Добро, радость и счастье побеждают зло и проблемы.»?
Слова «Добро», «Радость» и «Счастье» имеют большее количество упоминаний, чем «Зло» и «Проблемы»
А я это дело скачал в txt, заменил что надо на точку с запятой, сохранил в csv и читал потом в екзеле отсортированным по телефонным номерам :)
пиздецбля. вот это делать человеку нечего, кроме как тексты смскок анализировать да разноцветные диаграммки строить
Делать — 113, спать — 32. Не может быть!
Мне интересно а каким образом эти смс попадают к вам? И как относятся отправители/получатели к этому?
Почему нет голосования за СМС?
самая популярная смс Мегафона: «Люблю писать смс каждый день» ;]
В скором времени, я полагаю, появится пост «Выводим уплывшие SMS абонентов Мегафона на экран Vogue-плеера». Осуждаю вашу деятельность. Утекли SMS и ладно, зачем труп палочкой тыкать?
Спасибо за ваше мнение. Ситуация неоднозначная, согласен. Мы это делаем по следующим причинам:
1. Это интересный источник для исследования
2. Промо, мы это не скрываем
3. Чтобы историю не замяли по тихому, а сделали выводы, «утекли и ладно», мне кажется, не самая лучшая позиция.
И все-таки лучше, если сообщения будут расходиться по форумам без номеров, а не в полном виде как сейчас.
1. Это интересный источник для исследования
2. Промо, мы это не скрываем
3. Чтобы историю не замяли по тихому, а сделали выводы, «утекли и ладно», мне кажется, не самая лучшая позиция.
И все-таки лучше, если сообщения будут расходиться по форумам без номеров, а не в полном виде как сейчас.
Исследовательский интерес поддерживаю, но был бы я на месте одного из адресатов этих сообщений, вряд ли мне было бы приятно, что про них не дают «забыть».
Столбик «действие» похож на дневной ToDo обычного работяги :)
У вас на сайте есть группировка «по авторам», хотя на самом деле это получатели.
буквально пару дней прошло, а вы уже сайтец замутили и проанализировали и пост на хабр написали и даже картинку славную сделали. офигеть. круто, ребят!
Если сами сообщения веру в человечество убивали, тот этот пост возвращаёт её.
Было бы интересно, если бы у Вас велась такая статистика по смс, ежедневно отправляемым хотя бы одним оператором. Может, весь такой молодежный Мегафон пойдет молодежи навстречу и будет предоставлять выборку смс за сутки, без указаний номеров? Вырезая имена, цифры, информацию со спецномеров, таких как номер Сбербанка, например.
Да, я сам пользователь Мегафон. Пишу, в среднем, две смски в день.
Да, я сам пользователь Мегафон. Пишу, в среднем, две смски в день.
Честнее было бы назвать статью «Анализ алгоритмов выборки Яндекса на основе базы СМС Мегафона». Вы же больше Яндекс исследуете, чем Мегафон.
По-моему тут стат. анализ самих текстов, а не их ранжирования в выдаче.
Тексты-то взяты из выдачи Яндекса. Выборка _очень_ нерепрезентативная. И подсчитывается частотность слов выбранных Яндексом, а не просто написанных в СМС.
В ограничениях мы написали, что репрезентативности здесь быть не может — в день Мегафон обрабатывает 40 млн. смс (132 тыс. с сайта), по их данным, а в базе почти за 10 дней — 862.
Тем не менее источник интересный в жанре современного приватного текста. Изучают же личную переписку Пушкина по имеющимся документам без точных цифр по генеральной совокупности источника.
Тем не менее источник интересный в жанре современного приватного текста. Изучают же личную переписку Пушкина по имеющимся документам без точных цифр по генеральной совокупности источника.
Репрезентативность — не означает большой процент от исходного количества, а показывает равномерность выборки. Выборка и с данным числом СМС могла бы быть репрезентативной. И большая часть СМС была бы «Да», «Нет», «Я занят» или «Перезвони мне. Вася/Коля/Петя». А данная выборка — самые интересные СМС с точки зрения поисковой машины Яндекса, т.е. составляя статистику по употреблению каких-то слов — вы составляете статистику по составлению выборки Яндексом.
А источник интереснейший, нет сомнений: о).
А источник интереснейший, нет сомнений: о).
Согласен, про репрезентативность не то написал. Имел в виду, что ошибка выборки на таком объеме будет очень большая. А репрезентативность отсутствует из-за того, что не знаем методику выборки, все верно.
Еще фактор — форма отправки через интернет, коротких односложных сообщений там скорее всего нет или крайне мало.
Еще фактор — форма отправки через интернет, коротких односложных сообщений там скорее всего нет или крайне мало.
Исследуется не Мегафон и не Яндекс, исследуются тексты данной группы пользователей. Как на основе этих данных понять алгоритм выдачи Яндекса, честно, не представляю, нужны тогда хотя бы смс, которые проиндексили, но не попали в выдачу.
А почему только 832 сообщения? В свободном доступе до сих пор гуляет не менее 3000 же.
А можно поинтересоваться ссылочкой?
У нас получилось 832 из 1000 после исключения сервисных сообщений, были бы признательны за дополнительную информацию.
была таблица на googledocs, она ссылалась на rghost.ru/15005301
Заголовок заметки — Анализ текстов SMS пользователей ЗАО «Мегафон» — принципиально неверный. Эти сообщения могли быть отправлены кем угодно, например, абонентами Билайна, МТС, Скайлинка или вообще людьми, у которых нет сотового телефона. По этой причине они не могут называться SMS пользователей ЗАО «Мегафон». Иначе с таким же успехом, ночные сообщения а-ля «У меня проблемы, готовь бабки» и уведомления из СМС-банка можно назвать сообщениями абонентов ЗАО «Мегафон».
Не соглашусь, те, кто отправляли, пользовались сервисом Мегафона, мы не называем их абонентами. Полное название курсовой работы могло бы быть: «Анализ текстов SMS группы пользователей сервиса отправки сообщений ЗАО «Мегафон», опубликованных поисковым сервисом ООО «Яндекс» 18.07.2011 за период с 07.07.2011 по 18.07.2011».
Пользователи ЗАО «Мегафон» — это как? Пользователи компании? Они ее пользовали? В какие места? В веб-формы? Вы прекрасно поняли в чем смысл ошибки, и в вышерасположенном комментарии выдали корректный вариант, но почему-то этого стесняетесь.
Какой вы, однако, упертый. Опустив слово, вы исказили смысл.
Вот бы иметь возможность видеть динамику всех этих объектов, эмоций и действий и расширить объем выборки на порядок.
Можно было бы отслеживать целые социальные тенденции.
Очень впечатляет.
Можно было бы отслеживать целые социальные тенденции.
Очень впечатляет.
Давно хочу все своиномера телефонов перевести на мегафон. Билайн с МТС давно перестали удовлетворять…
Sign up to leave a comment.
Анализ текстов SMS пользователей ЗАО «Мегафон»