company_banner

Граали соревнования Telecom Data Cup. Самое жаркое впереди



    В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.Ru Group и МегаФон.

    Соревнование запущено на уже известной платформе ML Boot Camp. На ней стараемся проводить большинство своих контестов по анализу данных. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий.

    На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. Приветствуем и помогаем всем. Кофе или что-то свое собственное и бодрящее вам в помощь :)



    В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям. Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.

    Коротко про задачу


    Те, кто уже в курсе того, что происходит на чемпионате, могут переходить к следующему разделу.

    Все мы устаем от навязчивых телефонных и интернет-опросов «маркетологов». Представьте, как вам звонят и спрашивают, смотрите ли вы сейчас телевизор, какой канал, сколько устройств в данный момент включено и какая телепередача по ним идет. Боже, так и хочется бросить трубку (так часто и делаем). Пользователи негодуют, совсем неохотно делятся обратной связью, что негативно влияет на качество предоставляемых услуг. Проблема требует решения.

    В этом соревновании нужно погрузиться в мир телекоммуникаций, чтобы на основе анонимизированных пользовательских данных, предоставленных телеком-оператором МегаФон и полученных в ходе опросов настоящих живых клиентов, предсказать, удовлетворены ли абоненты качеством связи.

    Было опрошено 9443 абонента. Результатом опроса является индекс удовлетворенности для каждого абонента, равный нулю (0 — доволен) или единице (1 — не доволен). Необходимо с максимально возможной точностью выявить недовольных клиентов.

    Метрикой, оценивающей ваши решения, выбран ROC AUC. Предсказание нужно сделать для 5221 абонентов в том же порядке, что и в файле subs_csi_test.csv. Данные можно скачать на сайте платформы. Предварительные результаты будут формироваться по ответам для 2088 абонентов, а финальные — по ответам для 3133 абонентов (40/60). Максимальное количество загрузок решений в день — 5, а количество выбираемых решений — 2.

    Граали




    Задача вызвала любопытство у сообщества. Участники выбирают разные пути решения. Одни генерируют N моделей, просматривают их, стекают и стекают, и… вуаля, — готово. Другие генерят фичи, изучают дисциплину «Информационные системы и технологии» по лекциям, выложенным в репозиторий, и вроде тоже всё нормально. А некоторые надеются на рандом с хорошим сидом.

    Для того, чтобы лидерборд в конце конкурса приобрел более красивый вид, хотим поделиться с вами некоторыми Граалями по задаче.

    Грааль №0.




    Обратите внимание на чат и Github-репозиторий с лекциями. Там очень много полезной информации. Многие из нас мало представляют, как работает сеть. Кто ищет, тот всегда найдет! В репозиторий добавили короткую презентацию с описание работы БС и файл с распределением признаков по услугам.





    В чате участники пытают организаторов. Пытаемся сдерживаться, но сложно.



    Грааль №1


    В предложенных данных поле cell_lac_id обозначает одну соту. Каждая сота принадлежит только одному поколению связи: 2G, 3G, 4G (LTE). Рекомендуем попробовать определить для каждой соты, к какому поколению она принадлежит.

    Грааль №2


    У каждого телефона есть максимальная технология передачи данных, которую он поддерживает: 2G, 3G, 4G. Информация об этом содержится в поле INTERNET_TYPE_ID таблицы subs_features. Поле закодировано. Подумайте, как можно определить, какое из значений этого поля соответствует какой технологии.

    Грааль №3


    Обратите внимание: если у какого-то клиента есть телефон с поддержкой 4G, но по истории мы видим, что он часто качает трафик через соты 3G или даже 2G, как этот факт может влиять на его восприятие качества связи?

    Грааль №4


    У клиентов есть соты, на которых они бывают часто и регулярно (дом, работа, дорога, магазин и т.п.), и соты, на которых они бывают редко и мало. Как вы думаете, качество каких сот может быть важнее для клиента? Как можно определить важные соты?

    Грааль №5


    В таблице subs_bs_consumption для интернет-трафика есть информация как об объеме переданных данных (SUM_DATA_MB), так и о затраченном на это времени (SUM_DATA_MIN). Какие сведения об опыте клиента на соте можно извлечь из этих данных?

    Грааль №6


    В таблицах bs_avg_kpi и bs_chnn_kpi есть информация о большом количестве характеристик сот как в среднем за день, так и в час наибольшей нагрузки (ЧНН), причем с историей за несколько месяцев. Попробуйте выделить группы сот, похожих друг на друга по этим характеристикам. Может быть, есть соты, сильно отличающиеся от общей массы? Что происходит с клиентами, которые часто бывают на этих сотах?

    На этом Граали от организаторов закончились. Уверены, что они вам помогут в достижении лучшего скора на привате. Не получается — загружайте рандом, мало ли, взлетит на футболку. Всё самое интересное впереди. В конце чемпионата лидерборд будет гореть :) Запомните пятерку!



    Расписание


    Дата окончания чемпионата — 16 декабря, а 22 декабря награждение в офисе МегаФона.

    Подарочки


    1-е место: 400 000 рублей;
    2-е место: 200 000 рублей;
    3-е место: 100 000 рублей.

    Традиционно — топ-200 получат футболки с символикой чемпионата.
    Кроме того, есть специальные номинации:

    • За самый «вжух» вниз на привате — SSD Kingston 120 Gb.
    • Каждый участник, занявший место, кратное 50, получит футболку со стикером из пака сообщества.



    Сообщество


    Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

    Полезные ссылки


    1. ML Boot Camp I (Machine Learning Boot Camp — как это был...)
    2. ML Boot Camp II (ML Boot Camp 2016. Новичок в Топ-10, «Оценка производительности». Очень прост...)
    3. ML Boot Camp III. Бинарные данные (Как мы делали ML Boot Camp III, Победное решение конкурса ML Boot Camp I..., ML Boot Camp III: предсказание ухода пол...)
    4. ML Boot Camp IV. Задача с секретом (ML Boot Camp IV. Четвертый. Секретный. Т..., ML Boot Camp IV. С 1 в паблике на 35 в п..., Стабилизация и процессы Дирихле в решени...)
    5. ML Boot Camp V. Предсказание ССЗ (AgeHack — первый онлайн-хакатон по продл..., ML Boot Camp V, история решения на 3 мес..., Meetup по итогам чемпионата ML Boot Camp)
    6. ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос (ML Boot Camp VI. Прогноз отклика аудитор..., История первого места на ML Boot Camp VI).
    • +27
    • 3,8k
    • 5

    Mail.Ru Group

    868,00

    Строим Интернет

    Поделиться публикацией

    Похожие публикации

    Комментарии 5
      0
      А я то думал чего это количество различных сот сильно больше общего числа БС всех операторов в России. А оказывается их много на одной БС )).
        +1
        Подскажите — говоря о граалях, это означает что задача уже была ранее решена самим владельцем датасета?
          0
          Нет, это подсказки :)
            +2
            Что значит «подсказки»? Вы не знаете решения, но делаете подсказки, указывающие на корелляцию данных «случайным образом» или исходя из ваших предположений?

            Или вы темните и у вас есть работающая модель для обеих выборок или эти «граали» такие же как гадание на кофейной гуще)
              +1
              Имеется ввиду подсказки понимания данных, данные анонимизированы и зашифрованы, и поэтому данная информация _может быть полезна_ (точнее она гарантированно полезна, вопрос в том, как ее учесть). В этом соревновании (данные непонятны) такие подсказки важны.

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое