Как стать автором
Обновить

Конкурс VK Сup. Трек ML. 4 место. Как?

Время на прочтение11 мин
Количество просмотров2K
image

В данном конкурсе, проводимом в рамках отборочного тура VK Сup 2020, трек ML, необходимо было предсказать долю потенциальной аудитории, которая просмотрит рекламные объявления, показываемые на нескольких рекламных площадках конкретное число раз: 1,2,3 еще и в будущем.

Это было не классическое соревнование по отправке итоговых предсказаний на известные тестовые данные, а предсказание на полностью неизвестных данных, подаваемых на модель в docker, запущенном на площадке конкурса.

В целом, такое решение уравнивает шансы участников и не позволяет тем, кто любит подглядывать в тест, обогащать им тренировочный набор данных, подгонять модель под распределение тестовых данных. Здесь все были в равных условиях, так как не понятно, что может быть в данных: “мусорные” данные, спорадические выбросы, неверные разделители и прочее. Но все эти нюансы одновременно заставляют думать и об обработке исключений.

В этом конкурсе я занял непочетное 4 место и хочу рассказать, как же это удалось.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

Граали соревнования Telecom Data Cup. Самое жаркое впереди

Время на прочтение4 мин
Количество просмотров6.4K


В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.Ru Group и МегаФон.

Соревнование запущено на уже известной платформе ML Boot Camp. На ней стараемся проводить большинство своих контестов по анализу данных. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий.

На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. Приветствуем и помогаем всем. Кофе или что-то свое собственное и бодрящее вам в помощь :)



В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям. Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.
Читать дальше →
Всего голосов 29: ↑28 и ↓1+27
Комментарии7

AgeHack — первый онлайн-хакатон по продлению жизни на платформе MLBootCamp

Время на прочтение3 мин
Количество просмотров9.3K


Сегодня, 15 июня, стартует чемпионат на платформе ML Boot Camp, посвященный проблемам здравоохранения и долголетия человечества. Чемпионат организован нами совместно с Insilico Medicine в сотрудничестве с Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан. О том, почему это не очень обычный для нас конкурс — под катом.

Читать дальше →
Всего голосов 44: ↑41 и ↓3+38
Комментарии16

ML Boot Camp V, история решения на 3 место

Время на прочтение13 мин
Количество просмотров4.8K
В середине июля закончился контест по машинному обучению ML Boot Camp V от Mail.Ru. Нужно было предсказать наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра. Метрикой являлась логарифмическая функция потерь. Полное описание задачи доступно по ссылке.

Знакомство с машинным обучением для меня началось с ML Boot Camp III где-то в феврале 2017 года и какое-то подобие представления что с такими задачами делать начинает складываться у меня только сейчас. Многое из сделанного в 5 контесте — результат в первую очередь изучения собрания статей на kaggle и обсуждений и примеров кода оттуда же. Ниже — слегка переработанный отчет о том, что пришлось сделать, чтобы занять 3 место.
Читать дальше →
Всего голосов 30: ↑30 и ↓0+30
Комментарии7

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников

Время на прочтение2 мин
Количество просмотров4.6K
Привет! Лето — жаркое. Организаторы «айтишных» чемпионатов много сидели на солнце, сгорели и схватили удар, но главное — собрали новую задачу для очередного (уже девятого) контеста на платформе ML Boot Camp. Чемпионат пройдёт онлайн в течение месяца.


Сейчас на платформе зарегистрировано более 10 тысяч специалистов. Часто бывает, что задачи, которые на ней появляются, не всем по зубам (богам Kaggle в том числе). Для чего мы это делаем? Нужно развиваться и пробовать, причем на реальных данных, а не синтетическом булшите. Победы придут со временем.

Задача, которую хотим предложить вам решить в этом соревновании, отличается от всех предыдущих. Тема задачи — это детектирование объектов на изображениях. Формулировка задачи подразумевает, что в наборе данных будут картинки, но, что забавно, их нет. И это не петабайты данных. И даже не гигабайты.
Читать дальше →
Всего голосов 44: ↑41 и ↓3+38
Комментарии1

Machine Learning Boot Camp — как это было и как это будет

Время на прочтение9 мин
Количество просмотров11K


13 июня стартовал ML Boot Camp — состязание по машинному обучению от Mail.Ru Group. В связи с этим мы хотим поделиться с вами впечатлениями о его предыдущем запуске, историями успеха победителей и рассказываем, что нового ждет участников в этом году.
Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии12

MLBootCamp «Оценка производительности». Очень простой и быстрый вариант решения

Время на прочтение5 мин
Количество просмотров4.4K
В этой заметке хочу поделиться своей идеей решения задачи MLBootCamp «Оценка производительности» от Mail.ru. Главное достоинство этого способа — в его простоте и скорости выполнения скрипта. И хотя он не сможет соревноваться в точности с победителями соревнования (мои поздравления!), но может оказаться полезным на практике, если несколько десятых процента не являются критичными, или отправной точкой для дальнейшего развития. Скрипт написан на R.

Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

ML boot camp 2016 новичок в ТОП 10

Время на прочтение5 мин
Количество просмотров7.9K
Не так давно закончились соревнования по машинному обучению от Mail.ru. Я занял 9 место, и, собственно, хотел бы поделиться тем, как это у это меня получилось. Если коротко, то повезло.


Читать дальше →
Всего голосов 33: ↑32 и ↓1+31
Комментарии4

Скоро открытие ML Boot Camp III

Время на прочтение9 мин
Количество просмотров14K


15 февраля стартует Machine Learning Boot Camp III — третье состязание по машинному обучению и анализу данных от Mail.Ru Group. Сегодня рассказываем о прошедшем контесте и открываем тайны нового! Итак, в ходе предстоящего конкурса нужно будет угадать, останется ли участник в онлайн-игре или уйдет из нее. Выборки для задачи построены на двенадцати игровых признаках для 25000 пользователей. Естественно, все данные анонимизированы.
Читать дальше →
Всего голосов 38: ↑37 и ↓1+36
Комментарии6

История 3-го места на ML Boot Camp III

Время на прочтение5 мин
Количество просмотров13K
Недавно завершился контест по машинному обучению ML Boot Camp III от Mail.Ru.

Будучи новичком в machine learning мне удалось занять 3-е место. И в этой статье я постараюсь поделиться своим опытом участия.
Читать дальше →
Всего голосов 45: ↑43 и ↓2+41
Комментарии13

Варим ML Boot Camp III: Starter Kit

Время на прочтение17 мин
Количество просмотров14K

16 марта закончилось соревнование по машинному обучению ML Boot Camp III. Я не настоящий сварщик, но, тем не менее, смог добиться 7го места в финальной таблице результатов. В данной статье я хотел бы поделиться тем, как начать участвовать в такого рода чемпионатах, на что стоит обратить внимание в первый раз при решении задачи, и рассказать о своем подходе.

Читать дальше →
Всего голосов 27: ↑26 и ↓1+25
Комментарии4

Как мы делали ML Boot Camp III

Время на прочтение6 мин
Количество просмотров5K

image


19 марта закончился третий чемпионат по машинному обучению на платформе ML Boot Camp. 614 человек прислали решения и поборолись за главный приз ー MacBook Air. Для нас это важный проект: мы хотим расширить сообщество ML-специалистов России. Поэтому в наших задачах сможет разобраться даже новичок. Теоретически… Профи же соревнуются благодаря сложности метрик и большому ряду параметров задачи.


Со второго контеста многое изменилось. Мы увеличили количество участников вдвое, прикрутили к серверу новую метрику, пофиксили баги и создали ML-комьюнити в Телеграме. Рассказываем, как проводили третий контест.

Читать дальше →
Всего голосов 52: ↑49 и ↓3+46
Комментарии0

Machine Learning Boot Camp IV. Четвертый. Секретный. Твой

Время на прочтение4 мин
Количество просмотров7.3K

image


21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.


О платформе ML Boot Camp

ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.


На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.


Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.


В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.

Читать дальше →
Всего голосов 33: ↑31 и ↓2+29
Комментарии4

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос

Время на прочтение3 мин
Количество просмотров3.9K


Сегодня, 25 июня, стартует ML Boot Camp VI с задачей «Прогноз отклика аудитории на интернет-опрос» (если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер).
Читать дальше →
Всего голосов 34: ↑34 и ↓0+34
Комментарии0

История первого места на ML Boot Camp VI

Время на прочтение4 мин
Количество просмотров8.5K
Mail.ru уже не первый год проводит чемпионаты по машинному обучению, каждый раз задача по-своему интересна и по-своему сложна. Я участвую в соревнованиях четвертый раз, мне очень нравится платформа и организация, и именно с буткемпов начался мой путь в соревновательный machine learning, но первое место удалось занять впервые. В статье я расскажу как показать стабильный результат, не переобучившись ни на публичный лидерборд, ни на отложенные выборки, если тестовая часть существенно отлична от тренировочной части данных.

Задача


Полный текст задачи доступен по → ссылке. Вкратце: есть 10 гб данных, где каждая строка содержит три json'а вида «ключ: счетчик», некая категория, некая временная метка и идентификатор пользователя. Одному пользователю может соответствовать множество записей. Требуется определить к какому классу относится пользователь, первому или второму. Метрикой качества для модели является ROC-AUC, о ней отлично написано в блоге Александра Дьяконова[1].

Пример записи в файле

00000d2994b6df9239901389031acaac	5 {"809001":2,"848545":2,"565828":1,"490363":1} 
{"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2}	{}	39
Читать дальше →
Всего голосов 29: ↑28 и ↓1+27
Комментарии13