IvanLobov 26 мар 2015 в 21:25

Как попасть в топ на Kaggle, или Матрикснет в домашних условиях

9 мин

32K

Поисковые технологии*Python*Data Mining*

Из песочницы

+40

Комментарии 21

Monnoroch 26 мар 2015 в 22:46

Матрикснет, на самом деле, помимо базовой концепции, которая хорошо описана и в каком-то виде вами реализована, имеет внутри себя тонны хаков и хитростей, которые нигде не описаны в том числе и по причине того, что не до конца понятно, как оно работает: попробовали много вариантов, выбрали лучшую константу или функцию. Так что, воспроизвести его без чтения исходников не представляется возможным, да, наверное, и нужным, все-таки оригинально он рассчитан под задачу ранжирования, хоть и концептуально универсален.
А статья классная, спасибо!

IvanLobov 27 мар 2015 в 00:21

Полностью согласен. На самом деле Матрикснет — это ещё большая инженерная работа, чтобы эта махина быстро работала на огромных данных. Возможно, это даже круче, чем сам алгоритм.

rushter 27 мар 2015 в 00:18

Вижу тема с kaggle набирает популярность, может стоит создать русскоязычную skype конференцию? Можно будет обсуждать новые соревнования и находить партнёров в команду.

Redwan 27 мар 2015 в 00:29

Было бы интересно и пообсуждать и попросится в команду. Но я полный новичок в задачах машинного обучения.

darkkosinus 27 мар 2015 в 18:22

Я сейчас прохожу курсеру, было бы тоже очень интересно поучаствовать!

madfly 27 мар 2015 в 21:24

Не присмотрели никакого курса для дальнейшего изучения ML? Курс Эндрю Ына близится к концу, а тема неожиданно увлекла. Мучительно хочется продолжения банкета.

darkkosinus 27 мар 2015 в 21:33

На яндексе неплохой курс для начинающих, этот work.caltech.edu/telecourse.html тоже. Мне до конца еще далеко, но я думаю что дальше уже Задачка, «Нейронные сети — Полный курс» и в перед =)

BelBES 27 мар 2015 в 11:08

Skype конференции не сильно удобные, лучше jabber или irc. А так идея отличная.

IvanLobov 27 мар 2015 в 11:23

Мне кажется, это было бы интересно. Возможно, в формате группы на ФБ или Гугле?

smiil 27 мар 2015 в 11:46

Count me in. Наверное, FB удобнее будет.

grimich 27 мар 2015 в 22:32

Раш, привет
+1 :)

tracer0tong 27 мар 2015 в 11:32

Иван, спасибо за статью. Очень интересно было читать. Про kaggle могу сказать, что это отличный ресурс и для изучения актуальных задач ML и способ заработать (если сильно постараться). Приятно, что во многих случаях задачки решаются полезные для людей в целом, например, построение медицинских экспертных систем или расчеты загруженности дорожных сетей.
Для ML-коммьюнити, то возможно лучше Google Groups?

ServPonomarev 27 мар 2015 в 12:23

Спасибо за статью, очень интересно. Я заметил, что Яндекс активно рекламирует Матрикснет как защищённый от переобучения. Не просто с пониженным переобучением (относительно других решений), а именно защищённый. Есть идеи, о чём именно они говорят?

IvanLobov 27 мар 2015 в 13:42

Ни один алгоритм не может быть «защищён» от переобучения. Он может быть очень устойчив к переобучению на огромном кол-ве данных. То есть Яндекс кроме того, что использует довольно стабильный с точки зрения переобучения алгоритм, использует его на очень больших данных, что сводит риск переобучения к минимуму. Я думаю, имеется в виду это. Но тут точнее специалисты из Яндекса могут наверняка ответить.

peterdemin 27 мар 2015 в 23:41

Судя по доке, защита от переобучения основана на бэггинге и зашумлении обучающей выборки.
Эти техники, бесспорно, весьма эффективны, но требуют тонкой настройки.

mrgloom 28 мар 2015 в 23:30

>я начинал экспериментировать с задачей в R, но потом быстро отказался от него, так как практически невозможно работать с >большими данными.

а можно поподробнее.

IvanLobov 31 мар 2015 в 13:42

Конечно!

Основная проблема R — он супер медленный, быстро работают только сторонние библиотеки. Где это было критично:

Очень медленное чтение/запись csv по строкам. А это было мне необходимо, чтобы преобразовывать данные для алгоритмов.
При базовом функционале нет возможности feature hashing. А без этого работать с логистической регрессией в конкурсе было невозможно.

Конечно, я уверен, что в R есть специальные библиотеки, которые хотя бы частично решают эти задачи. Однако здесь возникает ряд преград: я не могу редактировать сторонние библиотеки, то есть если там что-то работает не так, как мне нужно (например, в процессе feature hashing нет удобного добавления полиномных характеристик 2-го уровня), то возникает задача что-то делать встроенными средствами R, которые, как я отвечал выше, чрезвычайно неспешны.
В этом смысле CPython не идеален, но гораздо лучше: там можно делать большие for-loop'ы встроенными инструментами и чтобы они работали быстро (Pypy / Numba).

Stas911 6 апр 2015 в 04:38

Pandas не смотрели? Удобная штука для очистки данных и, вроде как, весьма быстрая ( но я на данных больше сотен мег не пробовал)

IvanLobov 6 апр 2015 в 17:58

Pandas пробовал в Python, действительно, очень удобно. Я же отвечал про R, чем он хуже Python.

mrgloom 24 мая 2015 в 03:01

https://yandexdataschool.ru/edu-process/courses/machine-learning#item-15

тут еще говориться в 15 лекции К.В. Воронцова на 1:13:51(слайд 21), что градиент бустинг над ODT = Yandex.MatrixNet

mrgloom 17 сен 2015 в 17:57

про matrixnet(gradient boosting of decision trees) и использование GPU
on-demand.gputechconf.com/gtc/2014/presentations/S4739-gpus-accelerate-learning-rank-yandex.pdf

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время