Как стать автором
Обновить

Комментарии 21

Матрикснет, на самом деле, помимо базовой концепции, которая хорошо описана и в каком-то виде вами реализована, имеет внутри себя тонны хаков и хитростей, которые нигде не описаны в том числе и по причине того, что не до конца понятно, как оно работает: попробовали много вариантов, выбрали лучшую константу или функцию. Так что, воспроизвести его без чтения исходников не представляется возможным, да, наверное, и нужным, все-таки оригинально он рассчитан под задачу ранжирования, хоть и концептуально универсален.
А статья классная, спасибо!
Полностью согласен. На самом деле Матрикснет — это ещё большая инженерная работа, чтобы эта махина быстро работала на огромных данных. Возможно, это даже круче, чем сам алгоритм.
Вижу тема с kaggle набирает популярность, может стоит создать русскоязычную skype конференцию? Можно будет обсуждать новые соревнования и находить партнёров в команду.
Было бы интересно и пообсуждать и попросится в команду. Но я полный новичок в задачах машинного обучения.
Я сейчас прохожу курсеру, было бы тоже очень интересно поучаствовать!
Не присмотрели никакого курса для дальнейшего изучения ML? Курс Эндрю Ына близится к концу, а тема неожиданно увлекла. Мучительно хочется продолжения банкета.
На яндексе неплохой курс для начинающих, этот work.caltech.edu/telecourse.html тоже. Мне до конца еще далеко, но я думаю что дальше уже Задачка, «Нейронные сети — Полный курс» и в перед =)
Skype конференции не сильно удобные, лучше jabber или irc. А так идея отличная.
Мне кажется, это было бы интересно. Возможно, в формате группы на ФБ или Гугле?
Count me in. Наверное, FB удобнее будет.
Раш, привет
+1 :)
Иван, спасибо за статью. Очень интересно было читать. Про kaggle могу сказать, что это отличный ресурс и для изучения актуальных задач ML и способ заработать (если сильно постараться). Приятно, что во многих случаях задачки решаются полезные для людей в целом, например, построение медицинских экспертных систем или расчеты загруженности дорожных сетей.
Для ML-коммьюнити, то возможно лучше Google Groups?
Спасибо за статью, очень интересно. Я заметил, что Яндекс активно рекламирует Матрикснет как защищённый от переобучения. Не просто с пониженным переобучением (относительно других решений), а именно защищённый. Есть идеи, о чём именно они говорят?
Ни один алгоритм не может быть «защищён» от переобучения. Он может быть очень устойчив к переобучению на огромном кол-ве данных. То есть Яндекс кроме того, что использует довольно стабильный с точки зрения переобучения алгоритм, использует его на очень больших данных, что сводит риск переобучения к минимуму. Я думаю, имеется в виду это. Но тут точнее специалисты из Яндекса могут наверняка ответить.
Судя по доке, защита от переобучения основана на бэггинге и зашумлении обучающей выборки.
Эти техники, бесспорно, весьма эффективны, но требуют тонкой настройки.
>я начинал экспериментировать с задачей в R, но потом быстро отказался от него, так как практически невозможно работать с >большими данными.

а можно поподробнее.
Конечно!

Основная проблема R — он супер медленный, быстро работают только сторонние библиотеки. Где это было критично:
  • Очень медленное чтение/запись csv по строкам. А это было мне необходимо, чтобы преобразовывать данные для алгоритмов.
  • При базовом функционале нет возможности feature hashing. А без этого работать с логистической регрессией в конкурсе было невозможно.

Конечно, я уверен, что в R есть специальные библиотеки, которые хотя бы частично решают эти задачи. Однако здесь возникает ряд преград: я не могу редактировать сторонние библиотеки, то есть если там что-то работает не так, как мне нужно (например, в процессе feature hashing нет удобного добавления полиномных характеристик 2-го уровня), то возникает задача что-то делать встроенными средствами R, которые, как я отвечал выше, чрезвычайно неспешны.
В этом смысле CPython не идеален, но гораздо лучше: там можно делать большие for-loop'ы встроенными инструментами и чтобы они работали быстро (Pypy / Numba).
Pandas не смотрели? Удобная штука для очистки данных и, вроде как, весьма быстрая ( но я на данных больше сотен мег не пробовал)
Pandas пробовал в Python, действительно, очень удобно. Я же отвечал про R, чем он хуже Python.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации