Как стать автором
Обновить

Комментарии 13

Поздравляю!
Кто хочет — тот добьется,
Кто ищет — тот всегда найдет!
1) Я пробовал разреженные матрицы. Нет никакой проблемы с памятью, если не переводить матрицы из разреженного формата в обычные матрицы. В scikit-learn есть несколько (штуки четыре) алгоритмов, которые работают прямо с разреженными матрицами, не разворачивая их в памяти. Другое дело, что качество этих алгоритмов оставляло желать лучшего, я попробовал их и выкинул эту идею. В дело шли прямо все возможные «буквы», а качества это не давало. Возможно, надо было попробовать ещё со «словами», но до меня это тогда не дошло.
2) В итоге брал всякие статистики по «буквам», «словам» и «фразам» каждого пользователя, плюс делал суммарный bag of chars и bag of words для каждого cuid. Естественно, пришлось брать только самые частые «символы» и «слова», чтобы влезть в память. В итоге тоже где-то под 300 фич получилось.
3) Дальше я стал стэкать out of fold, но, к сожалению, уже не хватило времени — уехал в отпуск за несколько дней до окончания конкурса, как-раз когда наконец-то какой-то прогресс начал намечаться. А так то хорошо было бы NN ещё попробовать. Ну и постэкать ещё больше вариантов. А так только 92 место, позор какой-то, хотя вроде и «угадал все буквы». %)
Athlon II X4 640, 12Гб озу впритык хватало на 300 фич, один проход по фолдам занимал полчаса. Засабмитил всего что ли три прохода LightGBM по oof с разными сидами, хотел сделать десяток, но из-за глупой ошибки в скрипте уже не успел.
Странно видеть, как в 2018, прекрасно мыслящие люди, имеют дела с мэйлру.
Казалось бы, в чем проблема? Это же просто конкурс по машинному обучению, и какая разница, кто его организует, если, конечно, задача на конкурсе — это не определение оппозиционеров по профилям в соцсетях, например.
Не хотел разводить политический шитпостинг. Проблема для меня, очевидно в том, как результаты работы участников буткэмпа будут использованы. Может быть и таким способом, как вы указали.
Ну вот, например, https://habr.com/company/mailru/blog/354456/. Правда, не политика:
Нам предоставили почтовые письма от магазинов с подтверждением сделанных заказов или рассылкой рекламных акций.
В Mail.Ru много классных проектов и людей. Зря вы так, даже с точки зрения троллинга.
Наверняка это так. К людям никаких претензий. Дело в том, как компания использует свои наработки. В данном случае алгоритмы, разработанные участниками буткэмпа. По совести, или нет. В хабрасообществе ценится поддержка коллег (и поэтому меня заминусят), но не стоит путать эту поддержки и совесть.
Я не думаю, что компания использует эти наработки каким-либо образом. Задача учебная, конкурс носит такое название потому что выполняет в основном образовательную функцию и это несомненно благое дело.
Требуется определить к какому классу относится пользователь, первому или второму


Вполне реальная задача, с ML в руках MR выглядит пугающе. Я много лет читаю Хабр в режиме ридонли, выполз из тени и не пожалел кармы, чтобы выразить мнение. Считаю, что буквально, только Хабр способен влиять на таких гигантов. Но, раз меня минусят, видимо всех все устраивает. Ну хотя-бы высказался =)
Одно дело — если вам не нравится, как Mail.ru применяет машинное обучение. Тогда так и пишите.

Другое дело — если вам не нравятся вполне конкретные конкурсы от Mail.ru, которые, кстати, весьма ламповые и полезные образовательно, а мейлу в лучшем случае приносят профит в виде рекламы среди потенциальных сотрудников.
сколько времени обучалась финальная версия модели?
4 ночи = ~32 часа на все модели.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории