ternaus Dec 27 2016 at 02:36

Kaggle: Allstate Claims Severity

10 min

17K

Data Mining * Machine learning * Sport programming *

+19

Comments 18

unsafePtr Dec 27 2016 at 06:46

А как начать новичкам? Ибо насколько я понимаю в таких соревнованиях на мало кто открывает исходный код.

ternaus Dec 27 2016 at 06:48

После окончания соревнований все подряд открывают исходный код. Сейчас это модно.
Для новичков лучше соревнования про Титаник еще никто ничего не придумал. Там и пошаговые туториалы есть для python и R.

quantum Dec 27 2016 at 07:53

Новичкам лучше начать с курса Эндрю NG https://ru.coursera.org/learn/machine-learning
и специализации яндекса https://ru.coursera.org/specializations/machine-learning-data-analysis

atikhonov Dec 27 2016 at 08:28

совсем начать лучше с этого: https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie

quantum Dec 27 2016 at 09:12

Ну все-таки совсем новичкам будет сложно усваивать формулы, мелькающие на слайдах, как само собой разумеющееся… Но посмотреть да, на этот курс тоже стоит, тем более, что он бесплатный, в отличии от специализации

Dark_Daiver Dec 27 2016 at 07:37

Я извиняюсь за нубский вопрос, но можно момент с аппроксимацией модуля cosh(ln) немного подробней раскрыть? Я тут просто попробовал нарисовать такую ф-ию в wolframalpha, и получилось что-то совсем не похожее на модуль =(

dimon009 Dec 27 2016 at 15:00

В статье опечатка, использовался ln(cosh(x)). В пункте «Идея четвертая» есть ссылка на kaggle форум, там подробнее описано.

Dark_Daiver Dec 27 2016 at 15:01

О, так намного лучше, спасибо!

ternaus Dec 27 2016 at 15:06

Спасибо, поправил + добавил картинку в тект для визуального сравнения.

kxx Dec 27 2016 at 20:35

Первое мое соревнование, где не было проблем с перекрестной проверкой: local cv точно отображал lb.

atikhonov Dec 28 2016 at 08:39

Отличный результат!
Поздравляю!
Может тоже напишите пост про свое решение?

kxx Dec 28 2016 at 16:20

Спасибо. Статью пока не могу обещать, но общая схема решения была примерно такой:

Модель

Atselikov Jan 1 2017 at 21:36

Расскажи плз как ты валидировался на 2м уровне, если на 1м уровне у тебя были модели по разным числам фолдов? Я понимаю, когда на 1м 10 фолдов для всех моделей и дальше аналогично на 2м уровне.

kxx Jan 2 2017 at 01:32

На 1 уровне были с разным N-folds для разнообразия, дальше все модели были 10-folds. Что именно не понятно?

Atselikov Jan 9 2017 at 07:32

Непонятно как при такой схеме избежать оверфиттинга на 2м уровне.
В моей картинке мира если на 1м уровне одно разбиение по фолдам, а на 2м другое — то гарантированно для test-CV будет использоваться часть train-CV…

alno Dec 28 2016 at 13:11

У меня проблемы с CV начались где-то после перехода через 1100, но вполне возможно что это было вызвано не очень стабильной моделью верхнего уровня.

bernadsky Dec 28 2016 at 16:06

Спасибо! Интересный отчет и отличный стиль подачи. Будет интересно увидеть что-то подобное по другим соревнованиям тоже.

IliaSafonov Dec 29 2016 at 11:39

Отлично написано и про Allstate соревнование, и про разницу в machine learning / data science для индустрии, академической науки и «спорта»!
А область пересечения всех трех областей намеренно оставили такой маленькой или это случайно получилось? Что сейчас, на Ваш взгляд, есть бщее в machine learning для науки, индустрии и соревновательных платформ?
Добавлю, что в индустрии часто есть ограничения на сложность и размер модели. В частности, приходилось делать несколько machine learning проектов для embedded / мобильных платформ c очень жёсткими ограничениями для итоговой модели (вычисления на микроконтроллере без floating point и объемом памяти для модели в несколько десятков kB).