Как стать автором
Обновить

Комментарии 18

А как начать новичкам? Ибо насколько я понимаю в таких соревнованиях на мало кто открывает исходный код.
  • После окончания соревнований все подряд открывают исходный код. Сейчас это модно.
  • Для новичков лучше соревнования про Титаник еще никто ничего не придумал. Там и пошаговые туториалы есть для python и R.
совсем начать лучше с этого: https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie
Ну все-таки совсем новичкам будет сложно усваивать формулы, мелькающие на слайдах, как само собой разумеющееся… Но посмотреть да, на этот курс тоже стоит, тем более, что он бесплатный, в отличии от специализации
Я извиняюсь за нубский вопрос, но можно момент с аппроксимацией модуля cosh(ln) немного подробней раскрыть? Я тут просто попробовал нарисовать такую ф-ию в wolframalpha, и получилось что-то совсем не похожее на модуль =(
В статье опечатка, использовался ln(cosh(x)). В пункте «Идея четвертая» есть ссылка на kaggle форум, там подробнее описано.
О, так намного лучше, спасибо!

Спасибо, поправил + добавил картинку в тект для визуального сравнения.

Первое мое соревнование, где не было проблем с перекрестной проверкой: local cv точно отображал lb.
Отличный результат!
Поздравляю!
Может тоже напишите пост про свое решение?
Спасибо. Статью пока не могу обещать, но общая схема решения была примерно такой:
Модель
Расскажи плз как ты валидировался на 2м уровне, если на 1м уровне у тебя были модели по разным числам фолдов? Я понимаю, когда на 1м 10 фолдов для всех моделей и дальше аналогично на 2м уровне.
На 1 уровне были с разным N-folds для разнообразия, дальше все модели были 10-folds. Что именно не понятно?
Непонятно как при такой схеме избежать оверфиттинга на 2м уровне.
В моей картинке мира если на 1м уровне одно разбиение по фолдам, а на 2м другое — то гарантированно для test-CV будет использоваться часть train-CV…
У меня проблемы с CV начались где-то после перехода через 1100, но вполне возможно что это было вызвано не очень стабильной моделью верхнего уровня.
Спасибо! Интересный отчет и отличный стиль подачи. Будет интересно увидеть что-то подобное по другим соревнованиям тоже.
Отлично написано и про Allstate соревнование, и про разницу в machine learning / data science для индустрии, академической науки и «спорта»!
А область пересечения всех трех областей намеренно оставили такой маленькой или это случайно получилось? Что сейчас, на Ваш взгляд, есть бщее в machine learning для науки, индустрии и соревновательных платформ?
Добавлю, что в индустрии часто есть ограничения на сложность и размер модели. В частности, приходилось делать несколько machine learning проектов для embedded / мобильных платформ c очень жёсткими ограничениями для итоговой модели (вычисления на микроконтроллере без floating point и объемом памяти для модели в несколько десятков kB).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории