Дата-сайентист, который просто не может перестать выигрывать на Kaggle

Автор оригинала: Parul Pandey
  • Перевод
Ранее у нас в блоге уже был материал про лучших в Kaggle, а сегодня представляю вам интервью с признанным дата-сайентистом и гроссмейстером Kaggle Филиппом Сингером, который поделится своим опытом, вдохновением и и достижениями. Беседа призвана мотивировать и воодушевить других людей, которые хотят понять, что нужно, чтобы стать гроссмейстером Kaggle. Также в этом интервью мы узнаем больше об академическом прошлом Филиппа, его увлечении Kaggle и о его работе в качестве дата-сайентиста.




Филипп, в мире Kaggle более известный как Psi, стал кандидатом наук, получил диплом с отличием в области информатики в Техническом университете Граца, а также получил степень магистра в области разработки программного обеспечения и управления бизнесом. У Филиппа несколько достижений, в том числе многократные победы и высшие места на Kaggle, несколько научных наград, в том числе за лучшую работу на знаменитой Всемирной веб-конференции. 

В настоящее время он занимает третье место в мире в рейтинге соревнований Kaggle. Это одновременно впечатляет и вдохновляет. Одно из самых заметных достижений Филиппа – победа на Втором ежегодном турнире по большим данным NFL вместе с другим дата-сайентистом H2O.ai Дмитрием Гордеевым

Более 2000 дата-сайентистов со всего мира соревновались на Kaggle, чтобы спрогнозировать результаты стремительной игры. Филипп Сингер и Дмитрий Гордеев получили главный приз – 50 000 долларов США за их подход к задаче.


Победители конкурса Big Data Bowl 2019–2020 Филипп Сингер и Дмитрий Гордеев (сзади) выступают в Индианаполисе. 

У вас есть докторская степень в области компьютерных наук. Почему вы в качестве карьеры выбрали науку о данных, а не занимались научными исследованиями?


Филипп: Я получил степень доктора философии [кандидата наук] компьютерных наук в Техническом университете Граца в Австрии и был занят в исследованиях в Германии. За время своей научной карьеры я затронул множество разных тем в области науки о данных и опубликовал множество научных работ и статей на известных конференциях и в журналах. После я должен был стать профессором, это интриговало меня. Однако, хотя я люблю преподавать, я хотел углубиться в более прикладную работу, то есть хотел, чтобы моя работа имела большее влияние, чем то влияние, которое возможно в исследованиях. Это побудило меня заняться наукой о данных в качестве карьеры. Надо сказать, я до конца насладился докторской степенью и многому научился, но теперь я также рад быть в авангарде науки о данных и машинного обучения, играть по-настоящему важную роль в H2O.ai. 

Как начался ваш путь на Kaggle, что поддерживало вас на пути к гроссмейстерству?



Профиль Филиппа на Kaggle 

Филипп: Я зарегистрировался на Kaggle около восьми лет назад, когда начал работу в качестве доктора философии, потому что слышал о платформе и хотел её проверить. Но я сделал всего лишь образец задачи и шесть лет больше не прикасался к Kaggle. Около двух лет назад мы с Дмитрием (dott1718 на Kaggle, а теперь коллегой по работе) решили вместе попробовать посоревноваться на Kaggle, это был сайд-проект на работе. Мы ничего не ждали, но в итоге выиграли соревнование. Победа зацепила меня, с этого момента начался мой путь на Kaggle. На Kaggle мой подход всегда заключался в том, чтобы решать новые типы проблем, так я сохраняю мотивацию. Есть ещё новые интересные проблемы, которые нужно решать правильно. Кроме того, мне нравится встречаться и работать с талантливыми людьми на Kaggle, и я вижу, к чему стремится сообщество. 

В последнее время вы уничтожили таблицу лидеров Kaggle, добились впечатляющих результатов, последний из которых –  первое место на NFL и второе в Future – Impact Detection. Как вы подходите к решению таких проблем, как идёте так хорошо?


Филипп: Люди часто спрашивают меня, как выиграть соревнования Kaggle; я не думаю, что есть какой-то секретный соус, чтобы побеждать везде. Большой успех на Kaggle основывается на опыте, желании прикоснуться к чему-то новому, о чём, на первый взгляд, вы мало что знаете. Со временем я собрал особый универсальный набор инструментов, который содержит строительные блоки каждого соревнования, в котором я участвовал. Например, я понимаю, как правильно настроить кросс-валидацию, какие библиотеки задействовать в моделях, как правильно подбирать модели, отслеживать их производительность и т. п. Так что у меня освобождается больше времени, чтобы сосредоточиться на новых для меня и важных аспектах недавних соревнований. после каждого соревнования я всегда стараюсь улучшить свой рабочий процесс, чтобы повысить эффективность и способность конкурировать с соперниками. 

Большой успех на Kaggle основывается на опыте, желании прикоснуться к чему-то новому, о чём, на первый взгляд, вы мало что знаете.

Как вы решаете, в каких соревнованиях участвовать?


 

Лучшие достижения Филиппа на Kaggle 

Филипп: Я в основном пытаюсь решать новые типы задач или участвовать в соревнованиях, которые кажутся интересными в отношении данных или проблемы, которую нужно решить. Иногда я испытываю удачу в более стандартных соревнованиях, чтобы понимать состояние искусства Data Science, которое меняется каждую неделю. 

Как вы обычно подходите к задаче на Kaggle? Есть ли какие-нибудь любимые ресурсы по ML (массовые открытые онлайн-курсы, блоги и т. д.), которыми вы хотите поделиться с сообществом?


Филипп: Я стараюсь прибегать к уже накопленному мной арсеналу методов, инструментов и опыта, а затем пытаюсь исследовать конкретную проблему. Это означает, что я изучаю предыдущие решения аналогичных проблем на Kaggle и читаю соответствующие статьи. Лучший способ изучить проблему – учиться на практике. 

В каких конкретных областях вы работаете как дата-сайентист в H2O.ai?



Филипп и другие гроссмейстеры Kaggle на H2O.ai 

Филипп: Моя роль в H2O.ai очень многогранна. Я регулярно участвую в проектах, ориентированных на клиентов, и моя задача опираясь на опыт, поддерживать проекты в области Data Science. Кроме того, будучи гроссмейстерами Kaggle, мы всегда стараемся использовать наш опыт и знания о последних достижениях, чтобы постоянно улучшать наши продукты и разрабатывать новые передовые прототипы и решения. Это означает, например, что мы предлагаем новые функции в Driverless AI, разрабатываем приложения ИИ в Wave , демонстрируя новые методы и весь конвейер решений Data Science. 

Расскажите о лучшем из того, что вы узнали на Kaggle и применяете в работе на H2O.ai?


Филипп: На Kaggle вы узнаете, как создавать надёжные модели, которые хорошо обобщаются и не слишком подвержены переобучению. На Kaggle это важно, потому что вам нужно хорошо работать с невидимыми, закрытыми данными. Это означает, что вы многое узнаете о надёжной перекрёстной проверке и о других аспектах данных, таких как сдвиги в распределении функций, или некоторые других важных аспектах. Я могу хорошо приспособить эти знания в своей работе на H2O.ai, поскольку они также являются неотъемлемой частью наших продуктов. Опираясь на наш опыт и знания, мы хотим, чтобы ML наших клиентов было надёжным. 

Область Data Science стремительно развивается. Как вам удается быть в курсе всех последних событий?


Филипп: Чтобы быть в курсе последних событий, я в основном использую Kaggle; это отличный фильтр новых методов, которые либо работают с практическими и прикладными проблемами, либо не работают. Обычно надёжные методы выживают, а ненадёжные методы, которые работают лишь от случая к случаю, отфильтровываются. В то же время я слежу за известными исследователями и практиками в Твиттере и на других платформах. 

Есть ли какие-то конкретные области или проблемы, в которых вы хотели бы применить свой опыт в области машинного обучения?




Филипп выступает на встрече Vienna Data Science Group 9 января 2020 г.

Филипп: Я не держу в голове ничего конкретного; обычно я стараюсь удивляться интересным проблемам, которые возникают либо на работе, либо в Kaggle. Очень важно вникать в проблемы, которые на первый взгляд не кажутся вам интересными. Можно объективно взглянуть на проблему и, вероятно, обратиться к опыту, который вы приобрели решая другие проблемы, к тем данным, что у вас есть. 

Несколько советов претендентам в Data Science и Kaggle, которые только начали или хотят начать свой путь в Data Science.


Филипп: Запачкайте руки, не бойтесь потерпеть неудачу и всегда стремитесь узнавать новое. 

Путь Филиппа на Kaggle был весьма примечательным. Я уверен, что его путь, преданность делу и достижения станут источником вдохновения для тех, кто уже работает или пытается сделать карьеру в Data Science.



image



SkillFactory
Школа Computer Science. Скидка 10% по коду HABR

Комментарии 11

    +2
    Состояние искусства? Серьёзно?)
      0
      Калька со state-of-art. По-русски — передний край.
        +3
        Да тут даже заголовок статьи говорит о том, что это перевод. Прямо чувствуется другой порядок слов.
          +1
          Аватарка переводчика это красноречиво подтверждает
        0

        Доктор философии)
        Ну как можно было это перевести?

          0
          По окончанию PhD присваивается ученая степень доктора философии или кандидата наук, несмотря на то, что на западе нет такого определения на просторах СНГ это определение используется
            0

            Ниже уже ответили по поводу использования этого термина в русском языке

          0
          Получилось обойти в NFL Impact Detection
            +1

            Огромное спасибо за статью! Действительно очень вдохновляюще!

              0
              Я зарегистрировался на Kaggle около восьми лет назад, когда начал работу в качестве доктора философии

              Не стоит переводить PhD как «доктор философии», лучше «кандидат наук»
                0
                Как можно видеть даже по одной из картинок в статье, Parul Pandey — женщина. Так что она не «уверен», а «уверена» в том, какой этот Филипп источник вдохновения для всех.

                «когда начал работу в качестве доктора философии» — это очень корявый перевод. Имеется в виду, очевидно, начало обучения в аспирантуре. Тут схема в СНГ и в Европе одна и та же: поступил на кафедру, подписал с ней контракт, работаешь там и там же диссер пишешь. Градус пафоса сильно ниже.

                «После я должен был стать профессором, это интриговало меня.» — тут я даже не знаю, переводчик ли накосячил, или сам парень в оригинале такой непростой человек. Но вероятность сразу после аспирантуры быть взятым в профессоры — почти ничтожна и доступна только редким гениям. Более обычная схема: человек остается у себя на кафедре/в лабе постдок исследователем [доцнетом], преподает лет сколько-то, руководит чужими дипломными, иногда даже кандидатскими, а потом уже попадает в профессора лет через 10 при большой удаче. Перепрыгавают все эти ступеньки только уникумы вроде Ричарда Фейнмана. Тогда непонятно, почему интервьюерка вообще не впечатлена такими рассказами. Оригинал искать лень, но у меня есть ощущение, что там он как-то попроще выразился, вроде не «должен был стать», а «рассматривал возможность стать» или «хотел стать».

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое