Комментарии / Профиль johnpateha / Хабр

Пользователь

Подписчики

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 26 окт 2018 в 09:18

Думаю, что пока нет — сначала надо наработать практики и авторитета, чтобы кто-то отдавал стоить модели на удаленный аутсорс. Хотя возможно, такое тоже есть

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 26 окт 2018 в 07:31

Я и хотел донести мысль, что использование новых технологий работы с большими данными, машинного обучения и тд — это уже не поляна только математиков и пришло время аналитикам ее осваивать. Отрасль пока считает иначе, но она ошибается.
И для меня это серьезный перелом — раньше моя поляна была только бумажки, теперь же я своими руками создаю модели. И то и другое направлено на повышение эффективности бизнеса, но характер работы отличается.
Не менее важно — я поменял рынок для своих услуг — раньше это были крупные компании, на деятельность которых так или иначе влияют текущие проблемы нашего государства, что в конечном итоге сказывалось и на проектах (больше бюрократии, избегание ответственности и тд). Теперь же я более независим от влияния госполитики.
Ну и вопрос развития — в пред. статусе я добился оч. многого и проектов с большой новизной становилось все меньше и меньше, а работа по шаблону драйвит куда меньше. Пока для меня построение моделей еще и хобби — это и крутое упражнение для мозга и стимул постоянно учиться. Когда-то это пройдет, но на несколько лет вперед драйв обеспечен.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 26 окт 2018 в 04:58

Данных оч. много, никто тотал не считал.
сырые данные агрегируются, фильтруются под задачу и в модель заходит куда меньший объем, который можно провернуть и на одном сервере. Хотя у того же бустинга есть вариант распараллеливания на неск серверов.
А для обработки исходных данных используем спарк-хадуп — тут как раз куча серверов параллельно лопатит сырую инфу.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 26 окт 2018 в 04:50

Machine learning by Andrew Ng доступен и в этом случае. Там есть неск видео с мат обоснованиями, вполне подъемные, но автор сам предупреждает, что их можно пропустить.
Что-то из математики придется вспомнить/изучить, но если не задаваться целью создать новый алгоритм машинного обучения, то многое не требуется.
Больше надо упираться в статистику и изучать уже готовые библиотеки по ML

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 26 окт 2018 в 04:43

Мне сертификаты не были нужны, но раньше и в бесплатном варианте были доступны все задания.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 18:20

В кэггле с этим просто — насколько изменился (как правило просел) результат на прайвате по сравнению с пабликом в сравнении с остальными. Собственно кэггл это во многом про правильную валидацию — когда оч. часто отличия между командами находятся в пределах 4 знака после запятой, довольно непростая задача улучшать модель на такие крохи без переобучения.

В банке иначе — там распределение более-менее стабильное, поэтому можно мерить проседание на новых временных периодах, либо ранних просрочках. Много раз слышал в банке тезис, что бустинг круто, но переобучается. Именно в силу того, что продолжают как и для логрега использовать отложенную выборку. Моей первой банковской модели пришлось вылежаться неск. месяцев, на которых затем проверили предикты, убедились, что результат стабилен и только потом пустили в пром.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 16:06

Тюнить модель с градиентным бустингом на отложенной выборке — прямая дорога к переобучению. Для других методов еще можно как-то надеяться, что переобучение будет несильным, но не в случае с бустингом. Либо сильно недоучивать модель.
Если данных безумно много, лучший вариант — сделать сэмпл на этапе отбора переменных и подбора параметров, и уже более-менее финальный вариант доводить на полной, хотя если мы говорим о сотнях миллионов записей, то не факт, что от увеличения выборки качество модели существенно вырастет.
В QIWI я прививаю этот же подход — пока получается.

Недавно было соревнование на выявление фрода в кликах — там трейн был 350 млн записей.
Подход — тюнинг на сэмпле, финальная модель на полном, вместе с кросс-валидацией отлично зашли — наша команда заняла 8 место

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 10:53

Так вышло, что я начал с R и до сих пор он мне ближе, чем питон. Кажется, что для ресеча он лучше.
Но по работе, как и везде, больше востребован питон, поэтому осваиваю и его потихоньку.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 10:51

Я — экономист и все меряю через бабло и эк эффект.

В банк я принес градиентный бустинг, эта технология позволяет построить модели с лучшим качеством, чем логрег. Построил несколько скоринговых моделей. В скоринге — лучшая модель — меньше дефолтов, больше выдач кредитов — и то и другое конкретное бабло

В QIWI также есть как заработать на больших данных. Первые прикидки показывают, что мой текущий проект окупится через неск месяцев после выхода на рынок — есть понятный эффект и от экономии тек. расходов и увеличение доходов. Детали увы не могу раскрыть.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 09:59

Поначалу — ноутбук средней производительности (i5, 12 гб памяти)
Потом освоил гугл клауд — там на старте дают 300 баксов, которых при правильном подходе легко хватит на год соревнований (если без гпу)
В вытесняемом режиме машина с 4 ядрами и 26G оперативы стоит 5 центов в час — хватает на глаза почти для любой задачи. И всегда можно добавить

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 09:38

Про Stepik не скажу — не смотрел, но в целом всеми руками за — западные курсы на голову круче по подаче — и интереснее и лучше структурированы. Круто сначала понять зачем сабж, а уже потом погружаться в детали. А в советской школе преподавания часто наоборот.
Ну и важно закреплять курсы практикой на кэггле — это добавит куда больше. Решая конкретные кейсы приходится читать кучу статей и это уже не абстрактное чтение, а то, что потом применяешь и оно хорошо откладывается в голове. Ну и идеи других участников — не обязательно все велосипеды изобретать самому

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 09:34

Совет — не стоит тратить время на учебные соревнования на Кэггле — надо сразу боевые. И не важно, что вначале будет слабый резалт — за это никто не осудит.
Зато там есть живое обсуждение, много советов от др. участников.
И куча бэйзлайнов — примеров кода, которые позволяют стартовать. Когда не знаешь за что хвататься, это отличная возможность начать, а дальше начинаешь улучшать ту часть, где есть идеи-знания.
И через какое-то время уже будет собственный пайплайн, который от соревнования к соревнованию будет становиться все лучше.
Это прокачивает круче любых курсов — базовые знания важны, но развивать их лучше на конкретных кейсах

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 08:59

В России не так много компаний, которые лучше QIWI как работодателя — эт я не как сотрудник говорю, а как консультант, который поработал на многие из топа российских компаний. Есть что сравнить. Помимо многого другого даже пиво с пиццей выставляют по пятницам :)

В QIWI просто море данных. Раньше их юзали меньше, теперь тема стала более важной.
Я не могу раскрывать наши проекты, но это реальная гора денег в совсем недалеком будущем.
Профессионально для меня просто рай — возможность сделать с нуля из сырых данных готовые продукты, которые будут конкурировать на рынке. Возможность и учиться на практике и делать что-то реально полезное, что можно пощупать.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 08:31

Знаний не было никаких. Слышал про принцип — кормим черный ящик данными и ответами и он строит зависимости. И это наверное все. С математикой плохо — даже перемножение матриц пришлось вспоминать. Мне кажется, глубокое знание математики сейчас требуется, только если развивать технологии. Если же их просто использовать, то в них можно хорошо разобраться и без математики.
Я не смогу написать даже простой градиентный бустинг, но разорался как правильно с ним работать — этого достаточно для хороших результатов

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 08:27

Курс Яндекс+МФТИ построен как и все наше образование по принципу — выживут сильнейшие. Подача тяжелая, если бы я начинал с него, ничего бы не вышло. Западные курсы сильно отличаются подачей. И даже то, что английский в исполнении китайцев и индусов не оч. просто разобрвть, все равно их курсы заходили сильно лучше.
На курсере почти всегда есть субтитры — вначале оч. помогают. А потом втягиваешься и через неск месяцев обнаруживаешь, что можешь понимать многое без субтитров.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 07:51

Молодость — она в голове. Я себя на 40+ и не ощущаю, но паспорт не обмануть :)

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 07:47

Начать стоит с Machine learning by Andrew Ng — отличный обзор мира машинного обучения. А дальше — искать, что лучше подойдет. Обычно курсы от топовых вузов типа стэнфорда оч. хороши
Все курсы можно смотреть бесплатно, если не нужен сертификат. Что-то не понравится, можно взять другой.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 07:33

Про пиар QIWI — эта статья переложение на русский моего выступления в Варшаве на кэгглконфе за 3 месяца до начала моей работы в QIWI. пруф — youtu.be/X3ljF4kAQ8Y
Это выступление послушало 100 человек в зале и неск сот в ютубе. А тут прочитало куда больше, поэтому спасибо компании, что помогла разместить пост. И да — QIWI действительно хорошая компания — мне есть с чем сравнивать.
Вы правы — время это серьезная проблема. Я был оч. дорогим консультантом и мог себе позволить выбирать проекты и работать не фуллтайм. А когда появились первые результаты и стало понятно, что шансы на работу есть, то проектов стало совсем мало, и работой стал кэггл. Для примера — на конкурсе по Сбербанку, где мы победили, мой режим работы — проснулся в 8 — включил комп, погнал копать данные, после полуночи выключил. И так месяц по 6-7 дней в неделю. Семья хоть и роптала, но в целом поддерживала, за что ей большое спасибо. Это не просто, но была цель. Я не гениальный, просто выбрал адекватную цель и ее добился.

Ну и еще пруф — мой профиль в линкдин — ru.linkedin.com/in/epatekha

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 07:19

Это был первый вариант названия :) Решил, что слишком тяжеловесно.
Моя математика закончилась на 2 курсе экономфака в 1992г. В жизни она практически не требуется, поэтому к текущему моменту мало что осталось — даже перемножение матриц пришлось осваивать заново. А производные и интегралы уже совсем не умею. Но жить без этого можно.
В датасайнс куда важнее статистика, а ее можно вспомнить/изучить в базовом объеме за 2-3 онлайн курса.

Как стать датасайнтистом, если тебе за 40 и ты не программист

johnpateha 25 окт 2018 в 04:45

про курсы ответил чуть выше. Но одних курсов мало — дальше Кэггл — эти и практика и школа молодого бойца и обмен опытом