Comments / Profile of a-pichugin / Habr

Артем Пичугин @a-pichugin

Education program designer

Profile Publications 34Comments 40Bookmarks 4

Коэффициент Джини. Из экономики в машинное обучение

a-pichugin Sep 22 2021 at 13:49

Если что, то вот оригинальная статья, по которой делался перевод: https://sudonull.com/post/61746-Gini-coefficient-From-Economics-to-Machine-Learning-Open-Data-Science-Blog

-2

Look

Как сделать свой автоскейлер для кластера

a-pichugin Dec 27 2019 at 13:04

Да, это правда важный момент. Нагрузка на сеть увеличивается, потому что данные под конкретную джобу копируются на соответствующие ноды. Поделиться данными по загруке не могу, так как кластер уже погасили.

Look

Вертикальная и горизонтальная карьера в сфере Data Science

a-pichugin Nov 27 2019 at 16:46

Я понимаю о чем речь: любой рост нами рассматривается по вертикальной оси. Тут однако, человек растет именно в профессиональной плоскости как специалист, а не как управленец. И на моменте Senior DS он должен по сути принять решение, куда ему дальше двигаться: продолжать расти как специалист или начать развиваться вертикально как управленец.

Look

Data Engineer – самая сексуальная профессия XXI века

a-pichugin Nov 26 2019 at 16:48

Можно и так сказать, но в моем понимании сисадмин находится на инфраструктурном уровне, DE на сервисном, а DS на пользовательском.

Look

Data Engineer – самая сексуальная профессия XXI века

a-pichugin Nov 26 2019 at 13:15

В данном случае Data Scientist более раскручен, чем Data Engineer. Все хотят быть первыми, а не вторыми. Даже в крупных компаниях бывает: если ты DS, вот тебе MacBook, а если DE, тебе не положено. В итоге и видим, что часть DE хотят стать DS.

Look

Как спроектировать идеальное занятие

a-pichugin Oct 4 2019 at 14:34

Да, согласен. Поэтому я начал c:

Предположим, что ты выступаешь впервые перед этой аудиторией.

Если не первый раз, то конечно, это можно скипануть.

Про ожидания от курса – да. Мы просто берем это на себя и рассылаем опросник перед стартом программы, плюс на первом занятии участники еще все представляются и говорят про свои цели.

С опоздавшими, честно говоря, не очень понятно, что делать. С одной стороны, он сам виноват, что опоздал, в результате чего пропустил часть материала. С другой стороны, как-то помочь ему, конечно, тоже надо. У нас эту проблему можно решить с трансляцией: то есть опаздываешь – подключаешься к трансляции, и потом заходишь в аудиторию, ничего не пропустив. Либо уже потом смотришь в записи.

Look

Как я узнал, что моя виза не готова, сообщением в Slack

a-pichugin Apr 30 2019 at 14:51

И ведь не автоматизируешь это

Look

Как я узнал, что моя виза не готова, сообщением в Slack

a-pichugin Apr 30 2019 at 12:03

Спасибо)

P.S. Это ж воскресенье в нерабочее время)

Look

1-я лабораторная работа программы Data Engineer

a-pichugin Nov 13 2017 at 15:11

Нет, другие лабораторные будут доступны непосредственно на нашей программе ¯\_(ツ)_/¯

Look

1-я лабораторная работа программы Data Engineer

a-pichugin Oct 29 2017 at 20:51

Конечно :)

Что мы хотим сделать в целом — это построить пайплайн обработки данных: от их сбора с нашего сайта (кликстрим) до их визуализации в каком-нибудь BI-инструменте. В промежутке разный ML.

Соответственно, в нашей первой лабе мы только начинаем этот процесс. Разворачиваем кластер со всеми сервисами, которые могут понадобиться позднее. Поднимаем «учебный сайт», с которого и будем собирать данные и т.д.

Look

Data Science Week 2017. Обзор второго и третьего дня

a-pichugin Oct 16 2017 at 12:04

Нет, это разные вещи. PCA нам позволяет перейти из исходного признакового пространство в другое путем преобразований и получить компоненты, которые являются линейной комбинацией исходных признаков.

А LibFM такую трансформацию не производит, а добавляет в обыкновенную линейную регрессию факторное взаимодействие исходных признаков.

Look

Российские девушки в Data Science

a-pichugin Aug 25 2017 at 09:13

Иногда «выпячивать» надо, чтобы привлечь в эту среду таких же и просто продемонстрировать «есть такой путь, не надо у себя в голове выстраивать границы, что ты не сможешь».

Как пример из другой плоскости. Публикации про школьников-программистов популяризируют программирование среди школьников, показывая что нет причин, почему это невозможно для них. Когда пишут про школьников-программистов, то в том числе поэтому подчеркивают, что они школьники.

Look

Генератор кликов на Python для программы Data Engineer

a-pichugin Aug 3 2017 at 12:13

Ну да, наверное, терминологически правильнее «генератор переходов по ссылкам».

-1

Look

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

a-pichugin Jul 19 2017 at 19:04

Нет, наоборот. Вероятность среднестатистического 50-летнего дожить до 80 лет выше, чем у младенца.

Look

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

a-pichugin Jul 19 2017 at 11:49

Если я правильно понял, то в этом случае речь идёт об условной вероятности дожития. К примеру, вероятность дожить до 80, при условии, что человек дожил до 50, будет выше, чем вероятность дожития до 80 лет младенца.

Но исходная функция выживаемости показывает как раз вторую ситуацию.

Look

Анализируем карьеру игроков NHL с помощью Survival Regression и Python

a-pichugin Jul 18 2017 at 19:30

Да, функция выживаемости, действительно, должна быть невозрастающей. В данном случае мы словили баг библиотеки, который в новой версии разработчики обещают пофиксить.

Стоит отметить, что кривая выживаемости задается непараметрически, поэтому гипотетически она может возрастать, что как раз и возникает в экстремальных ситуациях (продолжительность карьеры больше 23 сезонов), когда доверительный интервал для статистики Каплана-Мейера может искажаться из-за малого количества игроков, завершивших карьеру.

Look

Поддержка исследователей в области Deep Learning

a-pichugin Jun 14 2017 at 13:01

Да, мы расматриваем такую возможность. Хотим посмотреть, насколько это вообще интересно сообществу. Так что это можно рассматривать как эксперимент/пилот.

-2

Look

Конфигурирование Spark на YARN

a-pichugin Apr 29 2017 at 22:45

Да, есть некоторый workaround, на митапе он как раз обсуждался — что можно по частям передавать данные на драйвер, потому что памяти на драйвере и правда не напасешься порой.

Look

Конфигурирование Spark на YARN

a-pichugin Apr 28 2017 at 23:55

На предыдущих запусках использовали Cloudera. В этот раз просто переезжали с одного кластера на другой и решили попробовать HortonWorks. Не могу сказать, что заметил сильно принципиальные различия. Интерфейс другой :) Есть Tez.

Look

7 кейсов использования технологий Big Data в сфере производства

a-pichugin Apr 5 2017 at 12:04

Илья, спасибо за комментарий! В общем-то все, что вы написали в предыдущем комментарии — верно. Компании не очень любят публиковать в открытом доступе детали своих кейсов, и, действительно, бывает сложно понять — какой объем данных они обрабатывают, в real-time или нет и т.д.

По текущему комментарию. Пунктов много, попробую ничего не упустить из вида.

1. Аргументы для работодателей. Мы их даем, но не в каждом посте просто. Например, в нашем выступлении на Data Science Weekend такая аргументация была. Аргумент-то довольно простой — либо вы сейчас внедряете у себя data science, либо внедрит конкурент и обыграет вас. На мой взгляд, это особо разжевывать не надо уже сейчас. Многие уже это и так понимают, поэтому неоднократно к нам отправляют обучать своих сотрудников.

2. Схема отбивки — интересная мысль, пожалуй, возьмем на вооружение. По факту те, кто к нам приходят, ее и так для себя уже сформировали, но возможно для других будет полезно.

3. Есть соглашение с рекрутинговой компанией, которая оказывает помощь в трудоутройстве: помогает сформировать правильное резюме, подготовиться к собеседованию, найти заинтересованного работодателя. В общем, весь процесс под ключ.

4. Про Spark — у нас весь второй модуль, 1.5 месяца проходит на нем. Действительно, это быстро развивающаяся область, поэтому мы постоянно адаптируем программу. Как пример — тот же Spark. Во время предыдущего запуска вышла версия 2.0, мы переделали все наши учебные материалы под датафреймы.

5. Соглашаться или не соглашаться — во-первых, ваше право. Во-вторых, вы, действительно, можете знать больше о каких-то кейсах.

6. Data Science Week — мы выбрали для себя правильным организацию конференции для широкой аудитории, поэтому продвинутому человеку, как вам, там может быть порой, действительно, скучно. Таким же образом, не очень продвинутому будет скучно на DataFest, потому что он ничего не понимает, о чем говорят.

7. Ок. Не очень понимаю, смысл этих расчетов. Да, посчитали чистое время аудиторной работы. Во-первых, если просто весь материал уложить в 11 дней подряд по 8 часов, то выхлоп будет намного хуже, чем от размеренного распределения. Во-вторых, аудиторная работа — на нашей программе, это второстепенная часть. Довольно много работы проходит дома над нашими лабораторными заданиями. Это еще примерно 20 часов в неделю.

8. Ок. Пускай ставка такая же. Но через эти пресловутые 11 дней расходы на обучение закнчиваются.

9. Про уникальность — фитнес-центров, школ рисования и т.д. намного больше, чем буткэмпов по data science. Поэтому уже здесь уникальность закладывается.

10. Проблема в том, что вы сравниваете нас с сайтами. Они для нас конечно конкуренты, но второго уровня. Конкуренты первого уровня — это все буткэмпы, которые готовят людей на текущий момент в сфере data science. Я уже писал в комментарии к одному из постов, что в нашем случае есть добавленная ценность по сравнению с онлайн-курсами, за которую человек и платит. Продублирую и здесь:

1. Упаковка продукта происходит таким образом, что человек получает нужную инъекцию знаний и навыков, которая позволяет ему совершить переход с одной карьерной траектории на другую гораздо быстрее и в более приятном с точки зрения процесса варианте. Чтобы упаковать продукт таким образом, нужно быть хорошим специалистом в области современного (!) образования. И в этом вопросе вообще далеко не каждый разбирается — как правильно организовать программу, как правильно выстроить занятие и т.д.

2. Вероятность того, что человек пройдет программу до конца и получит то, зачем пришел существенно выше. В онлайн-курсах, например, процент людей, которые доходят до конца — в среднем 15%. Редкие курсы способны преодолеть порог в 40%. Их единицы. Вся проблема в том, что доходят люди, обладающие высоким уровнем дисциплинированности. Своего рода супермены. За что бы они не взялись, они доводят до конца. Это те люди, которые всегда доедают блюдо, потому что просто они не могу его не доесть, им по барабану на свои желания. Ничего плохого против них не имею, как и не считаю, что остальные люди ущербные.

3. Нетворк. Важная часть, которая порой недооценивается. Люди приходят не за знаниями и навыками, люди приходят за изменениями. Знания и навыки — это только ингридиенты, которые помогают эти изменения совершить, но не единственные. Часто я проходил онлайн-курсы, заканчивал и оставался с вопросом «А дальше-то что?» Куда бежать, кому показывать (ни для кого онлайн-курсы не являются значимым фактором для того, чтобы взять человека на работу). Нетворк — это именно тот дополнительный ингридиент, который помогает дальше воплощать желаемые изменения в жизнь — что бы это не было: трудоустройство, запустить новое направление на текущем месте работы, запилить стартап — что угодно.

11. По поводу кредита. Во-первых, мы предоставляем беспроцентную рассрочку. Во-вторых, люди и больше 10к на другие нужды как-то отбивают. Но по разбивке — да, еще раз — идея хорошая. Возьмем на вооружение.

12. Да, это инвестиции в человеческий капитал. Как показывает практика — навыки, востребованные. Как пример, один из работодателей уже 3 раз отправляет к нам учиться своих сотрудников. Их уже под 10 человек будет. Сейчас уже идет 6 запуск программы. С плохим продуктом вряд ли бы нам это удалось.

Еще раз спасибо за вопросы, хоть и действительно неудобные. Извиняюсь, что не ответили более оперативно. Тоже нас поймите, что вокруг полно троллей, не готовых обсуждать что-то конструктивно, порой бывает непросто отличить тролля от обычного человека.

Look