Pull to refresh
33
0
Артем Пичугин @a-pichugin

Education program designer

Send message

Если что, то вот оригинальная статья, по которой делался перевод: https://sudonull.com/post/61746-Gini-coefficient-From-Economics-to-Machine-Learning-Open-Data-Science-Blog

Да, это правда важный момент. Нагрузка на сеть увеличивается, потому что данные под конкретную джобу копируются на соответствующие ноды. Поделиться данными по загруке не могу, так как кластер уже погасили.

Я понимаю о чем речь: любой рост нами рассматривается по вертикальной оси. Тут однако, человек растет именно в профессиональной плоскости как специалист, а не как управленец. И на моменте Senior DS он должен по сути принять решение, куда ему дальше двигаться: продолжать расти как специалист или начать развиваться вертикально как управленец.

Можно и так сказать, но в моем понимании сисадмин находится на инфраструктурном уровне, DE на сервисном, а DS на пользовательском.

В данном случае Data Scientist более раскручен, чем Data Engineer. Все хотят быть первыми, а не вторыми. Даже в крупных компаниях бывает: если ты DS, вот тебе MacBook, а если DE, тебе не положено. В итоге и видим, что часть DE хотят стать DS.

Да, согласен. Поэтому я начал c:


Предположим, что ты выступаешь впервые перед этой аудиторией.

Если не первый раз, то конечно, это можно скипануть.


Про ожидания от курса – да. Мы просто берем это на себя и рассылаем опросник перед стартом программы, плюс на первом занятии участники еще все представляются и говорят про свои цели.


С опоздавшими, честно говоря, не очень понятно, что делать. С одной стороны, он сам виноват, что опоздал, в результате чего пропустил часть материала. С другой стороны, как-то помочь ему, конечно, тоже надо. У нас эту проблему можно решить с трансляцией: то есть опаздываешь – подключаешься к трансляции, и потом заходишь в аудиторию, ничего не пропустив. Либо уже потом смотришь в записи.

И ведь не автоматизируешь это
Спасибо)

P.S. Это ж воскресенье в нерабочее время)
Нет, другие лабораторные будут доступны непосредственно на нашей программе ¯\_(ツ)_/¯
Конечно :)

Что мы хотим сделать в целом — это построить пайплайн обработки данных: от их сбора с нашего сайта (кликстрим) до их визуализации в каком-нибудь BI-инструменте. В промежутке разный ML.

Соответственно, в нашей первой лабе мы только начинаем этот процесс. Разворачиваем кластер со всеми сервисами, которые могут понадобиться позднее. Поднимаем «учебный сайт», с которого и будем собирать данные и т.д.
Нет, это разные вещи. PCA нам позволяет перейти из исходного признакового пространство в другое путем преобразований и получить компоненты, которые являются линейной комбинацией исходных признаков.

А LibFM такую трансформацию не производит, а добавляет в обыкновенную линейную регрессию факторное взаимодействие исходных признаков.
Иногда «выпячивать» надо, чтобы привлечь в эту среду таких же и просто продемонстрировать «есть такой путь, не надо у себя в голове выстраивать границы, что ты не сможешь».

Как пример из другой плоскости. Публикации про школьников-программистов популяризируют программирование среди школьников, показывая что нет причин, почему это невозможно для них. Когда пишут про школьников-программистов, то в том числе поэтому подчеркивают, что они школьники.
Ну да, наверное, терминологически правильнее «генератор переходов по ссылкам».
Нет, наоборот. Вероятность среднестатистического 50-летнего дожить до 80 лет выше, чем у младенца.
Если я правильно понял, то в этом случае речь идёт об условной вероятности дожития. К примеру, вероятность дожить до 80, при условии, что человек дожил до 50, будет выше, чем вероятность дожития до 80 лет младенца.

Но исходная функция выживаемости показывает как раз вторую ситуацию.
Да, функция выживаемости, действительно, должна быть невозрастающей. В данном случае мы словили баг библиотеки, который в новой версии разработчики обещают пофиксить.

Стоит отметить, что кривая выживаемости задается непараметрически, поэтому гипотетически она может возрастать, что как раз и возникает в экстремальных ситуациях (продолжительность карьеры больше 23 сезонов), когда доверительный интервал для статистики Каплана-Мейера может искажаться из-за малого количества игроков, завершивших карьеру.
Да, мы расматриваем такую возможность. Хотим посмотреть, насколько это вообще интересно сообществу. Так что это можно рассматривать как эксперимент/пилот.
Да, есть некоторый workaround, на митапе он как раз обсуждался — что можно по частям передавать данные на драйвер, потому что памяти на драйвере и правда не напасешься порой.
На предыдущих запусках использовали Cloudera. В этот раз просто переезжали с одного кластера на другой и решили попробовать HortonWorks. Не могу сказать, что заметил сильно принципиальные различия. Интерфейс другой :) Есть Tez.
Илья, спасибо за комментарий! В общем-то все, что вы написали в предыдущем комментарии — верно. Компании не очень любят публиковать в открытом доступе детали своих кейсов, и, действительно, бывает сложно понять — какой объем данных они обрабатывают, в real-time или нет и т.д.

По текущему комментарию. Пунктов много, попробую ничего не упустить из вида.

1. Аргументы для работодателей. Мы их даем, но не в каждом посте просто. Например, в нашем выступлении на Data Science Weekend такая аргументация была. Аргумент-то довольно простой — либо вы сейчас внедряете у себя data science, либо внедрит конкурент и обыграет вас. На мой взгляд, это особо разжевывать не надо уже сейчас. Многие уже это и так понимают, поэтому неоднократно к нам отправляют обучать своих сотрудников.

2. Схема отбивки — интересная мысль, пожалуй, возьмем на вооружение. По факту те, кто к нам приходят, ее и так для себя уже сформировали, но возможно для других будет полезно.

3. Есть соглашение с рекрутинговой компанией, которая оказывает помощь в трудоутройстве: помогает сформировать правильное резюме, подготовиться к собеседованию, найти заинтересованного работодателя. В общем, весь процесс под ключ.

4. Про Spark — у нас весь второй модуль, 1.5 месяца проходит на нем. Действительно, это быстро развивающаяся область, поэтому мы постоянно адаптируем программу. Как пример — тот же Spark. Во время предыдущего запуска вышла версия 2.0, мы переделали все наши учебные материалы под датафреймы.

5. Соглашаться или не соглашаться — во-первых, ваше право. Во-вторых, вы, действительно, можете знать больше о каких-то кейсах.

6. Data Science Week — мы выбрали для себя правильным организацию конференции для широкой аудитории, поэтому продвинутому человеку, как вам, там может быть порой, действительно, скучно. Таким же образом, не очень продвинутому будет скучно на DataFest, потому что он ничего не понимает, о чем говорят.

7. Ок. Не очень понимаю, смысл этих расчетов. Да, посчитали чистое время аудиторной работы. Во-первых, если просто весь материал уложить в 11 дней подряд по 8 часов, то выхлоп будет намного хуже, чем от размеренного распределения. Во-вторых, аудиторная работа — на нашей программе, это второстепенная часть. Довольно много работы проходит дома над нашими лабораторными заданиями. Это еще примерно 20 часов в неделю.

8. Ок. Пускай ставка такая же. Но через эти пресловутые 11 дней расходы на обучение закнчиваются.

9. Про уникальность — фитнес-центров, школ рисования и т.д. намного больше, чем буткэмпов по data science. Поэтому уже здесь уникальность закладывается.

10. Проблема в том, что вы сравниваете нас с сайтами. Они для нас конечно конкуренты, но второго уровня. Конкуренты первого уровня — это все буткэмпы, которые готовят людей на текущий момент в сфере data science. Я уже писал в комментарии к одному из постов, что в нашем случае есть добавленная ценность по сравнению с онлайн-курсами, за которую человек и платит. Продублирую и здесь:

1. Упаковка продукта происходит таким образом, что человек получает нужную инъекцию знаний и навыков, которая позволяет ему совершить переход с одной карьерной траектории на другую гораздо быстрее и в более приятном с точки зрения процесса варианте. Чтобы упаковать продукт таким образом, нужно быть хорошим специалистом в области современного (!) образования. И в этом вопросе вообще далеко не каждый разбирается — как правильно организовать программу, как правильно выстроить занятие и т.д.

2. Вероятность того, что человек пройдет программу до конца и получит то, зачем пришел существенно выше. В онлайн-курсах, например, процент людей, которые доходят до конца — в среднем 15%. Редкие курсы способны преодолеть порог в 40%. Их единицы. Вся проблема в том, что доходят люди, обладающие высоким уровнем дисциплинированности. Своего рода супермены. За что бы они не взялись, они доводят до конца. Это те люди, которые всегда доедают блюдо, потому что просто они не могу его не доесть, им по барабану на свои желания. Ничего плохого против них не имею, как и не считаю, что остальные люди ущербные.

3. Нетворк. Важная часть, которая порой недооценивается. Люди приходят не за знаниями и навыками, люди приходят за изменениями. Знания и навыки — это только ингридиенты, которые помогают эти изменения совершить, но не единственные. Часто я проходил онлайн-курсы, заканчивал и оставался с вопросом «А дальше-то что?» Куда бежать, кому показывать (ни для кого онлайн-курсы не являются значимым фактором для того, чтобы взять человека на работу). Нетворк — это именно тот дополнительный ингридиент, который помогает дальше воплощать желаемые изменения в жизнь — что бы это не было: трудоустройство, запустить новое направление на текущем месте работы, запилить стартап — что угодно.

11. По поводу кредита. Во-первых, мы предоставляем беспроцентную рассрочку. Во-вторых, люди и больше 10к на другие нужды как-то отбивают. Но по разбивке — да, еще раз — идея хорошая. Возьмем на вооружение.

12. Да, это инвестиции в человеческий капитал. Как показывает практика — навыки, востребованные. Как пример, один из работодателей уже 3 раз отправляет к нам учиться своих сотрудников. Их уже под 10 человек будет. Сейчас уже идет 6 запуск программы. С плохим продуктом вряд ли бы нам это удалось.

Еще раз спасибо за вопросы, хоть и действительно неудобные. Извиняюсь, что не ответили более оперативно. Тоже нас поймите, что вокруг полно троллей, не готовых обсуждать что-то конструктивно, порой бывает непросто отличить тролля от обычного человека.
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity