p0ly 25 июн 2019 в 19:02

Опыт разработки требований к профессиональным качествам data scientist

12 мин

6.5K

Занимательные задачкиBig Data*Математика*Управление персоналом*IT-компании

+10

Комментарии 22

НЛО прилетело и опубликовало эту надпись здесь

p0ly 25 июн 2019 в 20:15

Составляя задачу, мы хотели, чтобы кандидат постарался определить заложенную в нее формулу и не обиделся на нас, что мы отнимаем очень много его личного времени. Задачи из жизни часто очень сложны, чтобы формулу можно было увидеть достаточно быстро. Поэтому мы и прибегли к искусственно созданным данным.

НЛО прилетело и опубликовало эту надпись здесь

gofat 26 июн 2019 в 10:38

Больше похоже, что вы оставили только кандидатов с навыками поиска т.н. «ликов» в данных. Не то, чтобы это не коррелировало с умением копаться в данных, но все же это весьма специфичный навык, не всегда совпадающий с реальным опытом.
Помнится, мы на одном из предыдущих мест брали данные дорожной службы UK, для которых просили сделать EDA и модель, предсказывающую число ДТП на следующий год. Впрочем, такой подход не защищает от «гугления» датасета.

ChePeter 25 июн 2019 в 20:58

Пара цитат из книги «Вентцель Е.С. Теория вероятностей: Учеб. для вузов. — 6-е изд. стер. — М.: Высш. шк., 1999.— 576 c.»

Различные формы закона больших чисел вместе с различными формами центральной предельной теоремы образуют совокупность так называемых предельных теорем теории вероятностей. Предельные теоремы дают возможность не только осуществлять научные прогнозы в области случайных явлений, но и оценивать точность этих прогнозов.

при суммировании достаточно большого числа случайных величин закон распределения суммы неограниченно приближается к нормальному при соблюдении некоторых условий. Эти условия, которые математически можно формулировать различным образом — в более или менее общем виде, — по существу сводятся к требованию, чтобы влияние на сумму отдельных слагаемых было равномерно малым, т. е. чтобы в состав суммы не входили члены, явно преобладающие над совокупностью остальных по своему влиянию на рассеивание суммы.

Применение статистики оправдано в тех задачах, которые соответствуют вышеизложенным условиям.

Для прогноза торговли магазина на корте, когда дождь начисто обнуляет торговлю или хозяин кортов завтра разрешит открыться конкуренту или онлайн торговлю рекомендует обсуживающий персонал и тренеры или… и таких «или», существенно влияющих на бизнес, очень много — теория вероятности и статистика плохо применимы.

Это «недоучившиеся физики» пытаются строить прогнозы в мире людей, как в мире элементарных частиц. Они привыкли, что законы природы не меняются, электроны одинаковые и летают одинаково, каждый электрон ни на что не влияет, вот и переносят на людей — люди одинаковые, Земля вокруг Солнца крутится предсказуемо, каждый человек в отдельности ни на что не влияет.

Только предсказывать моду на воланы с помощью мат статистики совсем бесполезное дело.

Accounter 26 июн 2019 в 00:03

Del

eefadeev 26 июн 2019 в 19:04

Отлично сформулировано!

A114n 26 июн 2019 в 11:20

Интересно, почему python, а не R?

А в целом опыт показывает, что для приемлемой оценки продаж, если там не объёмы уровня Unilever, достаточно и Excel.

p0ly 26 июн 2019 в 11:36

Программы на python довольно легко интегрируются во внутренние системы компании. И программа на python — это, прежде всего, программа, а программа позволяет делать сверх анализа. Вплоть до такого шуточного примера: отправить аналитику СМС со словами «Я закончила расчеты, подойди к компьютеру».

worldmind 26 июн 2019 в 14:59

Я с R дело не имел, но похоже это крутой инструмент, в питоне зоопарк библиотек, да ещё с разным поведением по умолчанию, но при этом питон это популярный, универсальный язык программирования, в котором всё нужное есть, поэтому небольшие неудобства не перевешивают.

GZamza 26 июн 2019 в 12:47

Очень интересная статья. Было увлекательно следить за вашими рассуждениями.

Если я правильно понял, целью данной работы было написание текста вакансии, чтобы в итоге как-то повлиять на процесс хантинга. И, мне кажется, если в вакансии указать те пункты, которые указаны в эпилоге, то это ни как не повлияет на кандидата читающего текст вакансии.

p0ly 26 июн 2019 в 12:51

Спасибо! Не совсем так. Статью мы решили написать уже в процессе общения с кандидатами и разбора присланных решений. Я согласен, что от указания этих пунктов в тексте вакансии мало что изменится, ну может отсечет часть неуверенных в себе людей.

worldmind 26 июн 2019 в 14:57

Аккуратность в соблюдении формальных требований алгоритмов и методов

Я тут как раз смог вернуться к изучению data science, есть вероятность порешать практическую задачку, по первости думал начать с чего-то базового, линейная регрессия не подходила т.к. зависимая переменная бинарная (работает/не работает), поэтому решил взять логистическую регрессию, помня по курсам на степике от Anatoliy_Karpov что для этих моделей есть целая пачка условий применимости начал пытаться понять как проверить главное условие применимости логистической регрессии — линейность взаимосвязи между logit функцией вероятности и предикторами и честно говоря не осилил понять как это сделать, видел пару отсылок на Box-Tidwell test но сходу не осилил как его применять для этой цели.
Вобщем у меня сложилось впечатление, что никто не парится проверкой условий применимости а просто пихают данные в модель и смотрят на результат.

valkoivo 26 июн 2019 в 15:07

Да, но чтобы не париться, все же следует понимать, когда можно не париться. По опыту можно утверждать, что иногда результат вроде бы неплох, и все сходится, но проходит пара недель, и модель начинает разъезжаться. Возвращаешься, проверяешь, обнаруживаешь что-нибудь совсем примитивное, что-то типа незамеченной гетероскедастичности и пеняешь на себя, чем раньше думал, где раньше был.

worldmind 26 июн 2019 в 15:12

Ну я и не считаю это правильным, но вот реальность такова, что никто (не в математическом, а в практическом смысле) и не знает как проверить-то.

valkoivo 26 июн 2019 в 15:21

Ну, я так понимаю, что Карпов точно знает.

worldmind 26 июн 2019 в 15:25

Надеюсь, в тех курсах настолько глубоко не забирались.

Serg_iv 27 июн 2019 в 11:24

А представить, что среди кандидатов попадется реальный бадминтонист со стажем, который четко понимает разницу между расходом перьевых и пластиковых воланов, предпочтения при выборе первых (правильное хранение) и вторых (нужный класс скорости в зависимости от сезона) для игроков разного уровня.
С искусственным датасетом от этого пришлось бы абстрагироваться?

Sergey_Kovalenko 27 июн 2019 в 12:01

Прекрасная статья. Я не нашел бы лучшей работы для иллюстрации, если бы писал книгу «Средневековое мышление в технологическом бизнесе современной России». Я попрошу автора не обижаться на мою резкую критику, и даже готов признать его новатором среди своих соплеменников.

Наше общество пережило темные времена забвения знания и, как следствие, потеряло связь с существовавшей до того промышленной (производственной) культурой. Теперь оно медленно ее переоткрывает и находится, наверное, еще очень далеко от того чтобы даже наверстать упущенное.

Ошибка номер 1: «Мы ищем человека, способного самостоятельно решить задачу».
Признание собственного незнания — первый шаг на пути к знанию.
Самая заурядная промышленная задача требует знаний сразу во многих областях и навыков сразу многих профессий. Как их все может сочетать в себе всего один человек? История развивается только в одном направлении — она требует от человека все большей специализации в его области. Так в мире сложилось, что в развитых странах открытую задачу решает всегда рабочая группа из разносторонне образованных людей. Каждый берет на себя часть вопросов, а все взаимодействие в коллективе происходит на специально выработанном междисциплинарном языке. Таким образом, необходимая черта современного специалиста — уметь, абстрагируясь от лишних подробностей его предметной области, описать свое видение на задачу в понятных остальным терминах.

Какие люди нужны для решения Вашего тестового примера?
Я не специалист в этой области, я признаю свое незнание, поэтому, составив список, я обязательно поищу людей, решавших подобные задачи и критически оценю их советы. Предварительный список таков:
1)человек хорошим с математическим, физическим или экономическим с уклоном в математику образованием, который возьмет на себя основную работу по формализации и созданию модели в тесном взаимодействии с остальной группой.
2)человек, обладающий знаниями в маркетинге, включаемый в группу хотя бы как сторонний консультант на начало работы.
3)прикладной программист, немного разбирающийся в математических библиотеках, знакомый с принципами создания программных продуктов
4)человек с профильным экономическим образованием, хотя бы как сторонний консультант
5) и последний — человек, специализирующийся в методах и алгоритмах data science.

В процессе своей работы такая группа по необходимости может быть дополнена или урезана, но на выходе вы получите качественный продукт, отвечающий всем мировым требованиям. В одиночку же получится только то, что в проруби не тонет.

Ошибка номер 2: модель задачи подменяется данными.
Искать закономерности в данных — пустая трата времени, если не создана модель предметной области задачи. Например, предприниматель, о котором шла речь, находится на высоко конкурентном рынке однотипных товаров и вынужден менять свою цену в ответ на изменения цены крупными игроками. Предположим, что его модель издержек позволяет в случае повышения средней цены на рынке, повышать ее меньше остальных, но в случае падения — не позволяет упускать наравне с остальными. В этих условиях вполне вероятно, что с повышением цены спрос на товары в его магазине только увеличится. Какую гипотезу о зависимости цены и спроса будет вынужден построить чистый статист?
Данные — это что-то вроде градусника, или другого измерительного прибора. Строить строить предметную модель в терминах только данных, на мой взгляд, — тупиковая идея. Однако если все главные фигуранты и отношения между ними определены (кипящий спирт в самогонном аппарате), то данные могут рассказать в каком состоянии модель находится и предсказать ее эволюцию.

Мой друг, Вы, как и все — дитя своего времени и своей страны. Ваша точка зрения на этой части планеты является нынче куда более общепринятой, чем моя.
Желаю Вам успехов.

eefadeev 27 июн 2019 в 17:02

Старая школа — лучшая школа!

Sistemaalex 29 июн 2019 в 17:49

Цитата: «Строить предметную модель в терминах только данных, на мой взгляд, — тупиковая идея».
Давайте представим ситуацию.
Заказчик предоставил данные для обработки, но считает невозможным предоставлять информацию об источнике данных. Как тогда строить предметную модель?
Цитата: «Самая заурядная промышленная задача требует знаний сразу во многих областях и навыков сразу многих профессий».
Реальная ситуация из жизни, но незаурядной задачи. На основе данных телеметрии о работе трактора, механизаторов обвиняют в сливе топлива. Данные обвинения основаны на сохраненных, за период 10 месяцев, данных: дата, координаты точек местонахождения трактора, скорости движения, объеме топлива в баке, прокачке насоса в двигатель. Задача перед экспертом проверить обоснованность выводов обвинения. То есть проверить состоятельность методик обработки данных, на которых базируется обвинение.
Добавлю от себя: «Сколь угодно смещенная оценка, точнее отсутствия оценки вообще»

Sistemaalex 30 июн 2019 в 09:26

По собственному анализу, добавить критериев отбора кандидатов, к Вашему списку, не смог.
Но у Вас остался второй лист не заполненным. Предлагаю варианты его заполнения. Заголовок листа: «Второй уровень требований»
1. Добавить, к задачам перед соискателем, определения в данных участков белого шума.
2. Ставить задачи по определению переходных процессов.
3. И учебное задание по формированию количества и типа данных, с которыми будет работать еще не существующая система, проектируемая под новую задачу.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Опыт разработки требований к профессиональным качествам data scientist

Комментарии 22

Публикации

Истории