Comments 22
UFO just landed and posted this here
Составляя задачу, мы хотели, чтобы кандидат постарался определить заложенную в нее формулу и не обиделся на нас, что мы отнимаем очень много его личного времени. Задачи из жизни часто очень сложны, чтобы формулу можно было увидеть достаточно быстро. Поэтому мы и прибегли к искусственно созданным данным.
0
UFO just landed and posted this here
Больше похоже, что вы оставили только кандидатов с навыками поиска т.н. «ликов» в данных. Не то, чтобы это не коррелировало с умением копаться в данных, но все же это весьма специфичный навык, не всегда совпадающий с реальным опытом.
Помнится, мы на одном из предыдущих мест брали данные дорожной службы UK, для которых просили сделать EDA и модель, предсказывающую число ДТП на следующий год. Впрочем, такой подход не защищает от «гугления» датасета.
Помнится, мы на одном из предыдущих мест брали данные дорожной службы UK, для которых просили сделать EDA и модель, предсказывающую число ДТП на следующий год. Впрочем, такой подход не защищает от «гугления» датасета.
0
Пара цитат из книги «Вентцель Е.С. Теория вероятностей: Учеб. для вузов. — 6-е изд. стер. — М.: Высш. шк., 1999.— 576 c.»
Применение статистики оправдано в тех задачах, которые соответствуют вышеизложенным условиям.
Для прогноза торговли магазина на корте, когда дождь начисто обнуляет торговлю или хозяин кортов завтра разрешит открыться конкуренту или онлайн торговлю рекомендует обсуживающий персонал и тренеры или… и таких «или», существенно влияющих на бизнес, очень много — теория вероятности и статистика плохо применимы.
Это «недоучившиеся физики» пытаются строить прогнозы в мире людей, как в мире элементарных частиц. Они привыкли, что законы природы не меняются, электроны одинаковые и летают одинаково, каждый электрон ни на что не влияет, вот и переносят на людей — люди одинаковые, Земля вокруг Солнца крутится предсказуемо, каждый человек в отдельности ни на что не влияет.
Только предсказывать моду на воланы с помощью мат статистики совсем бесполезное дело.
Различные формы закона больших чисел вместе с различными формами центральной предельной теоремы образуют совокупность так называемых предельных теорем теории вероятностей. Предельные теоремы дают возможность не только осуществлять научные прогнозы в области случайных явлений, но и оценивать точность этих прогнозов.
при суммировании достаточно большого числа случайных величин закон распределения суммы неограниченно приближается к нормальному при соблюдении некоторых условий. Эти условия, которые математически можно формулировать различным образом — в более или менее общем виде, — по существу сводятся к требованию, чтобы влияние на сумму отдельных слагаемых было равномерно малым, т. е. чтобы в состав суммы не входили члены, явно преобладающие над совокупностью остальных по своему влиянию на рассеивание суммы.
Применение статистики оправдано в тех задачах, которые соответствуют вышеизложенным условиям.
Для прогноза торговли магазина на корте, когда дождь начисто обнуляет торговлю или хозяин кортов завтра разрешит открыться конкуренту или онлайн торговлю рекомендует обсуживающий персонал и тренеры или… и таких «или», существенно влияющих на бизнес, очень много — теория вероятности и статистика плохо применимы.
Это «недоучившиеся физики» пытаются строить прогнозы в мире людей, как в мире элементарных частиц. Они привыкли, что законы природы не меняются, электроны одинаковые и летают одинаково, каждый электрон ни на что не влияет, вот и переносят на людей — люди одинаковые, Земля вокруг Солнца крутится предсказуемо, каждый человек в отдельности ни на что не влияет.
Только предсказывать моду на воланы с помощью мат статистики совсем бесполезное дело.
+2
Интересно, почему python, а не R?
А в целом опыт показывает, что для приемлемой оценки продаж, если там не объёмы уровня Unilever, достаточно и Excel.
А в целом опыт показывает, что для приемлемой оценки продаж, если там не объёмы уровня Unilever, достаточно и Excel.
0
Программы на python довольно легко интегрируются во внутренние системы компании. И программа на python — это, прежде всего, программа, а программа позволяет делать сверх анализа. Вплоть до такого шуточного примера: отправить аналитику СМС со словами «Я закончила расчеты, подойди к компьютеру».
0
Я с R дело не имел, но похоже это крутой инструмент, в питоне зоопарк библиотек, да ещё с разным поведением по умолчанию, но при этом питон это популярный, универсальный язык программирования, в котором всё нужное есть, поэтому небольшие неудобства не перевешивают.
0
Очень интересная статья. Было увлекательно следить за вашими рассуждениями.
Если я правильно понял, целью данной работы было написание текста вакансии, чтобы в итоге как-то повлиять на процесс хантинга. И, мне кажется, если в вакансии указать те пункты, которые указаны в эпилоге, то это ни как не повлияет на кандидата читающего текст вакансии.
Если я правильно понял, целью данной работы было написание текста вакансии, чтобы в итоге как-то повлиять на процесс хантинга. И, мне кажется, если в вакансии указать те пункты, которые указаны в эпилоге, то это ни как не повлияет на кандидата читающего текст вакансии.
0
Аккуратность в соблюдении формальных требований алгоритмов и методов
Я тут как раз смог вернуться к изучению data science, есть вероятность порешать практическую задачку, по первости думал начать с чего-то базового, линейная регрессия не подходила т.к. зависимая переменная бинарная (работает/не работает), поэтому решил взять логистическую регрессию, помня по курсам на степике от Anatoliy_Karpov что для этих моделей есть целая пачка условий применимости начал пытаться понять как проверить главное условие применимости логистической регрессии — линейность взаимосвязи между logit функцией вероятности и предикторами и честно говоря не осилил понять как это сделать, видел пару отсылок на Box-Tidwell test но сходу не осилил как его применять для этой цели.
Вобщем у меня сложилось впечатление, что никто не парится проверкой условий применимости а просто пихают данные в модель и смотрят на результат.
0
Да, но чтобы не париться, все же следует понимать, когда можно не париться. По опыту можно утверждать, что иногда результат вроде бы неплох, и все сходится, но проходит пара недель, и модель начинает разъезжаться. Возвращаешься, проверяешь, обнаруживаешь что-нибудь совсем примитивное, что-то типа незамеченной гетероскедастичности и пеняешь на себя, чем раньше думал, где раньше был.
0
А представить, что среди кандидатов попадется реальный бадминтонист со стажем, который четко понимает разницу между расходом перьевых и пластиковых воланов, предпочтения при выборе первых (правильное хранение) и вторых (нужный класс скорости в зависимости от сезона) для игроков разного уровня.
С искусственным датасетом от этого пришлось бы абстрагироваться?
С искусственным датасетом от этого пришлось бы абстрагироваться?
0
Прекрасная статья. Я не нашел бы лучшей работы для иллюстрации, если бы писал книгу «Средневековое мышление в технологическом бизнесе современной России». Я попрошу автора не обижаться на мою резкую критику, и даже готов признать его новатором среди своих соплеменников.
Наше общество пережило темные времена забвения знания и, как следствие, потеряло связь с существовавшей до того промышленной (производственной) культурой. Теперь оно медленно ее переоткрывает и находится, наверное, еще очень далеко от того чтобы даже наверстать упущенное.
Ошибка номер 1: «Мы ищем человека, способного самостоятельно решить задачу».
Признание собственного незнания — первый шаг на пути к знанию.
Самая заурядная промышленная задача требует знаний сразу во многих областях и навыков сразу многих профессий. Как их все может сочетать в себе всего один человек? История развивается только в одном направлении — она требует от человека все большей специализации в его области. Так в мире сложилось, что в развитых странах открытую задачу решает всегда рабочая группа из разносторонне образованных людей. Каждый берет на себя часть вопросов, а все взаимодействие в коллективе происходит на специально выработанном междисциплинарном языке. Таким образом, необходимая черта современного специалиста — уметь, абстрагируясь от лишних подробностей его предметной области, описать свое видение на задачу в понятных остальным терминах.
Какие люди нужны для решения Вашего тестового примера?
Я не специалист в этой области, я признаю свое незнание, поэтому, составив список, я обязательно поищу людей, решавших подобные задачи и критически оценю их советы. Предварительный список таков:
1)человек хорошим с математическим, физическим или экономическим с уклоном в математику образованием, который возьмет на себя основную работу по формализации и созданию модели в тесном взаимодействии с остальной группой.
2)человек, обладающий знаниями в маркетинге, включаемый в группу хотя бы как сторонний консультант на начало работы.
3)прикладной программист, немного разбирающийся в математических библиотеках, знакомый с принципами создания программных продуктов
4)человек с профильным экономическим образованием, хотя бы как сторонний консультант
5) и последний — человек, специализирующийся в методах и алгоритмах data science.
В процессе своей работы такая группа по необходимости может быть дополнена или урезана, но на выходе вы получите качественный продукт, отвечающий всем мировым требованиям. В одиночку же получится только то, что в проруби не тонет.
Ошибка номер 2: модель задачи подменяется данными.
Искать закономерности в данных — пустая трата времени, если не создана модель предметной области задачи. Например, предприниматель, о котором шла речь, находится на высоко конкурентном рынке однотипных товаров и вынужден менять свою цену в ответ на изменения цены крупными игроками. Предположим, что его модель издержек позволяет в случае повышения средней цены на рынке, повышать ее меньше остальных, но в случае падения — не позволяет упускать наравне с остальными. В этих условиях вполне вероятно, что с повышением цены спрос на товары в его магазине только увеличится. Какую гипотезу о зависимости цены и спроса будет вынужден построить чистый статист?
Данные — это что-то вроде градусника, или другого измерительного прибора. Строить строить предметную модель в терминах только данных, на мой взгляд, — тупиковая идея. Однако если все главные фигуранты и отношения между ними определены (кипящий спирт в самогонном аппарате), то данные могут рассказать в каком состоянии модель находится и предсказать ее эволюцию.
Мой друг, Вы, как и все — дитя своего времени и своей страны. Ваша точка зрения на этой части планеты является нынче куда более общепринятой, чем моя.
Желаю Вам успехов.
Наше общество пережило темные времена забвения знания и, как следствие, потеряло связь с существовавшей до того промышленной (производственной) культурой. Теперь оно медленно ее переоткрывает и находится, наверное, еще очень далеко от того чтобы даже наверстать упущенное.
Ошибка номер 1: «Мы ищем человека, способного самостоятельно решить задачу».
Признание собственного незнания — первый шаг на пути к знанию.
Самая заурядная промышленная задача требует знаний сразу во многих областях и навыков сразу многих профессий. Как их все может сочетать в себе всего один человек? История развивается только в одном направлении — она требует от человека все большей специализации в его области. Так в мире сложилось, что в развитых странах открытую задачу решает всегда рабочая группа из разносторонне образованных людей. Каждый берет на себя часть вопросов, а все взаимодействие в коллективе происходит на специально выработанном междисциплинарном языке. Таким образом, необходимая черта современного специалиста — уметь, абстрагируясь от лишних подробностей его предметной области, описать свое видение на задачу в понятных остальным терминах.
Какие люди нужны для решения Вашего тестового примера?
Я не специалист в этой области, я признаю свое незнание, поэтому, составив список, я обязательно поищу людей, решавших подобные задачи и критически оценю их советы. Предварительный список таков:
1)человек хорошим с математическим, физическим или экономическим с уклоном в математику образованием, который возьмет на себя основную работу по формализации и созданию модели в тесном взаимодействии с остальной группой.
2)человек, обладающий знаниями в маркетинге, включаемый в группу хотя бы как сторонний консультант на начало работы.
3)прикладной программист, немного разбирающийся в математических библиотеках, знакомый с принципами создания программных продуктов
4)человек с профильным экономическим образованием, хотя бы как сторонний консультант
5) и последний — человек, специализирующийся в методах и алгоритмах data science.
В процессе своей работы такая группа по необходимости может быть дополнена или урезана, но на выходе вы получите качественный продукт, отвечающий всем мировым требованиям. В одиночку же получится только то, что в проруби не тонет.
Ошибка номер 2: модель задачи подменяется данными.
Искать закономерности в данных — пустая трата времени, если не создана модель предметной области задачи. Например, предприниматель, о котором шла речь, находится на высоко конкурентном рынке однотипных товаров и вынужден менять свою цену в ответ на изменения цены крупными игроками. Предположим, что его модель издержек позволяет в случае повышения средней цены на рынке, повышать ее меньше остальных, но в случае падения — не позволяет упускать наравне с остальными. В этих условиях вполне вероятно, что с повышением цены спрос на товары в его магазине только увеличится. Какую гипотезу о зависимости цены и спроса будет вынужден построить чистый статист?
Данные — это что-то вроде градусника, или другого измерительного прибора. Строить строить предметную модель в терминах только данных, на мой взгляд, — тупиковая идея. Однако если все главные фигуранты и отношения между ними определены (кипящий спирт в самогонном аппарате), то данные могут рассказать в каком состоянии модель находится и предсказать ее эволюцию.
Мой друг, Вы, как и все — дитя своего времени и своей страны. Ваша точка зрения на этой части планеты является нынче куда более общепринятой, чем моя.
Желаю Вам успехов.
0
Старая школа — лучшая школа!
0
Цитата: «Строить предметную модель в терминах только данных, на мой взгляд, — тупиковая идея».
Давайте представим ситуацию.
Заказчик предоставил данные для обработки, но считает невозможным предоставлять информацию об источнике данных. Как тогда строить предметную модель?
Цитата: «Самая заурядная промышленная задача требует знаний сразу во многих областях и навыков сразу многих профессий».
Реальная ситуация из жизни, но незаурядной задачи. На основе данных телеметрии о работе трактора, механизаторов обвиняют в сливе топлива. Данные обвинения основаны на сохраненных, за период 10 месяцев, данных: дата, координаты точек местонахождения трактора, скорости движения, объеме топлива в баке, прокачке насоса в двигатель. Задача перед экспертом проверить обоснованность выводов обвинения. То есть проверить состоятельность методик обработки данных, на которых базируется обвинение.
Добавлю от себя: «Сколь угодно смещенная оценка, точнее отсутствия оценки вообще»
Давайте представим ситуацию.
Заказчик предоставил данные для обработки, но считает невозможным предоставлять информацию об источнике данных. Как тогда строить предметную модель?
Цитата: «Самая заурядная промышленная задача требует знаний сразу во многих областях и навыков сразу многих профессий».
Реальная ситуация из жизни, но незаурядной задачи. На основе данных телеметрии о работе трактора, механизаторов обвиняют в сливе топлива. Данные обвинения основаны на сохраненных, за период 10 месяцев, данных: дата, координаты точек местонахождения трактора, скорости движения, объеме топлива в баке, прокачке насоса в двигатель. Задача перед экспертом проверить обоснованность выводов обвинения. То есть проверить состоятельность методик обработки данных, на которых базируется обвинение.
Добавлю от себя: «Сколь угодно смещенная оценка, точнее отсутствия оценки вообще»
0
По собственному анализу, добавить критериев отбора кандидатов, к Вашему списку, не смог.
Но у Вас остался второй лист не заполненным. Предлагаю варианты его заполнения. Заголовок листа: «Второй уровень требований»
1. Добавить, к задачам перед соискателем, определения в данных участков белого шума.
2. Ставить задачи по определению переходных процессов.
3. И учебное задание по формированию количества и типа данных, с которыми будет работать еще не существующая система, проектируемая под новую задачу.
Но у Вас остался второй лист не заполненным. Предлагаю варианты его заполнения. Заголовок листа: «Второй уровень требований»
1. Добавить, к задачам перед соискателем, определения в данных участков белого шума.
2. Ставить задачи по определению переходных процессов.
3. И учебное задание по формированию количества и типа данных, с которыми будет работать еще не существующая система, проектируемая под новую задачу.
0
Sign up to leave a comment.
Опыт разработки требований к профессиональным качествам data scientist