Pull to refresh

Comments 7

UFO landed and left these words here

В DS идут, кмк, ради денег удовольствия от получения научных ответов там, где ранее полагались исключительно на чуйку шефа, экспертность, метод "Трех П" и правдоподобное вранье.

Даже самые большие данные в ходе анализа превращаются в "табличку" из нескольких слов-сущностей с рядом стоящими количественными оценками: Top-10 кредиторов, Воронку продаж, весы фич ML-модели, прогноз цен на недели итп. Таким образом "матан, дифуры, линал, тервер" остаются за кадром и особо не донимают.

Только DS-ист может объяснить как именно получена эта итоговая табличка. Но их редко об этом просят, потому что "матан, дифуры, линал, тервер" непонятны начиная со второго слова... Это тоже особый профессиональный кайф (не получать вопросов). Если DS-ист не может написать формулу расчета стандартного отклонения - это не страшно, если он хорошо понимает суть этого показателя.

На другой чаше весов профессии DS - чистка данных, занимающая 60-80% времени. Она тяжела, требует напористости и самоконтроля даже там, где казалось бы "всё ровно" (1С, биллинг, логи итд). Ровно не бывает нигде.

Я, кажется, уже стал понимать, что чистка данных - это куча времени. Не поработаешь метлой - модель куда-нибудь не туда насчитает. Можно сидеть долго над дубликатами и выбросами, словно гречку пальцами перебираешь.

Профессиональный кайф - это здорово! Знаешь, что там в чёрном ящике.

Спасибо.

Есть способ превратить чистку во что-то сносное - "набить руку" и "заматереть". Нужно проанализировать свои рутинные действия с данными, собраться духом и... написать с десяток своих UDF c докстрингами, вынести в модуль и пользоваться им даже в разовых задачах на непредсказуемых данных. Эти UDF плюс несколько прогонов ydata_profile итп auto-EDA-либ - и уже не так страшно. Другое дело что до своих предметно-ориентированных "чистящих" UDF нужно дорасти и созреть. Это год-два.

Видимо, действительно, как с любой автоматизацией: сначала всё "ручками" делается много раз, потом надоедает, и начинаются придумки.

И модули эти, наверно, делаются под себя, как привык, чтобы понимать, что происходит с данными.

Спасибо за информацию.

Не знаю, сколько автору лет. Скорее всего, сильно меньше чем мне, но путь я прохожу (или уже прошел?) примерно такой же. Неплохим математиком был еще в СССР.

В СССР я был только в детском саду. А нынче всë в IT так быстро меняется. При этом, что удивительно, математическая база "модных новинок" может быть очень даже знакомой и частично освоенной. Только вот не знаю, помогает ли это теперь.

Sign up to leave a comment.

Articles