Комментарии 2
С каких пор умение работать с данными стало софт-скиллом? Раньше эти навыки были обязательны для любого, кто занимался наукой от физики до психологии, а теперь выделили в отдельную профессию.
Первый пункт про недоверие к данным - это вообще за гранью. Как можно не доверять данным с которыми ты работаешь? в чем тогда смысл такой работы? Вопрос не про доверие, тут вопрос про умение их интерпретировать и работать с ними, при чем работать и на этапе их сборки. Вы привели примеры данных, которые на уровне здравого смысла некорректны. а что делать с данными, которые не так очевидны? А что делать с данными, которые корректны, но контринтуитивны? Тут надо задаваться всегда вопросом о методике сбора данных и правдивости источника, но чего точно не должен делать профессионал, так это опираться на личный опыт и "здравый смысл". Например я смотрю на статистику, где написано. что в мире 10% населения чернокожие и опираясь на личный опыт могу сказать. что ну это же бред, я за всю жизнь их видел человек 10, тут явная ошибка в данных и наоборот, в статистике написано что 90% населения европеоиды и решают, что ну да, вполне соответствует моему опыту. все верно. Так что проверка данных - это нормальный процесс. а не вопрос доверия к ним.
Тоже самое и с корреляциями, в науке давно научились с ними работать, а специалисты по данным, вроде как, до сих пор удивляются. Любые корреляции данных в рамках эксперимента. которые не связаны с гипотезой могут быть только восприняты как предмет для отдельного исследования, но не как материал для вывода, потому что при сборе большого количества метрик очень высокая вероятность, что две метрики будут вести себя случайно похоже. Верно и обратное - если вы не видите прямой связи между метриками. это не значит. что ее нет, вопрос в интерпретациях.
Вот вам, например, интересные данные, которые согласно вашей статье нам нельзя нести заказчику - средняя продолжительность жизни вич-положительных превышает среднюю продолжительность жизни здоровых по состоянию на 2016 год. При этом процент хронических заболеваний у них выше и манифестация раньше. Согласитесь. с точки здравого смысла - это же бред. Ну и странная корреляция между высокой частотой хронических заболеваний и высокой длительностью жизни, что казалось бы должно быть наоборот. Но если мы как-раз таки займемся вопрос интерпретации и сбора данных, то выясним. что вич-положительные обращаются к врачам гораздо чаще и охотнее, чем их "здоровые" соседи, а значит получают помощь раньше, но и выявляют проблемы у них чаще и раньше, за счет более аккуратного слежения за здоровьем и регулярным медицинским процедурам, живут дольше.
Так что доверять данным можно и нужно, если вы качественно провели их проверку и это не вопрос софт-скиллов, это вполне себе хард-скилл исследовательская задача.
Привет!)
Спасибо большое за такой развернутый комментарий.
Умение работать с данными в целом, я, конечно, не называла софтскиллом -- лишь некоторые аспекты, которые, на мой взгляд, невозможно "выучить".
Мне кажется, что про "недоверие" -- это вопрос формулировок) Я согласна с тем что Вы говорите, текст в абзаце показывает то что стоит валидировать данные, и я использую именно такую формулировку чтобы еще сильнее подчеркнуть важность этого процесса. На моей практике многие начинающие специалисты этого не делают -- относятся к данным как истине, в которой не может быть ошибок, и я хочу еще раз подчеркнуть что не стоит думать что это некие "идеальные" данные, а стоит проверить их, в том числе на здравый смысл. При этом речь не идет про проверку на дубли, например -- это безусловно хардскилл любого аналитика.
По поводу корреляций -- всегда есть соблазн выдать желаемое за действительное, особенно когда заказчик в этом заинтересован и будет доволен результатом. Именно из-за этого я посчитала важным это подчеркнуть. Я неоднократно сталкиваюсь на своей работе с такими кейсами.
Ваш пример про заболевания очень интересный! На мой взгляд, он как раз укладывается в парадигму "недоваерия" к данными. Получил контринтуитивный результат -- проверь что это точно так и пойми почему. Про то что его не стоит озвучивать, конечно, речи нет) Речь идет лишь о том что нужно понимать почему он такой, и уметь объяснить это заказчику. На моей практике, для заказчика этот результат также скорее всего будет контринтуитивен и лучше заранее понять как так вышло)
Итого, на мой взгляд, часть проверок данных безусловно относится к хардам, но часть к софтам)
Не доверять данным и уметь признавать ошибки: какие софтскилы нужны аналитику данных