df.head()
— с этого момента вы начинаете работу с данными и полагаетесь на увиденное? Я тоже. Так мы наступаем в феномен what you see is all there is («что вижу, то пою, что не вижу, не спою» — вольный перевод). У ограниченного набора данных, возможно, отсортированного, мы видим ещё более ограниченный набор данных. Мы сами этого не понимаем, но дальше нашу работу строим только на увиденном.
Как починить себя? Принять как данность, что все подвержены когнитивным искажениям. От них нельзя избавиться полностью. Можно «пойти на компромисс: научиться распознавать ситуации, в которых возможны ошибки. И стараться избегать серьёзных ошибок, если ставки высоки». В этой фразе скрыт рецепт для нас: понимаем, где происходят значимые действия во время работы с данными → пробуем распознать «ситуации, в которых возможны ошибки» → придумываем, как можно избежать этих ошибок.
Я работаю с данными почти 20 лет, и из них семь набирала и растила джунов, три — наставник в Практикуме на курсе «Аналитик данных». По работам начинающих аналитиков (чужие ошибки проще увидеть, чем свои) я пробовала понять, где происходят «значимые действия» и «возможны ошибки» во время предобработки данных. В этой статье предложу свои варианты борьбы.