Самое грустное уравнение в Data Science

Автор оригинала: Cassie Kozyrkov
  • Перевод
image

Запаситесь носовыми платочками! Сейчас я расскажу вам всю правду о статистике и data science. У вас слезы на глаза навернутся, я вам обещаю.

ВЫВОД = ДАННЫЕ + ПРЕДПОЛОЖЕНИЯ. Другими словами, статистика не дает вам правду.

Распространенные мифы


Часто можно услышать следующие ошибочные представления:

  • «Если я найду правильные уравнения, я смогу узнать то, что сейчас никому неизвестно.»
  • «Если я добавлю математики в свои данные, я смогу уменьшить неопределенность.»
  • «Статистика может превращать данные в правду!»

Все это звучит как сказки, не так ли? Потому что это они и есть.

Горькая правда


Нет в мире такой магии, которая поможет вам сотворить что-то из ничего. Забудьте об этом. Статистика о другом. Поверьте мне на слово, как статистику. (В качестве бонуса эта статья сэкономит вам кучу времени, которое вы бы потратили, преследуя эту несбыточную мечту.)

К сожалению, многие шарлатаны будут пытаться убедить вас в обратном. Они будут использовать стандартный прием, «Ты не знаешь уравнений, которыми я тебя закидал, поэтому признай мое преимущество и делай как я скажу!»

Не ведитесь на слова этих позеров.

image Об авторе: Кэсси Козырков — южноафриканский специалист по данным и статистике. Она основала подразделение Decision Intelligence в Google, где является главным научным сотрудником.


Не повторяйте судьбу Икара


Думайте о статистических выводах (если коротко, «о статистике») как о прыжке от того, что мы знаем (наших обычных данных) к тому, что не знаем (нашему параметру генеральной совокупности).

В статистике то, что вы знаете, — это не то же самое, что вы хотели бы знать.
Может, вы и хотите фактов о завтрашнем дне, но вы можете делать выводы только на основе вчерашнего. (Так раздражает, когда мы не помним будущее, правда?) Может вы хотите знать, что все ваши потенциальные пользователи думают о вашем продукте, но опросить вы можете лишь сотню. Тогда вы получаете неопределенность!

Это не магия, это предположения


Как вообще можно перескочить от того, что вы знаете, к тому, чего не знаете? Вам нужен мост, чтобы преодолеть эту пропасть. И название этому мосту — предположения. Напомню вам о самом болезненном уравнении в data science: ДАННЫЕ + ПРЕДПОЛОЖЕНИЯ = ПРОГНОЗИРОВАНИЕ.

ДАННЫЕ + ПРЕДПОЛОЖЕНИЯ = ПРОГНОЗИРОВАНИЕ.
(Слово «прогнозирование» (prediction) спокойно можете заменить на «выводы» или «прогнозы», если вам так удобней. Все это об одном и том же: утверждение о чем-то, что вы не знаете наверняка.)

Что такое предположение (assumption)?


Если бы мы знали все факты (и были бы уверены в том, что это неоспоримые факты), нам были бы не нужны предположения (или статистики). Предположения — это уродливые куски, которые вы используете, чтобы построить мост между тем, что вы знаете, и тем, что хотели бы знать. Это читы, которые приходится использовать, когда нужно, чтоб цифры сошлись, а данных не хватает.

Предположения — это уродливые пластыри, которые вы накладываете в тех местах, где нет информации.
Как бы мне сказать это прямо? Предположение это не факт, это чепуха, которую вы придумываете, потому что у вас недостаточно информации. Если вы часто принижаете людей своими супер точными интервалами, не забывайте, что называть правдой то, что основано на предположениях, слишком опрометчиво. Лучше воспринимайте статистику как инструмент для принятия решений. Этот инструмент не идеален, но все же лучше, чем ничего (в определенных ситуациях).

Статистика — это ваша попытка делать все, что в ваших силах, в мире неопределенности.
Предположения — и в Африке предположения. Они не превратятся в факты по взмаху волшебной палочки.

Предположения — это часть принятия решений


Покажите мне любое решение, принятое без предположений. Я вам легко перечислю множество неявных предположений, которые вы делаете в реальной жизни, даже не задумываясь.

Примеры: Когда вы читаете газету, вы предполагаете, что все факты проверены? Когда вы строили планы на 2020, вы предполагали, что не будет глобальной пандемии? Если вы анализировали данные, вы предполагали, что данные были записаны без ошибок? Вы предполагали, что ваш генератор случайных чисел дает случайные результаты? (Обычно они не случайны.) Когда вы решаете совершить покупку в интернете, вы предполагаете, что с вас будет списана верная сумма? Что насчет вашего последнего перекуса? Вы предполагали, что он не отравлен? Когда вы принимали лекарство, вы *знали* о его долговременном эффекте или… предполагали?

Нравится вам это или нет, предположения часть принятия решений.

Нравится вам это или нет, предположения всегда являются частью принятия решений. Вмешательство в данные реального мира должно состоять из множества записанных предположений. При этом дата-сайентисты должны описать все углы, которые им придется обойти.

Даже если вы решили обойтись без статистики, вы, вероятно, используете предположения, чтобы решить, как действовать. Ради своей безопасности вы должны осознавать, на каких предположениях основаны ваши решения.

Как творится «магия» статистики


В сфере статистики есть множество инструментов, позволяющих вам сформулировать предположения и объединить их с доказательствами. Так рождаются разумные решения. (Здесь можно посмотреть мое 8-минутное введение в статистику.)

Нелепо ожидать, что анализ, включающий в себя неопределенность и вероятность, станет источником правды с большой буквы «П».
Да, так творится статистическая магия. Вы выбираете, с какими предположениями жить, затем объединяете их с данными. На основе этого нечестивого союза вы принимаете разумные решения. Вот и вся статистика.

image

Именно поэтому анализ, включающий в себя неопределенность и вероятность, никогда не сможет стать источником правды с большой буквы «П». Нет никакой секретной темной магии, делающей это за вас.

Два человека могут прийти к совершенно разным выводам на основе одних и тех же данных! Им достаточно делать разные предположения.
По той же причине два человека могут прийти к совершенно разным выводам на основе одних и тех же данных! Им достаточно делать разные предположения. Статистика дает вам инструмент, который позволяет принимать решения более осознанно, но не существует единого правила ее использования. Это личный инструмент принятия решений.

Насколько хорошо вы проведете исследование, зависит от того, насколько хорошие предположения вы сделаете.

Что там по поводу науки?


Что происходит, когда ученый использует статистику, чтобы сделать какие-то выводы? Он просто формирует мнение и принимает решение поделиться им со всем миром. Это неплохо, волей не волей ученым периодически приходится делать выводы таким образом, такая уж у них работа. Я предполагаю, что иногда к этим выводам можно прислушаться.

Волей не волей ученым периодически приходится делать выводы на основе статистики, такая уж у них работа.
Я с удовольствием слушаю советы людей, у которых больше информации и опыта, чем у меня, но я никогда не позволяю себе путать мнения с фактами. Есть ученые, которые хорошо разбираются в вероятности и работают с ней. Тем не менее, я также встречалась с учеными, которые наделали столько статистических ошибок, что их до конца жизни не разгребешь. Мнения не могут (и не должны) влиять на людей, которые не готовы сформулировать для себя предположения. Эти мнения были получены за счет сочетания доказательств и непроверенных предположений. Их нельзя считать компетентными.

Итог


Думайте о статистике как о науке, которая может помочь вам принять решение, когда вы в чем-то не уверены. Это фреймворк, который помогает вам принимать обдуманные решении при недостатке информации. Нет единственно верного способа использования статистики.

Нет, она не дает вам нужных фактов. Она дает вам то, что вам нужно, чтобы справиться с отсутствием фактов. Смысл статистики в том, чтобы помочь вам сделать все, что в ваших силах, в мире неопределенности.

Вам нужно лишь делать предположения.

Перевод: Диана Шеремьёва

image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:



Читать еще


SkillFactory
Онлайн-школа по программированию

Похожие публикации

Комментарии 4

    0

    Можно верить только той статистике, которую сделал сам, это самое правдивое утверждение о статистике.

      0
      Верно, но и ей тоже верить нельзя ;)
      +7

      Увидев название статьи, ожидал увидеть тут какую-то математику на предмет матстата или теорвера. Датасатанизм — штука, достаточно ими пропитанная.


      А обнаружил какой-то гуманитарный-научпопный налет на уши для школьников.

        +1
        Давайте я попробую предположить, что за этим множеством эмоциональных высказываний автора оригинальной статьи стоит действительно серьезная мета-математическая проблема. Эта проблема состоит в том, что академическая статистика обязывает вас делать все ваши предположения о данных до того момента, как вы на них взглянули: только тогда можно надеяться, что шанс случайно найти закономерность, кода никакой закономерности нет, будет пренебрежимо мал. Однако на практике все ваши гипотезы, все ваши предположения так или иначе основываются либо на данных, к которым вы эти предположения затем и применяете (по-умному: интерпретация результатов наблюдений) или на данных, которые вы получили прежде, что все равно не избавляет вас от парадоксов. В итоге вы сталкиваетесь с явлением «переобучения».

        Похоже, что строить гипотезы без данных нельзя, тогда как делать это правильно, как не попадаться на грабли переобучения?

        Мне не известно, чтобы статистика или какая-то другая научная дисциплина в настоящее время могла бы исчерпывающе ответить на этот вопрос. Похоже, здесь мы имеем нерешенную проблему, предмет будущих исследований и предстоящих открытий. Наверное об этом думает специалист статистике в Гугле, я тоже иногда думаю об этом.

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое