Крутые Data Scientist не тратят время на статистику

Автор оригинала: Cassie Kozyrkov
  • Перевод
image

Недавно я узнала, что один мой хороший друг получил докторскую степень по статистике, при этом он даже никогда не думал над вопросом: а какой собственно прок от статистики? О боже. Если не знаешь — для чего, тогда и не знаешь — нужно ли оно тебе. И раз профессорам это не очевидно, посмотрим, что смогу сделать я.

Статистика — это наука о том, как принимать решения в условиях неопределенности. Как вы можете думать? Следовать стандартным действиям или идти по пути априорных убеждений. Но что делать, если ваш разум не определился? Что если у вас еще не сложилось на этот счет никакого мнения?

Просто руководствуйтесь своими предположениями (это такой причудливый способ сказать, что “лучшая догадка строится на ваших знаниях”). Как это сделать? Посмотрите на данные, и скажите, что там. Это называется аналитикой (или data-mining), а если вам когда-нибудь доводилось пользоваться электронными таблицами, то вы наверняка уже ответили на вопрос. Дело в том, что ваше чутье поможет сделать правильную оценку и, соответственно, выбор. Поэтому всякая необходимость в сложных математических расчетах попросту отпадает.

«Но я ведь могу и ошибаться!» Конечно, ошибка не исключена, это и значит — попасть в неопределенность. В мире нет такой математики, благодаря которой можно было бы прийти к уверенному ответу. Ваша лучшая догадка может оказаться ошибочной, но тем не менее, раз это ваше лучшее предположение, на фоне него все остальные неправильны и даже скорее ошибочны.

Так что, сколько бы данных у вас не было, просто следуйте своей интуиции.

«Подождите, но мне нужно знать, достаточно ли у меня данных?» — Правда? А достаточно для чего?

Притормозите на минуточку и представьте, что вы выбираете между голубой и оранжевой шляпами. Если вам на самом деле все равно, какой будет цвет, а данные складываются в пользу оранжевого экземпляра, то, взяв в итоге голубую шляпу, вы будете выглядеть как полный безумец. Даже если набралось всего 3 пункта. Да даже если за оранжевую говорит всего 0.0000000000001%. С какого перепугу тогда голубая?! Берите оранжевую шляпу и не мучайтесь больше с математикой.

image

Если вам не важен цвет шляпы, и в пользу оранжевого экземпляра доводов набирается больше, то не сыскать такой математики, которая в итоге указала бы вам на голубую шляпу. Математика — это вам не магия, и здравый смысл она не нарушает.

Единственный вариант, почему бы вы в итоге взяли голубую шляпу — она изначально нравилась вам больше.Тогда вы могли поинтересоваться, насколько сильны аргументы в пользу оранжевой. Другими словами, достаточно ли данных, чтобы изменить решение. Что ж, ну как вам сказать? Добро пожаловать в статистику.

image

В первой строке таблицы данные не противоречат вашим начальным предпочтениям, статистические расчеты не нужны. Вы можете принять решение незамедлительно. Если доводы не соответствуют вашим предпочтениям, вы можете обратиться к статистическим расчетам, чтобы посмотреть, смогут ли эти доказательства заставить вас передумать.

Статистика — это наука о том, как менять свои решения.

Итак, если вы столкнулись с неопределенностью (к примеру, «Будет ли эта система машинного обучения работать с данными, полученными завтра?”) и варианты решения не равнозначны (например, “Нам, вероятно не следует запускать ее, если она не работает”), тогда вы пришли в правильное место: статистика вам пригодится. Ознакомьтесь с ее идеями подробнее здесь. Всем остальным советую бросить это дело и перестать скрупулезно перебирать кучу цифр… тем более, что это бестолку. Вам лучше заняться аналитикой.

image

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:



Читать еще


SkillFactory
Онлайн-школа по программированию

Комментарии 3

    0
    Нет, так ты слона не продашь шляпу не впаришь </sarcasm>.

    Отстой.
    • НЛО прилетело и опубликовало эту надпись здесь
        0

        Блин, это же просто реклама ментатов и этих… как их там в W40k звали! :)


        Почему бы Вам не предложить курсы для развития этой техники? ;) Я бы сразу пошел и даже был бы готов платить.


        Но вы снова предлагаете курсы по «числодробилкам» — это же полностью противоречит статье. Что то здесь не так… :)

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое