Статистика в Data Science — исчерпывающий гид для амбициозных практиков ML / Хабр

В преддверии старта нового потока курса «Machine Learning Pro + Deep Learning» представляем вашему вниманию пост, который смело можно класть в закладки, — гид по статистике для амбициозных практиков машинного обучения. От ответа на вопрос, что такое статистика, до весьма подробных списков понятий, которые нужно усвоить, чтобы овладеть используемой в работе с проектами ML статистикой. Кроме того, в посте вы найдёте рекомендации литературы.

В современном сверхсвязанном мире данные генерируются и потребляются невиданными ранее темпами. И, как бы нам ни нравилась эта «сверхпроводимость данных», она провоцирует злоупотребления. Дата-сайентисты должны быть обучены использованию статистических методов не только для интерпретации цифр, но и для выявления таких злоупотреблений и защиты людей от введения в заблуждение. Немногие специалисты по статистике имеют формальную подготовку. Хороших книг и курсов, которые обучают статистическим методам с точки зрения науки о данных, немного. В этом посте я пролью свет на следующие вопросы:

Что такое статистика?
Статистика в отношении к машинному обучению.
Зачем вам нужно осваивать статистику.
Какому учебному плану следовать, чтобы освоить эти темы.
Как изучать статистику, чтобы стать практиком, а не просто человеком, который правильно сдаёт тесты.
Практические советы и обучающие ресурсы.

Что такое статистика?

Статистика — это набор математических методов и инструментов, позволяющих ответить на важные вопросы о данных. Она делится на две категории:

Описательная статистика. Предлагает методы резюмирования данных путем преобразования необработанных наблюдений в значимую информацию, которую легко интерпретировать и распространять.
Логическая статистика. Предлагает методы изучения экспериментов, выполненных на маленьких образцах данных, и умозаключения для всей популяции (всего домена).

Сегодня статистика и машинное обучение — две тесно связанные между собой области. Статистика дает важные предпосылки для прикладного машинного обучения: она помогает выбирать, оценивать и интерпретировать модели прогнозирования.

Статистика в машинном обучении

В основе машинного обучения лежит статистика. Невозможно решить реальные проблемы с помощью машинного обучения, если вы не обладаете хорошим знанием основ статистики.

Конечно, имеются некоторые факторы, затрудняющие обучение статистике. Я говорю о математических уравнениях, греческой нотации и тщательно выверенных понятиях, затрудняющих развитие интереса к предмету. Можно решить эти проблемы с помощью простых и ясных объяснений, учебных пособий с соответствующим темпом и практических занятий — решения проблем с помощью прикладных методов статистики. От исследовательского анализа данных до разработки экспериментов для проверки гипотез статистика играет ключевую роль в решении проблем во всех основных отраслях и областях.

Тот, кто хочет развить глубокое понимание машинного обучения, должен узнать, как статистические методы формируют основу алгоритмов регрессии и классификации, как статистика позволяет учиться на основе данных и как она помогает извлекать смысл из немаркированных данных.

Зачем вам осваивать статистику?

Каждая организация стремится стать управляемой данными. Вот почему мы наблюдаем такой рост спроса на дата-сайентистов и аналитиков. Сегодня, чтобы решить проблемы, ответить на вопросы и наметить стратегию, нужно разобраться в данных. К счастью, статистика предлагает набор инструментов для получения этих знаний.

От данных к знаниям

Сами по себе сырые наблюдения — это просто данные. Чтобы трансформировать наблюдения в имеющие смысл идеи, применяется описательная статистика. Затем возможно применить логическую статистику, чтобы изучить небольшие выборки данных и дать схему с выводами для экстраполяции результатов на всю совокупность данных.

Статистика помогает ответить на вопросы, подобные этим

Какие из признаков наиболее важны?
Как проектировать эксперимент, чтобы разработать стратегию продукта?
Какие показатели производительности мы должны измерять?
Какой самый распространенный и ожидаемый результат?
Как отличить шум от достоверных данных?

Это важные и общие вопросы, на которые ежедневно приходится отвечать работающим с данными командами. Ответы на эти вопросы помогают эффективно принимать решения. Статистические методы помогают нам не только настраивать проекты прогнозного моделирования, но и интерпретировать результаты.

Статистика и проекты по машинному обучению

Почти каждый состоит из перечисленных ниже задач. И статистика играет в той или иной форме центральную роль во всех этих задачах. Ниже примеры:

Уточнение постановки проблемы

Наиболее важной частью прогностического моделирования является фактическое определение проблемы, дающее реальную цель, к которой мы должны стремиться. Это помогает определить тип проблемы, с которой мы имеем дело (то есть регрессия это или классификация), а также помогает в определении структуры и типов входных, выходных данных и метрик с учетом поставленной задачи. Но подстановка проблем не всегда проста. Если вы новичок в машинном обучении, она может потребовать значительного изучения наблюдений в вашей области. Два основных понятия, которые необходимо освоить здесь — это экспериментальный анализ данных (EDA) и добыча данных (Data Mining).

Первоначальное исследование данных

Исследование данных включает в себя получение глубокого понимания как распределения переменных, так и отношений между переменными в ваших данных.

Отчасти знание домена помогает овладеть определённым типом переменных. Тем не менее как эксперты, так и новички в этой области извлекают пользу из реальной работы с реальными наблюдениями в домене. Важные связанные с этим понятия в статистике сводятся к изучению описательной статистики и визуализации данных.

Очистка данных

Часто точки данных, собранные из эксперимента или хранилища данных, являются нетронутыми. Данные могли быть подвергнуты процессам или манипуляциям, которые повредили их целостность. Это еще больше влияет на последующие процессы или использующие такие данные модели. Распространённые примеры — пропущенные значения, повреждение данных, ошибки в данных (из-за плохого датчика), а также не приведённые к единой форме данные (наблюдения с разными масштабами). Если вы хотите освоить методы очистки, изучите выявление отклонений и вменение отсутствующих значений.

Подготовка данных и настройка конвейера преобразования

Если данные содержат ошибки и несоответствия, часто нельзя применять их в моделировании. Во-первых, данным, возможно, придётся пройти через набор преобразований, чтобы изменить форму или структуру и сделать их более подходящими для определённой вами задачи, или используемых алгоритмов обучения. Затем можно разработать конвейер таких преобразований, который будет применяться к данным для получения последовательных и совместимых входных данных для модели. Вы должны овладеть такими понятиями, как методы выборки данных и отбора признаков, преобразование данных, их масштабирование и кодирование.

Выбор и оценка модели

Ключевым шагом в решении прогностической проблемы являются выбор и оценка метода обучения. Оценочная статистика поможет вам оценить прогнозы модели на данных, которые модель не видела.

Проектирование экспериментов — это подраздел статистики, который управляет процессом выбора и оценки модели. Он требует хорошего понимания проверки статистических гипотез и оценочной статистики.

Тонкая настройка модели

Почти в каждом алгоритме машинного обучения имеется набор гиперпараметров, которые позволяют настроить метод обучения под выбранную вами постановку задачи. Эта гиперпараметрическая настройка часто носит эмпирический, но не аналитический характер. Для оценки влияния различных настроек гиперпараметра на производительность модели требуются большие наборы экспериментов.

Статистика: учебный план для практиков

Хорошая учебная программа по статистике для практиков должна охватывать не только множество методов и инструментов, о которых я только что писал. Она также должна охватывать и изучать наиболее часто встречающиеся проблемы в отрасли. Ниже приведён список широко используемых навыков, которые вам нужно освоить, чтобы пройти собеседование на должность дата-сайентиста и ML и устроиться на работу в этой области.

Основные навыки в статистике

Определение вопроса, на который можно ответить статистически, чтобы принимать эффективные решения.
Вычисление и интерпретация общих статистических данных и использование стандартных методов визуализации данных для передачи результатов.
Понимание того, как математическая статистика применяется в конкретной области, такие понятия, как центральная предельная теорема и закон больших чисел.
Умение делать выводы из оценок местоположения и изменчивости (ANOVA).

Определение связи между целевыми и независимыми переменными.
Разработка экспериментов по проверке статистических гипотез, A/B тестирование и т. д.
Вычисление и интерпретация метрик производительности, таких как р-значение, альфа, ошибки первого и второго рода и т. д.

Важные понятия статистики

Приступая к освоению статистики, нужно понимать типы данных (данные в прямоугольной системе координат и другие данные), оценивать местоположение и вариабельность распределения данных, бинарные и категориальные данные, корреляцию, отношение между различными типами переменных.
Статистические распределения — случайные числа, закон больших чисел, центральная предельная теорема, стандартная погрешность и т. д.
Выборка и распределение данных — случайная выборка, смещение выборки, смещение выбора, распределение выборки, бутстрэп, доверительный интервал, нормальное распределение, t-распределение, биномиальное распределение, распределение «хи квадрат», F-распределение, распределение Пуассона и экспоненциальное распределение.
Статистические эксперименты и и тестирование значимости — A/B тестирование, проведение проверки гипотез (нулевая и альтернативная гипотезы), ресемплирование, статистическая значимость, доверительный интервал, p-значение, альфа [прим. перев. — максимальный шанс допустить ошибку первого рода], t-критерии, степени свободы, выводы из оценок местоположения и изменчивости, критические значения, ковариантность и корреляция, величина эффекта, статистическая мощность.
Непараметрические статистические методы — ранжирование данных, критерии нормальности, нормализация данных, ранговая корреляция, критерии знаковых рангов, критерий независимости.

Практические советы по обучению

Большинство университетов разработали учебные программы курсов по статистике, чтобы проверить способность студента справляться с трудностями. Они просто проверяют, могут ли учащиеся решать уравнения, определять терминологию и идентифицировать графики, выводящие уравнения, вместо того, чтобы сосредотачиваться на применении этих методов для решения реальных задач. Однако увлеченные специалисты-практики должны следовать пошаговому процессу изучения и реализации статистических методов по различным проблемам с использованием исполняемого кода Python. Рассмотрим два основных подхода к изучению статистики немного глубже.

Нисходящий подход

Допустим, вас попросят провести эксперимент для проверки эффективности двух версий продукта. Эта функция призвана повысить вовлечённость пользователей в работу онлайн-портала. С помощью подхода «сверху вниз» вы сначала узнаете больше о проблеме. Затем, как только цель станет ясной, вы сможете научиться применять соответствующие статистические методы. Это поддерживает ваше участие и предлагает лучший практический опыт обучения.

Восходящий метод

Такой подход позволяет большинству университетов и онлайн-курсов преподавать статистику. Он сосредоточена на изучении теоретических понятий с математической нотацией, истории понятия и способах применения. Для таких людей, как я, склонных терять интерес к теоретическому обучению, это неправильный способ изучения прикладной статистики. Он делает обучение слишком обобщённым, отсутствие какой-либо прямой связи с решением проблемы делает изучаемый объект сухим и депрессивным. Вероятно, вы уже поняли, я рекомендую нисходящий подход к изучению статистики. Давайте посмотрим на некоторые специфические ресурсы, которые я рекомендую, чтобы вы начали изучение статистики правильно.

Ресурсы для обучения

Book on Practical Statistics — книга научит статистике с точки зрения Data Science. Вы должны прочитать по крайней мере первые 3 главы.
Statistics and Probability | Khan Academy Этот курс хорошо подготовит вас ко всем вопросам по статистике и вероятности во время собеседования. Это бесплатный курс с хорошей подборкой видеолекций и практических задач.
Naked Statistics – для людей, которые боятся математики и предпочитают практические примеры, это удивительная книга, которая объясняет, как статистика применяется в реальных ситуациях.
Статистические методы для машинного обучения. Эта книга — ускоренный курс по статистическим методам для практиков машинного обучения. В идеале она для тех, у кого есть опыт разработки.

Если вам нравится сфера машинного обучения или же вы хотите расширить свои знания в этой области, то приходите к нам учиться, а специальный промокод HABR добавит 10 % к скидке на баннере.

Eще курсы

Статистика в Data Science — исчерпывающий гид для амбициозных практиков ML