Привет! Меня зовут Ольга Матушевич, я наставница на курсе «Аналитик данных» в Яндекс Практикуме. А ещё я самый настоящий математик — у меня об этом и справка диплом есть. 

Никто не сомневается в том, что аналитику данных необходимо знать математику. Но какую именно? Нужно ли изучать функциональный анализ? Линейную алгебру?  Теорию чисел? И в каком объёме? А главное — зачем? Как это пригодится в рабочих задачах?

В этой статье я постараюсь ответить на эти вопросы. Расскажу, какие разделы математики нужно учить, зачем это делать, и как именно они пригодятся аналитикам на рабочем месте. И всё это — не выходя за рамки первого курса мехмата.

Теория множеств 

В каких задачах пригождается: определение и манипуляции с наборами данных, включая объединение данных из разных источников, определение пересечений между наборами и создание подмножеств для более глубокого анализа. 

То, что без теории множеств в математике обойтись невозможно, мне стало ясно на первой неделе обучения на мехмате. Каждый новый лектор, представившись и объяснив организационные моменты, неизменно произносил: «Сегодняшняя наша тема — теория множеств». Так что, изучив этот раздел математики, вы можете смело утверждать, что продвинулись и в изучении логики, и в изучении теории вероятностей, и в изучении математического анализа…

Быстро освоить теорию множеств можно на бесплатном курсе «Основы математики для цифровых профессий».

В завершение темы теории множеств предлагаю быстрый тест на уровень знания этого раздела математики с помощью известной всем аналитикам картинки. 

Если вы понимаете, как каждое из полученных множеств описать на языке SQL теории множеств с помощью ∩, ∪ и  ∕, поздравляю, теория множеств была освоена вами на достаточном уровне. Дополнительное изучение, скорее всего, не требуется.

Основы логики

В каких задачах пригождается: ввод и проверка условий; выведение новых утверждений на основе существующих.

Я пишу «основы логики», а не «логика» потому, что это очень древняя наука. С четвёртого века до нашей эры в ней успели многое открыть и записать. И да, хорошо бы изучить её целиком (или хотя бы прочитать и прорешать вузовский учебник), если на это есть время, — если его нет, то, например, изучение машины Тьюринга можно отложить на будущее.

При этом уметь правильно написать все OR и AND, они же И и ИЛИ, они же & и |, действительно необходимо. А ещё расставить скобки и указать все отрицания, желательно упростив логические выражения. 

Часто изучение теории множеств и основ логики объединяют в один модуль. Так это сделано и в бесплатном курсе «Основы математики для цифровых профессий».

Комбинаторика

В каких задачах пригождается: анализ вероятностных моделей; расчёт вариантов распределения ресурсов и оценка количества уникальных комбинаций.

Комбинаторика — это не просто база. Это азбука. После её изучения вы станете понимать строчки вроде А! В! (А-В)! как математические формулы, а не слова в современной пьесе, где персонажи общаются с помощью громких возгласов. Ну а символы Сnm станут для вас «числом сочетаний», а не «цэ энное в эмной степени».

Быстрый тест на знание испанского и комбинаторики: если не смеётесь над этим мемом, стоит подтянуть комбинаторику. Или испански

Рекомендую тоненькую (всего 48 страниц) книгу Н. Я. Виленкина «Индукция. Комбинаторика» — несмотря на надпись «Пособие для учителей», на мой взгляд, она идеальна для самостоятельного изучения во взрослом или старшем подростковом возрасте. К сожалению, давно не переиздавалась. Ищите на торрен… в библиотеках страны.

Теория вероятностей

В каких задачах пригождается: решение задач на собеседовании (часто это первое применение тервера у многих аналитиков). В рабочих процессах при известном типе распределения знания тервера позволяют построить более точную модель для подсчёта нужных метрик, а чем точнее модель, тем точнее расчёты и предсказания по этой модели. 

К сожалению, тип распределения мы можем определить далеко не всегда, поэтому напрямую тервер используется в работе не слишком часто. Зато он является ключом к пониманию математической статистики, а вот без неё аналитику в работе уже никак не обойтись.

Начать изучение теории вероятностей можно на бесплатном курсе «Основы математики для цифровых профессий», но это будет именно начало. Получить все необходимые знания можно на платном курсе «Математика для анализа данных».

Математическая статистика

В каких задачах пригождается: расчёт медианы и дисперсии, анализ корреляции, формулирование и проверка гипотез, генерация случайной выборки, построение доверительных интервалов, А/В-тестирование… Этот список можно продолжать очень долго.

Давным-давно, когда компьютеры были большими, а статистические вычисления дорогими и долгими, математическая статистика использовалась не так часто. Сейчас же, когда пакет статистических формул включён даже в Excel, практически любое утверждение необходимо подтверждать статистическими расчётами — быть готовым показать уровень p-value, рассказать про метод проверки гипотез, обосновать выбранный уровень α.

Подготовиться к этим и другим вопросам можно на платном курсе «Математика для анализа данных». Кроме того, есть совершенно потрясающий по своей полезности для аналитиков данных бесплатный курс «Основы статистики и A/B-тестирования».

Математический анализ

В каких задачах пригождается: минимизация или максимизация метрик, например, максимизация прибыли, минимизация расходов или максимизация прибыли при минимизации расходов. Минимизация функции потерь.

Поиск минимума или максимума функций в математике чаще всего решается с помощью производной. А перед тем, как взять производную от функции, было бы здорово убедиться, что функция вообще дифференцируема — и в этом тоже поможет математический анализ.

Редкий случай, когда для решения задачи математического анализа знание английского и комбинаторики будет полезнее знания собственно математического анализа

Задачи на минимизацию функции потерь, строго говоря, является типичными для Data Science, а не для анализа данных. Но при этом от аналитика данных ожидают, что он сможет построить линейный тренд с помощью линейной регрессии (что опять же формально относится к методам машинного обучения). Или объяснить, что это за тренд такой, почему в конкретном случае нужен именно он, как он был рассчитан и что можно понять с его помощью.

Погрузиться в математический анализ можно на платном курсе «Математика для анализа данных».

Линейная алгебра

В каких задачах пригождается: создание и настройка моделей, тренировка нейросетей и применение аналитических систем к информации.

Строго говоря, выше описаны задачи специалиста по Data Science, а не аналитика данных. Но, как я уже писала в разделе про матанализ, грань тут весьма тонкая, и на 100% отделить задачи одной специальности от другой невозможно. 

Более того, сами данные аналитики получают, как правило, в таблицах. Таблицы в свою очередь — это матрицы размере n*m. И как раз линейная алгебра изучает, что с матрицами нельзя делать, что можно, и как делать это эффективно.


Ну и напоследок, влияет ли на выбор разделов для изучения набор используемых вами инструментов? В целом нет. Вы можете работать с Excel, Python, R, Power BI, SQL, Tableau — рекомендованные для вас разделы для обучения останутся такими же. Но я хочу отметить, что все указанные выше курсы ориентированы в первую очередь на студентов, работающих с Python. Хотя блоки, в которых нужно писать код, малы и зачастую не обязательны для прохождения, это стоит учитывать.