Привет, Хабр! Меня зовут Раф. Сейчас я работаю аналитиком ценообразования в Яндекс Лавке, куда попал после стажировки в команде аналитики Яндекс Браузера. Параллельно учусь в НИУ ВШЭ и уже успел пройти курс «Специалист по Data Science» в Практикуме.
В этой статье я собрал полезные материалы, курсы и ролики, которые помогут освоить анализ данных с нуля. Статья пригодится новичкам в аналитике и Data Science. А ещё много полезного можно найти в моём телеграм-канале про аналитику в IT :)
Начинающему специалисту необходимо освоить базовый набор инструментов: основы языка программирования, алгоритмы и структуры данных, а также математику.
Предположим, что в качестве основного языка программирования вы выбрали Python. Он подходит специалистам по Data Science по следующим причинам:
Низкий порог входа — относительно других языков Python имеет простой и понятный синтаксис и на начальном этапе не требует знаний объектно-ориентированного программирования.
Большой выбор инструментов для анализа данных — для этого языка разработано множество библиотек и фреймворков для работы с данными, таких как Pandas, NumPy, SciPy, Matplotlib и другие. Это упрощает обработку, визуализацию и анализ данных новичкам и опытным специалистам.
Python — главный инструмент для машинного обучения. Почти всегда обучение происходит при помощи этого языка из-за наличия ML-библиотек и фреймворков.
Изучение основ Python
Начните с базового синтаксиса, а затем переходите к встроенным структурам данных: словарям, кортежам, множествам.
Питонтьютор — понятный и удобный курс для освоения базы. Там много задач для практики, которые попадаются на собеседованиях.
Основы Python-разработки — ещё один бесплатный курс: за 20 часов вы изучите основы и напишете простой код.
Основы программирования и анализа данных на Python — короткий видеокурс. Особенно рекомендую лекции 7—10 про полезные библиотеки Pandas, NumPy, Matplotlib и Seaborn.
Основы SQL
Аналитик должен уметь получать данные из таблиц в нужной форме, в этом ему поможет SQL. Главные задачи SQL — составлять запросы так, чтобы находить необходимую информацию, сортировать её, структурировать и представлять в наиболее простом и понятном виде.
Интерактивный тренажёр по SQL — курс с множеством практических заданий на создание SQL-запросов. Рекомендую начать с него.
Основы работы с базами данных и SQL — ещё один курс с интерактивным тренажёром.
Упражнения на SQL-EX — тренажёр написания запросов SELECT. Регулярно решайте задачи, чтобы уверенно чувствовать себя на собеседованиях.
Библиотеки Python
В работе аналитика сильно выручают библиотеки: они позволяют упростить и ускорить работу, не придумывать решения с нуля. Изучить их можно самостоятельно, не обязательно в рамках курса. Главное, не забывайте сразу применять теорию на практике.
Python PANDAS, полный курс для начинающих — библиотека Pandas помогает удобно работать с табличными данными и похожа логикой на SQL. Основные операции стоит знать наизусть: чтение таблиц, редактирование, работа с пропусками, изменение типов данных. После изучения теории возьмите какой-нибудь датасет и вручную «покрутите» его в Jupyter Notebook.
Основы NumPy — библиотека NumPy помогает быстро и удобно производить математические операции. Она используется во многих других библиотеках. Необязательно знать все операции наизусть, главное — уметь быстро в них сориентироваться при необходимости.
Matplotlib и Seaborn — библиотеки для визуализации данных. В Seaborn графики выглядят красивее, а Matplotlib гибко настраивается. Заучивать все функции и методы необязательно.
50 оттенков Matplotlib — статья с примерами графиков, чтобы построить что-то подобное для своих данных.
Алгоритмы и структуры данных
Обычно на собеседованиях спрашивают про базовые алгоритмы и структуры данных.
Тренировки по алгоритмам — лекции с теорией, домашними заданиями и разборами. Сдавайте задания вовремя, чтобы получить сертификат. Лучших участников готовят к прохождению алгоритмических собеседований.
LeetCode — сайт с задачами для подготовки к собеседованиям. Решайте уровни Easy и Medium перед интервью.
Математика для анализа данных
Бесплатный курс «Основы математики для цифровых профессий» поможет закрыть пробелы в базовой математике, чтобы перейти к более сложным темам.
Теория вероятностей поможет проанализировать данные и отличить случайности от закономерностей. Смотрите лекции от МФТИ и других крутых универов по теорверу на YouTube.
Уделите внимание этим темам:
комбинаторика,
дискретная вероятность,
условные вероятности,
формула полной вероятности,
теорема Байеса,
понятие случайной величины,
математическое ожидание и дисперсия,
основные распределения случайных величин,
закон больших чисел,
центральная предельная теорема,
точечное и интервальное оценивание,
доверительные интервалы.
Основы математической статистики — курс связан с теорвером, и с его помощью можно научиться делать достаточно точные выводы о данных по их выборке.
Курс ведёт Анатолий Карпов — ex-тимлид команды аналитики в отделе бизнеса и рекламы VK. Он крутой специалист, рекомендую его вебинары на YouTube и курсы.
Продуктовая аналитика
Продуктовая аналитика научит правильно думать о продукте: измерять метрики и придумывать новые, понимать, что такое A/B-тесты, и правильно их проводить.
Читайте статьи и новости о продуктах известных компаний, смотрите, как они решают проблемы.
Этого должно быть вполне достаточно, чтобы начать проходить собеседования по чистой продуктовой аналитике.