Pull to refresh
159.06
Яндекс Практикум
Помогаем людям расти

15+ полезных ссылок для начинающего специалиста по Data Science

Level of difficultyEasy
Reading time4 min
Views13K

Привет, Хабр! Меня зовут Раф. Сейчас я работаю аналитиком ценообразования в Яндекс Лавке, куда попал после стажировки в команде аналитики Яндекс Браузера. Параллельно учусь в НИУ ВШЭ и уже успел пройти курс «Специалист по Data Science» в Практикуме.

В этой статье я собрал полезные материалы, курсы и ролики, которые помогут освоить анализ данных с нуля. Статья пригодится новичкам в аналитике и Data Science. А ещё много полезного можно найти в моём телеграм-канале про аналитику в IT :)

Начинающему специалисту необходимо освоить базовый набор инструментов: основы языка программирования, алгоритмы и структуры данных, а также математику.

Предположим, что в качестве основного языка программирования вы выбрали Python. Он подходит специалистам по Data Science по следующим причинам:

  • Низкий порог входа — относительно других языков Python имеет простой и понятный синтаксис и на начальном этапе не требует знаний объектно-ориентированного программирования.

  • Большой выбор инструментов для анализа данных — для этого языка разработано множество библиотек и фреймворков для работы с данными, таких как Pandas, NumPy, SciPy, Matplotlib и другие. Это упрощает обработку, визуализацию и анализ данных новичкам и опытным специалистам.

  • Python — главный инструмент для машинного обучения. Почти всегда обучение происходит при помощи этого языка из-за наличия ML-библиотек и фреймворков.

Изучение основ Python

Начните с базового синтаксиса, а затем переходите к встроенным структурам данных: словарям, кортежам, множествам.

Питонтьютор — понятный и удобный курс для освоения базы. Там много задач для практики, которые попадаются на собеседованиях.

Основы Python-разработки — ещё один бесплатный курс: за 20 часов вы изучите основы и напишете простой код. 

Основы программирования и анализа данных на Python — короткий видеокурс. Особенно рекомендую лекции 7—10 про полезные библиотеки Pandas, NumPy, Matplotlib и Seaborn.

Основы SQL

Аналитик должен уметь получать данные из таблиц в нужной форме, в этом ему поможет SQL. Главные задачи SQL — составлять запросы так, чтобы находить необходимую информацию, сортировать её, структурировать и представлять в наиболее простом и понятном виде. 

Интерактивный тренажёр по SQL — курс с множеством практических заданий на создание SQL-запросов. Рекомендую начать с него.

Основы работы с базами данных и SQL — ещё один курс с интерактивным тренажёром.

Упражнения на SQL-EX — тренажёр написания запросов SELECT. Регулярно решайте задачи, чтобы уверенно чувствовать себя на собеседованиях.

Библиотеки Python

В работе аналитика сильно выручают библиотеки: они позволяют упростить и ускорить работу, не придумывать решения с нуля. Изучить их можно самостоятельно, не обязательно в рамках курса. Главное, не забывайте сразу применять теорию на практике.

Python PANDAS, полный курс для начинающих — библиотека Pandas помогает удобно работать с табличными данными и похожа логикой на SQL. Основные операции стоит знать наизусть: чтение таблиц, редактирование, работа с пропусками, изменение типов данных. После изучения теории возьмите какой-нибудь датасет и вручную «покрутите» его в Jupyter Notebook.

Основы NumPy — библиотека NumPy помогает быстро и удобно производить математические операции. Она используется во многих других библиотеках. Необязательно знать все операции наизусть, главное — уметь быстро в них сориентироваться при необходимости.

Matplotlib и Seaborn — библиотеки для визуализации данных. В Seaborn графики выглядят красивее, а Matplotlib гибко настраивается. Заучивать все функции и методы необязательно.

50 оттенков Matplotlib — статья с примерами графиков, чтобы построить что-то подобное для своих данных.

Алгоритмы и структуры данных

Обычно на собеседованиях спрашивают про базовые алгоритмы и структуры данных. 

  • Тренировки по алгоритмам — лекции с теорией, домашними заданиями и разборами. Сдавайте задания вовремя, чтобы получить сертификат. Лучших участников готовят к прохождению алгоритмических собеседований.

  • LeetCode — сайт с задачами для подготовки к собеседованиям. Решайте уровни Easy и Medium перед интервью.

Математика для анализа данных

Бесплатный курс «Основы математики для цифровых профессий» поможет закрыть пробелы в базовой математике, чтобы перейти к более сложным темам.

Теория вероятностей поможет проанализировать данные и отличить случайности от закономерностей. Смотрите лекции от МФТИ и других крутых универов по теорверу на YouTube.

Уделите внимание этим темам: 

  • комбинаторика,

  • дискретная вероятность,

  • условные вероятности,

  • формула полной вероятности,

  • теорема Байеса,

  • понятие случайной величины,

  • математическое ожидание и дисперсия,

  • основные распределения случайных величин,

  • закон больших чисел,

  • центральная предельная теорема,

  • точечное и интервальное оценивание,

  • доверительные интервалы.

Основы математической статистики — курс связан с теорвером, и с его помощью можно научиться делать достаточно точные выводы о данных по их выборке. 

Курс ведёт Анатолий Карпов — ex-тимлид команды аналитики в отделе бизнеса и рекламы VK. Он крутой специалист, рекомендую его вебинары на YouTube и курсы.

Продуктовая аналитика

Продуктовая аналитика научит правильно думать о продукте: измерять метрики и придумывать новые, понимать, что такое A/B-тесты, и правильно их проводить.

Читайте статьи и новости о продуктах известных компаний, смотрите, как они решают проблемы. 

Этого должно быть вполне достаточно, чтобы начать проходить собеседования по чистой продуктовой аналитике.

Tags:
Hubs:
Total votes 13: ↑12 and ↓1+13
Comments5

Articles

Information

Website
practicum.yandex.ru
Registered
Founded
Employees
101–200 employees
Location
Россия
Representative
Ира Ко