JetHabr 5 дек 2023 в 15:27

Ликбез по вхождению в Data Science: что для этого нужно и стоит ли пытаться?

Простой

9 мин

29K

Блог компании Инфосистемы ДжетПрограммирование*Машинное обучение*Учебный процесс в ITКарьера в IT-индустрии

Туториал

✏️ Технотекст 2023

Комментарии 25

data_analyst 5 дек 2023 в 17:35

Не надо форсить курс на Степике «Программирование на Python» от Института биоинформатики. Это лютый кринж.

-1

JetHabr 5 дек 2023 в 17:37

Как по мне, для первого погружения в тему курс неплохой. Если посоветуете альтернативные и качественные курсы по Python — будет здорово.

Largas 7 дек 2023 в 10:08

Лучший курс по Python - Поколенийе Python на Stepik. Я прошел и тот и этот и могу судить.

AlekseiOrekhov 5 дек 2023 в 22:27

Не знаю что вам не понравилось, для начинающих этот курс хороший, возможно у вас есть какая-то альтернатива? Когда я его проходил, он дал довольно большое количество опыта за короткий промежуток времени :)

dyadyaSerezha 5 дек 2023 в 20:48

А MIT сейчас передлагает 12 бесплатных курсов по Data Science. Там и программирование, и статистика, и прочее.

sunsexsurf 6 дек 2023 в 07:18

а можете ссылками поделиться?

dyadyaSerezha 6 дек 2023 в 16:20

Хмм.. Ну если только за плюсик в карму ?

Here are 12 FREE courses you DO NOT want to miss:

1. Introduction to Data Science

https://lnkd.in/dSv5S4gj

2. IBM Data Science https://lnkd.in/gqXJF33A

3. Advanced Data Science with IBM https://lnkd.in/gBX5mT7n

4. Applied Data Science with Python https://lnkd.in/dRx4Bgr8

5. Data Science: Foundations using R https://lnkd.in/d9rXQ7FG

6. Learn SQL Basics for Data Science https://lnkd.in/d5Zac8hu

7. Data Science Fundamentals with Python and SQL https://lnkd.in/dqEPtc-u

8. Advanced Statistics for Data Science https://lnkd.in/dAirxZ8q

9. Mathematics for Machine Learning and Data Science https://lnkd.in/d_NF7vVZ

10. Genomic Data Science https://lnkd.in/dK5ApXNY

11. Executive Data Science https://lnkd.in/dzkAYhk8

12. Data Science with Databricks for Data Analysts https://lnkd.in/dMtFdGYm

olegkash 7 дек 2023 в 10:08

а MIT то где?

dyadyaSerezha 7 дек 2023 в 17:07

В рекламном банере было, что MIT, а потом этот список. Я его даже не смотрел.

dyadyaSerezha 6 дек 2023 в 16:26

А еще Гугл предлагает 6 бесплатных курсов с сертификацией по project management... ?

haska2748 6 дек 2023 в 10:47

Не понял. Это как это потратить полгода всего лишь на дата сайентиста? Даже если мы обсуждаем минимум.

Это типа если ты закончил мехмат мгу ил физтеха + адвансед дата аналитик + с супер опытом ооп программирования тогда еще можно предположить.

JetHabr 6 дек 2023 в 13:05

Прежде всего, если у человека нет совсем никакого опыта (ни математики, ни программирования), лучше идти сначала на дата-аналитика, это будет куда проще и быстрее.

Но даже в этой ситуации, если человек сильно замотивирован, и хочет именно в data science и будет заниматься, то имхо полгода — это адекватное количество времени.

Мой кейс: мехмат + опыт программирования на С++ (сугубо с внутренними библиотеками работодателя) и некоторый опыт программирования на python (без ООП). У меня ушло на обучение где-то 2-3 месяца, но это с небольшими перерывами и при офисной работе с 8 до 17 с высокой загруженностью. У меня была мотивация, поэтому я ботала в метро, по вечерам и выделяла время на выходных. Потом я начала искать работу, проходить интервью и по их результатам что-то еще параллельно добивала. Всего на поиск работы у меня ушло около 2-х месяцев, но это был очень интенсивный процесс, в среднем где-то по 2 технических интервью в неделю.

На мой взгляд, куда хуже растягивать обучение на год или даже на годы, т.к. это очень длинная дистанция, можно легко потерять нить происходящего, выгореть и все забросить.

antareia 6 дек 2023 в 10:49

Математика для data science за 2 недели? Это чисто темы почитать которые изучить надо? Как и sql .

JetHabr 6 дек 2023 в 10:52

Разумеется, это не полные университетские курсы мат. анализа и линейной алгебры, даже не близко к этому :) но за пару недель действительно можно в первом приближении разобраться с самыми базовыми понятиями — с дифференцированием, векторно-матричными операциями, функциями многих переменных, понятиями градиента и матрицы Гессе, с постановкой задачи оптимизации и пр. В дальнейшем, конечно, было бы неплохо посмотреть уже полные курсы, которые есть в свободном доступе в большом количестве, просто это займет значительное время и не является необходимым условием для понимания ML-алгоритмов . Что касается SQL, изучить синтаксис и разобраться, как делать выгрузки из БД, как объединять таблицы, что такое primary/secondary key, чем отличаются разные join-ы — это дело пары дней, особенно если есть опыт работы с библиотеками типа pandas. Ну неделю можно еще порешать задачки, просто чтобы руку набить. Все равно на реальной работе будет своя специфика, к которой надо будет адаптироваться и что-то дополнительно гуглить, поэтому, на мой взгляд, тратить очень много времени на SQL не стоит. Хотя что касается сроков обучения — тут все сугубо индивидуально, все люди разные, я оцениваю ситуацию для эдакого сильно замотивированного человека в вакууме, обобщая мой личный опыт и опыт моих знакомых :)

DorianKon 6 дек 2023 в 10:50

Очень смешно! Питон - до 1,5 месяца. Я уже год мучаю всего один курс для начинающих!!! А я далеко не дурак. Но на решение задач иногда уходит по 2 дня. Уже около 350 задач решено. Это если мне не напишет код какой-нибудь программист, а я сам до него додумаюсь. Git и Docer - 2 недели? Я тут только совсем недавно неделю потратил выяснить, что это такое. Нигде толком нет доходчивого объяснения. Так что все сроки, что описал автор - для гениев с большим стажем программирования. Обычному человеку понадобится лет 5 все это выучить

JetHabr 6 дек 2023 в 12:04

Питон — это настолько обширный язык программирования, что изучать его можно всю жизнь :) Все зависит от того, для чего вы его изучаете. Мне кажется, очень важно помнить, что Питон — это лишь инструмент, который используется для различных задач. По сути он представляет собой основы (что такое интерпретатор, какие есть типы и структуры данных, что такое стек вызовов, пространства имен и области видимости, элементы ООП) и большое количество библиотек и фреймворков. Например, для того, чтобы заниматься разработкой высоконагруженных сервисов, необходимо уметь работать с одним набором инструментов (многопоточность, работа с REST API запросами и пр.), для data science или для аналитики данных будут совершенно другие библиотеки (анализ данных, рисование графиков, обучение моделей). Например, если взять ту же биоинформатику — там настолько специфические инструменты, что смысла их изучать без особой необходимости совершенно нет. Поэтому при изучении Питона важно разобраться с основами и сконцентрироваться на том наборе библиотек и фреймворков, который нужен для достижения желаемой цели. Еще я бы здесь обратила внимание на то, что ты никогда не выучишь все и сразу, часто обучение происходит итерационно — сначала появляется первое понимание происходящего, потом оно уточняется с появлением нового опыта, и это может происходить на протяжении многих лет. Поэтому очень важно сдерживать себя и не пытаться выучить сразу все досконально, это не получится и всегда будут какие-то белые пятна, в которые можно углубляться.

Насчет оценки времени, полутора месяцев для изучения основ в первом приближении, на мой взгляд, вполне достаточно (хотя, разумеется, копать глубже можно очень долго). Конечно, это индивидуально, кто-то справится и за неделю (лично знаю такие истории), кому-то потребуется больше времени. Но здесь я бы обратила внимание на то, что очень важно отслеживать прогресс. Если есть понимание, что ты топчешься на месте, то имеет смысл обратиться за помощью. Можно написать в тематические чаты, можно поискать ментора (например, на https://getmentor.dev/ есть менторы, которые дают бесплатные консультации).

Что касается Git и Docker, опять же, всё зависит от целей. В посте я рассматриваю изучение этих инструментов для дата-сайнтистов, не для разработчиков и не для дата-инженеров/MLOps-ов. Чтобы понять концепцию систем контроля версий, принцип работы Git, основные понятия (что такое репозиторий, как делать коммиты, работа с ветвлением, слияние веток) и команды, уйдет максимум неделя (это еще и с практикой). То же самое с докером. Чтобы понять, что такое докер-файл, докер-образ, как создается контейнер, базовые команды для запуска контейнера — на это уйдет неделя. Разумеется, если погружаться глубже, начать писать самостоятельно докер-файлы и погружаться в оркестрацию контейнеров, то тут потребуется гораздо больше времени, но для джуновской DS-позиции это не нужно.

ptr128 7 дек 2023 в 09:55

Я что ли один такой, кто требует от аналитика данных глубоких знаний в факторном и, в частности, в корреляционном/регрессионном анализе на собеседовании? Или в математике есть иные методы анализа данных?

Да я бы год прогнозировал только на освоение этих дисциплин.

А полгода потребуется только на SQL, так как без глубокого его понимания, даже скромные сотни гигабайт не сможешь анализировать, очищать и трансформировать. Не говоря уже о терабайтах, обычных в этой области

JetHabr 7 дек 2023 в 12:06

В разных компаниях совершенно разные требования :) Да, знание математики очень важно, тем не менее на практике во многих вакансиях требования гораздо ниже того, что вы описали (по крайней мере на начальные позиции). Часто просто дают данные и просят подготовить отчет (например, в формате jupyter-notebook), где нужно проанализировать все с точки зрения бизнеса, например. На всякий случай оговорюсь, что в этой статье я не говорю о том, какие знания должны быть у аналитика (как и у дата-сайнтиста), я скорее говорю о том минимуме, который нужно пройти, чтобы иметь возможность начать проходить собеседования. И, разумеется, это не означает, что после получения оффера обучение заканчивается

ptr128 7 дек 2023 в 12:22

Часто просто дают данные и просят подготовить отчет

Это мне напоминает пристрастие называть должность "менеджер", хотя у этого, дословно "руководителя", нет ни одного человека в подчинении. Никакого отношения к профессии аналитика данных такие задачи не имеют.

По общепринятому определению, анализ данных - это построение и исследование общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных, включая процесс фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

Отсюда, в подавляющем большинстве случаев, производится анализ больших данных (Big-Data), где без профессионального владения SQL вообще делать нечего.

Я вот даже не представляю, зачем мне в команде студент, способный только отчеты делать по уже очищенным и трансформированным данным. На такое многие продвинутые пользователи сами способны. Что совершенно не делает их аналитиками данных.

JetHabr 7 дек 2023 в 15:38

Так речь не о студенте. По тому, что я вижу, в основном от аналитиков просят выгружать данные простыми запросами (без требований в супер продвинутом уровне в SQL), анализировать на наличие выбросов, пропущенных значений и пр., трансформировать (объединять, группировать и т.д.) и анализировать в привязке к бизнес-задаче. Поэтому так или иначе работать все равно нужно с сырыми данными, никто их не приготовит за тебя. По результатам этого анализа нужно делать выводы и демонстрировать результаты команде/заказчику. Также часто аналитики общаются с коллегами/заказчиком для лучшего понимания данных. В некоторых случаях дополнительно просят умение строить классические ML-модели

ptr128 7 дек 2023 в 15:50

анализировать на наличие выбросов, пропущенных значений

Уже тут необходим регрессионный анализ и, как минимум, подбор регрессионной модели и её параметров для фильтра Калмана. Или Вы знаете иные варианты?

Это даже не трогая анализ на стационарность, трансформацию Бокса-Кокса, поиск составляющих преобразованиями Фурье и т.п.

трансформировать (объединять, группировать и т.д.)

Миллиарды записей без знания SQL? Как? Или Вы думаете, что каждому студенту для его Python поставят по терабайту оперативной памяти на его компьютер?

JetHabr 7 дек 2023 в 17:11

Давайте свернем это обсуждение, так как я не вижу в нем смысла. Я не знаю ни одного аналитика, который применяет в своей рутинной работе преобразование Фурье или фильтр Калмана. У меня есть большой опыт использования этих инструментов, но в совершенно других, инженерных задачах. Допускаю, что есть проекты, в которых это действительно необходимо (возможно, у вас как раз такой случай), но если говорить об общей массе — сомневаюсь.

Своё мнение по этому вопросу я высказала, ваше также услышала, но я с ним не согласна.

В конце концов, эта статья посвящена моему видению вопроса, основана на моем практическом опыте, никто не мешает написать вам свою :)

ptr128 7 дек 2023 в 18:37

Я не знаю ни одного аналитика, который применяет в своей рутинной работе преобразование Фурье или фильтр Калмана.

Вы же сами заговорили о пропусках в данных. Какие методы проще фильтра Калмана Вы предлагаете использовать для их восстановления? А ведь и он имеет свои недостатки и не всегда эффективен.

Как Вы находите сезонные составляющие без использования преобразования Фурье?

Или речь исключительно об учебных данных с нормальным или, в крайнем случае, с логнормальным распределением? Но ведь, на практике, аналитик чаще сталкивается с данными с полиномиальным распределением. Или Вы такое даже не рассматриваете?

rakerunner 12 дек 2023 в 15:41

Как Вы находите сезонные составляющие без использования преобразования Фурье?

Сглаживание, построение тренда, расчет коэфициентов сезонности относительно тренда. Нет?

ptr128 12 дек 2023 в 16:03

Для того, чтобы сгладить, не потеряв сезонные составляющие, нужно их сначала найти. А от тренда тут толку вообще мало, если сезонность ярко выражена. Может последнее значение уже локальный минимум или максимум?

Для примера, движение автотранспорта имеет сезонности годовые, недельные и суточные. Но тут на уровне проблемной части это понятно. А если на входе временной ряд, для которого эти сезонности только предстоит найти?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий