FFelix Jan 22 2021 at 00:51

Изучение data science c нуля: этапы и вехи

9 min

69K

Big Data*Machine learning*IT career

+11

Comments 12

DanilXYZ Jan 22 2021 at 10:36

Спасибо за полезную статью!

Straven Jan 22 2021 at 17:54

Статья была бы суперполезной если бы добавили хотя бы на свой взгляд ссылки на наиболее подходящие курсы применительно к основых вехам и этапам, иначе время которое указано в скобках выглядит как-то непонятно.

DanilXYZ Jan 22 2021 at 19:48

Если внимательно читать статью, то можно заметить упоминание о планируемой к написанию статье со ссылками на курсы и книги.

FFelix Jan 24 2021 at 00:08

Я решил разбить весь материал на логические части. Также чтобы статьи были не слишком длинными. В следующей (через неделю, наверное) напишу уже книги и курсы. С тех пор как сам учился вышли новые, я хочу всё пробежать глазами чтобы отобрать самое актуальное.
Кажется, что почти всем рекомендую сначала читать Datasmart. Замечательно написанная книжка.

sshikov Jan 22 2021 at 22:57

Внутри Spark устроен сильно не так, как обычные базы данных

Техническое замечание: Spark это вообще не база данных. И даже Hive это не база данных в том смысле, как этот термин обычно используется. Это движок, который может выполнять SQL-запросы (но не только — потому что есть RDD и Dataset API, например, второй из которых был скопирован с pandas, но адаптирован к параллелизму) на кластере, распределяя вычисления между узлами. При этом данные будут лежать в условно, куче файлов json, и никакой базой это вообще не будет, никогда. И работать со спарком как с базой данных не стоит — ничего хорошего не получится.

Что же до почти всего остального — то это можно, мне кажется, сформулировать в двух словах — изучите программирование. Data Science, по большому счету, это программирование с большим довеском математики, или наоборот. И тут уже либо вы будете программистом, и тогда все нужные библиотеки вы освоите рано или поздно, по мере надобности, и другие языки, а если не будете — то каждый новый язык программирования или библиотека будет вызывать у вас проблемы.

FFelix Jan 30 2021 at 09:24

spark предоставляет высокоуровневую абстракцию, которая позволяет работать с ним, практически, как с обычной субд. Поэтому это упрощение сильно помогает объяснить что это, и снимает психологический барьер на освоение новой технологии.
То, что data science это в львиной части программирования — однозначно, я и в первой статье поэтому про Питон писал больше, чем про дата сайенс. Более того, я хочу об этом отдельную статью написать (о важности умения хорошо программировать).
Но я не ставлю знак равенства осознанно, т.к., например, программистом я бы не хотел быть (скучно, т.к. обычно это выполнение идей Других людей), а дата сайентистом — мне нравится, т.к. это более высокая автономности и большая часть похожа на исследование и творчество, субъективно — значительно меньше рутины. И задачи, потенциально, high impact

sshikov Jan 30 2021 at 09:29

> практически, как с обычной субд.
Ну, да. SQL. Но только до тех пор, пока производительность вас вообще не волнует. Ну и внутри это ну совсем не база. Типовая СУБД — это демон, который выполняет запросы. Спарк — это короткоживущий процесс, который для выполнения запроса запускает еще кучу процессов на разных узлах, там где лежат данные. Если всего этого не учитывать — получается ну как-то совсем не эфффективно.

Ну и потом, есть и другие API, чуть ниже уровнем, при использовании которых все становится уже вообще непохоже на СУБД.

>Но я не ставлю знак равенства осознанно
А его и нет. Это разные виды деятельности. Мне не скучно (потому что мне нравится доводить проект до внедрения, не говоря уже про получение премии за результаты этого внедрения ;), но я согласен, что кому-то может быть интереснее заниматься чем-то более творческим.

Simplevolk Jan 30 2021 at 15:43

FFelix, а что думаете по поводу ML.Net от майкрософт?

drfragg Feb 26 2021 at 16:16

Нужен ваш совет или подсказка куда копать:
Поступают данные о товарах и их нужно разбивать по категориям. Насколько понимаю это близко к подходу Data mapping. В каком инструменте можно получить некатегоризированные данные, проассоциировать их с категорией руками, а далее такая ассоциация занеслась в реестр и ассоциирование шло автоматически?
И такую задачу выполнять ежедневно пополняя реестр.

Gryphon88 Mar 1 2021 at 13:41

Похоже на задачу кластеризации. При превышении предела метрики сходства может формироваться новый кластер или категория «unsorted».

FFelix Mar 2 2021 at 16:56

Я не знаю готовых инструментов, которые смогут адекватно это сделать вот так просто, без программирования и просто кликанием.
Нужно изучать основы дата-саенс для этого, т.к. иначе вы можете неверные данные в этот инструмент скормить, или неожиданно получить в какой-то момент сломанные категории.
Книга datasmart даёт близкие примеры сделанные в эксель. С неё можно начинать практически любое изучение

L3ryn4ik Mar 2 2021 at 16:57

Спасибо за отличный план, во первых стало понятнее на каком я этапе, и о каких навыках надо говорить на собеседовании, потому что SQL и Excel к примеру мне казались настолько базовыми (SQL разумеется подтянуть всегда можно и можно это делать бесконечно, но базовые вещи знаю), я на собеседовании не считала важным о них упомянуть, но теперь для большей убедительности получу ка я сертификаты, хорошо много курсов, где можно порешать задачки и сертификат готов.( я про stepik.org)

Show the best of all time