badcasedaily1 13 ноя 2024 в 14:18

Dask для анализа временных рядов

Простой

3 мин

2.1K

Блог компании OTUSХранение данных*

Обзор

Комментарии 6

akakoychenko 13 ноя 2024 в 21:07

Не имею ничего против самой технологии, но, собеседуя ML-инженеров, заметил какую особенность: опыт работы с dask сильно коррелирует со слабыми знаниями SQL.

На первый взгляд, идея пандаса на стероидах, который позволит взять тестовый файлик на 10 МБ, написать скрипт в питоне, а потом просто взять и запустить его на 10ТБ, ничего не меняя, выглядит заманчиво. Примерно, как идея сделать облачный Excel для больших данных, уверен, зайдет многим менеджерам среднего звена:)

Более того, идея быть уважаемым высокоплачиваемым ML-инженером, не зная SQL, выглядит заманчиво тоже.

Лично для меня, все же, Dask/H2O/любой другой турбо-датафрейм с Pandas-совместимой сигнатурой выглядит какой-то тупиковой веткой развития. Pandas изначально пошёл путем, который не дружит с большими данными. Его императивная парадигма даёт куда меньше свободы оптимизатору, чем декларативный SQL. А использование аналитической БД для подготовки данных, а Pandas лишь, как клея, который позволяет приклеить result set к библиотекам ML/визуализации, выглядит, как то, что отлично работает, и не требует починки

CrazyElf 14 ноя 2024 в 10:24

Если уж большие данные, то что-то среднее между Pandas и SQL - это будет Spark тогда. Dask как-то ни туда ни сюда. Сколько с ним пытался работать, если память есть, то и Pandas справится, а если памяти нет, то и Dask не поможет, обязательно какие-то косяки будут. Ну и потом же Vaex придумали, ещё лучше, чем Dask, и какие-то ещё либы наподобие.

akakoychenko 14 ноя 2024 в 11:33

Думаете, таки Pandas < Spark < SQL?
Как будто бы, спарк куда более хардкорная и требовательная как к компетенции, так и к необходимому времени и внимании на написание кода, штука, чем SQL, и к нему следует прибегнуть, когда SQL исчерпал свою гибкость, разве нет?

CrazyElf 14 ноя 2024 в 11:41

Эээ, ну может Spark для не-SQL баз. Или для смешанных БД. Ну, да, наверное вы правы, Spark где-то ещё выше должен лежать как надстройка над разными видами источников данных, включая relational DB.

ENick 14 ноя 2024 в 15:58

А если сравнить не только с Pandas, а например с SciPy или Scikit-learn?

Dask работает с GPU?

CrazyElf 15 ноя 2024 в 06:53

А почему с ними сравнивать, если Dask - это замена именно Pandas.DataFrame по идее? )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий