universe_data 25 мая 2022 в 10:00

Data profiling, и с чем его едят

11 мин

6.2K

Блог компании ЮнидатаData Mining*Машинное обучение*Data Engineering*

Комментарии 2

Hubbitus 5 сен 2022 в 23:20

Спасибо, выглядит весьма интересно.

Python модуля как интерфейса к этому нет? Чтобы можно было удобно поиграться в Jupyter? Опять же с привычным pandas интерфейсом и встроенными визуализациями скажем в bokeh или vegas?

Ну и опять же, разве столь уж принципиально сейчас потребление памяти (если в вашем примере даже на 1000 строк не хватает 100Гб), нежели работа алгоритма на том же кластере, скажем Spark или Flink? В этом плане Java/Scala или Python кажутся более предпочтительными...

universe_data 6 сен 2022 в 10:43

Python модуля как интерфейса к этому нет?

Есть в roadmap. Если всё пойдет как запланировано то будет готово в начале декабря. Причем возможно будет еще и web API с токенами.

В этом плане Java/Scala или Python кажутся более предпочтительными...

Сейчас у нас нет запроса на кейсы, где без распределенности не обойтись. Вообще, распределенные алгоритмы для многих примитивов есть и это не проблема сделать плюсовую распределенность. Если ее сделать следуюя нашему подходу, то в итоге получим распределенность, которая будет быстрее Java/Python, это для нас важнее. В общем, как только появится спрос -- займемся.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий