Data profiling, и с чем его едят / Comments / Habr

universe_data Sep 6 2022 at 10:43

Python модуля как интерфейса к этому нет?

Есть в roadmap. Если всё пойдет как запланировано то будет готово в начале декабря. Причем возможно будет еще и web API с токенами.

В этом плане Java/Scala или Python кажутся более предпочтительными...

Сейчас у нас нет запроса на кейсы, где без распределенности не обойтись. Вообще, распределенные алгоритмы для многих примитивов есть и это не проблема сделать плюсовую распределенность. Если ее сделать следуюя нашему подходу, то в итоге получим распределенность, которая будет быстрее Java/Python, это для нас важнее. В общем, как только появится спрос -- займемся.

Comments 2

Hubbitus Sep 5 2022 at 23:20

Спасибо, выглядит весьма интересно.

Python модуля как интерфейса к этому нет? Чтобы можно было удобно поиграться в Jupyter? Опять же с привычным pandas интерфейсом и встроенными визуализациями скажем в bokeh или vegas?

Ну и опять же, разве столь уж принципиально сейчас потребление памяти (если в вашем примере даже на 1000 строк не хватает 100Гб), нежели работа алгоритма на том же кластере, скажем Spark или Flink? В этом плане Java/Scala или Python кажутся более предпочтительными...