Comments 2
Спасибо, выглядит весьма интересно.
Python модуля как интерфейса к этому нет? Чтобы можно было удобно поиграться в Jupyter? Опять же с привычным pandas интерфейсом и встроенными визуализациями скажем в bokeh или vegas?
Ну и опять же, разве столь уж принципиально сейчас потребление памяти (если в вашем примере даже на 1000 строк не хватает 100Гб), нежели работа алгоритма на том же кластере, скажем Spark или Flink? В этом плане Java/Scala или Python кажутся более предпочтительными...
Python модуля как интерфейса к этому нет?
Есть в roadmap. Если всё пойдет как запланировано то будет готово в начале декабря. Причем возможно будет еще и web API с токенами.
В этом плане Java/Scala или Python кажутся более предпочтительными...
Сейчас у нас нет запроса на кейсы, где без распределенности не обойтись. Вообще, распределенные алгоритмы для многих примитивов есть и это не проблема сделать плюсовую распределенность. Если ее сделать следуюя нашему подходу, то в итоге получим распределенность, которая будет быстрее Java/Python, это для нас важнее. В общем, как только появится спрос -- займемся.
Data profiling, и с чем его едят