Comments 4
Статья написана так, будто Terality - это тот же Dask, который запустили на кластере и написали небольшую обертку чтобы обмениваться с ним данными. Это действительно и есть вся новизна Terality? Такое ощущение возникает от того, что практически ничего не сказано про устройство самого Terality (если я не прав и что-то проморгал, то поправьте), а только про то, что он шлёт данные на кластер и там считает. Если так, то вся его полезность будет зависеть от того как эта квота высчитывается - если любая операция с данными будет идти в счёт квоты (условно сделали groupby на 50 гб датасете и у нас от квоты отняло около того же - а судя по статьи так и есть), то ещё непонятно дешевле ли окажется Terality чем аренда кластера в том же GC.
Или всё же есть какие-то принципиальные различия в устройстве и Terality, например, эффективнее того же Dask? В таком случае, зачем эта обвязка в виде облачных вычислений - почему бы не сделать это доп. опцией?
давайте посмотрим на известный бенчмарк с набором данных в 50 Гб.
Потеряли ссылку на сам бенчмарк из оригинальной статьи: https://h2oai.github.io/db-benchmark/. Там хоть объясняется, что и как бенчмаркали.
Ну и в целом сравнение, где у всех остальных реализаций поголовно "out of memory", выглядит очень странно. Стоило бы сравнить на меньших объемах датасетов, чтобы хоть какие-то цифры были. Ну и "not implemented" у Spark выглядит смешно, уж groupBy и join там конечно есть.
Очень странная статья, выглядит как реклама без внятного объяснения.
Я так и не понял, она автоматом мои данные отправляет чужому дяде, там обрабатывает и присылает обратно результат? Но это же не секьюрно. Или там можно мой кластер указать? Но тогда чем отличается от Dask?
Terality — автоматически масштабируемая альтернатива Pandas