GearHead22 мая 2015 в 16:27

Мой опыт внедрения Apache Cassandra

3 мин

57K

Big Data * NoSQL *

+24

Комментарии 19

andrewnester 22 мая 2015 в 18:07

Спасибо за статью, жаль ее не было, когда я так в ней нуждался :)

Как раз недавно делал аналитику и БД была Cassandra
Вкратце — задача была хранить логи действий пользователей в системе и потом на основе этих данных выводить статистику

Так вот
1) действительно столкнулся с проблемой каунтеров (но без них тяжеловато было бы вести подсчет)

2) данные действительно очень денормализуются, вместо 1 коассической реляционной таблицы получилось 12 «кассандровских»
Правда потом уменьшилось до 4, так как часть работы по аггрегации данных вынеслась в логику приложения

В остальном пока все отлично, вставка действительно очень быстрая, выборка при правильно аггрегированных данных тоже работает хорошо

grossws 22 мая 2015 в 20:05

Ещё кассандра хороша, как движок для хорошего параллельного hash-merge join'а =)

Jabher 22 мая 2015 в 22:02

аэээээмм, elasticsearch?

slayerhabr 22 мая 2015 в 23:11

Подтверждаю, со многим столкнулся. И в моем случае postgresql показал лучшие результаты по скорости выборки. И вместо mysql+C* просто перешел на postgres.

GearHead 22 мая 2015 в 23:36

Ну тут вы уж загнули. если задачу можно решить с помощью реляционных БД, то её нужно решить с помощью реляционных БД.
Я вообще не вижу смысла в инструментах типа C*, если ваш набор данных может обработать одна машина.

slayerhabr 22 мая 2015 в 23:55

Дело в том, что задача — накопление данных скажем по датчикам, чтото типа timeseries (что как раз хорошо ложится в идею К). Можно решить реляционными БД? Конечно, но хотелось использовать чтото заточенное под накопление данных. После сравнительных тестов мускль, К (4 ноды в кластере) и простой постгрес. Победил постгрес по всем показателям.

grossws 23 мая 2015 в 00:29

Для накопления данных неплохи всякие решения типа rrd, influx, carbon/whisper, если data flow понятен на этапе проектирования

slayerhabr 23 мая 2015 в 00:53

Да, но rrd/carbon не подходил — выборки не только по time индексу, в К держал двойную-тройную копию данных под разные запросы. influxdb на тот момент был еще слишком молод.

slayerhabr 23 мая 2015 в 00:58

influxdb не подходит по тем же причинам (кастомные индексы насколько я знаю должны появится в 0.9).
pg справился хорошо — одна большая таблица и несколько индексов.

GearHead 23 мая 2015 в 01:56

так ведь о том и речь. C* не заточена под абстрактное «накопление данных», она заточена под задачи, в которых вам 100% не хватит одной машины (с PG, не с PG, не важно). просто если рано или поздно PG начнёт захлёбываться, и вам придётся выписывать кульбиты с шардингом и репликациями (и множеством сопутствующих проблем), C* позволит линейно и безотказно расширяться с помощью лишь одной команды в консоли.

slayerhabr 23 мая 2015 в 11:00

В ближайшие пару-тройку лет сможем расширятся вертиально. Память и диск сейчас достаточно дешевые. Потом будем думать.

2ANikulin 23 мая 2015 в 06:35

Если речь заходит об аналитике на больших данных, map-reduce и всё такое, то надо смотреть в сторону HBase. Это хранилище спроектированно именно для этих целей. Кассандра больше подходит для географически распределенных систем, с повышенной доступностью.

AlexeyShurygin 23 мая 2015 в 13:30

Вопрос по п.5.
Почему update и insert — это одно и то же? Afaik в C* это разные вещи.

andrewnester 23 мая 2015 в 13:33

Отличается только тем, что Insert не работает с каунтерами, в остальном — одно и тоже

andrewnester 23 мая 2015 в 13:35

И да — по факту и Insert, и Update это Upsert :)

AlexeyShurygin 23 мая 2015 в 13:50

Так верно, да.

AlexeyShurygin 23 мая 2015 в 13:53

По поводу для чего придумали CQL.
Подход мне тоже не очень нравится — там внутри неочевидная магия делается, которую чтобы понять надо знать как физически хранятся данные.
Однако программировать через альтернативный Thrift API — это застрелиться, достаточно тяжело, т.ч. SQL-like язык нужен и полезен.

grossws 23 мая 2015 в 14:36

Был ещё кроме голого thrift'а довольно удобный hector

lukianenko 24 мая 2015 в 15:51

прекрасная статья, большое спасибо!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий