Pull to refresh

Comments 11

Думаю тут будет много читателей знакомых с CH так что задам вопрос:

Есть одна микросервисная архитектура. Пара десятков микросервисов шлют друг-другу сообщения через кафку. В день набегает 10-20 млн сообщений. Для мониторинга этого вся важная информация из сообщений как есть (т.е. прямо транзакционка) перекладывается в InfluxDB (бесплатная) и заводится в графину, где уже выборки-фильтрации настраиваются.

Есть в CH то, ради чего в этой схеме следует InfluxDB заменить на CH?
Думать о замене надо лишь в том случае, если что-то не устраивает в текущем решении. Авторы статьи описали свои проблемы с RedShift, ради которых они затеяли переезд на ClickHouse. А какая мотивация у вас?
>Думать о замене надо лишь в том случае, если что-то не устраивает в текущем решении.
Уязвимая позиция.
Как я узнаю что меня что-то не устраивает, если не узнавать новое о других системах?

Я так, например пол жизни думал что раз левая рука слабее правой, то и нормально что левое ухо слышит хуже правого.

> А какая мотивация у вас?
Репликация, контроль схемы, более живое сообщество.
Видимо мало было читателей знакомых с CH, потому что не ответили что ClickHouse умеет читать данные из Kafka напрямую. Сам. Правда вопрос в формате записей, что вы там шлете, поддерживает ли его Clickhouse (хотя переложить данные из kafka в kafka сменив формат это всё же лучше чем из Kafka в Influx, но возможно я не понимаю что такое «прямо транзакционка»).

Ещё — InfluxDB (бесплатный) не масштабируется и не реплицируется (только если руками шардировать и слать данные в отдельные реплики, наличие kafka тут всё упрощает, но тем не менее), а ClickHouse умеет в Cross-DC репликацию и распределенные запросы из коробки.

По скорости и плотности хранения информации ClickHouse тоже выигрывает.

Вы пробовали использовать встроенные инструменты AWS для сбора событий типа Kinesis Data Stream и Kinesis Firehose?


Интересно сравнение по стоимости и масштабированию с собственным решением.


Спасибо за статью!

Да, смотрели на Kinesis, но решили что s3 и локальные файлы гораздо проще, а чем проще тем лучше.
… Если кому-то интересно, краткий отчёт о внедрении ClickHouse с точки зрения оператора.

На входе: примерно 5 мегабит/с данных, непрерывным потоком, батчами раз в 2-3 минуты с нескольких источников. Размер базы — 20Гб, авторотация на неделю. Фиксированный набор аналитики по данным (посчитать, найти топ, etc).

Внедрили. 153 дня аптайма, 0 проблем за это время. Я внедрил и забыл, программисты довольны. Мониторинг — место на сервере, память на сервере, живость clickhouse'а.

Отчёт мониторинга за 6 месяцев:

OK: 99.997%
Scheduled: 0.003%
Unscheduled: 0.000%
Подскажите пожалуйста, какой Grafana плагин использовали для вывода текущих активных запросов?
Вопрос: рассматривали ли вариант миграции на SnowFlake вместо ClickHouse, и если да — какие аргументы «против» перевесили?
Нет, не рассматривали
Sign up to leave a comment.