Comments / Profile of kapustor / Habr

Дмитрий Павлов @kapustor

User

ProfileArticles5PostsNewsComments59

Сравнение аналитических in-memory баз данных

kapustor Oct 12 2016 at 09:57

Вендор рекомендует XFS или ext4. Наверно, можно попробовать ZFS, то надо много тестировать перед выводом в прод, оффициально такая конфигурация не поддерживаются. Ещё потом возможны проблемы с поддержкой (она у нас есть для ГП).

+1

Сравнение аналитических in-memory баз данных

kapustor Oct 12 2016 at 06:48

Для этой задачи нет, не пробовали, но в ближайших планах есть желание присмотреться к нему повнимательней.

0

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 14:37

Спасибо, выглядит интересно. Странно, что про неё так мало информации. А вы её сравнивали с Exasol вживую?

0

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 13:22

2) Абсолютно согласен, однако больше данных не влезло в HANA, она падала с OOM при выполнении запросов N1-N3 :) А так как тестирование должно быть равнозначным на всех БД, пришлось довольствоваться малым.

0

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 12:10

Привет, спасибо!

Про не-in-memory — отчасти согласен, GP и Impala — не in-memory-решения, о чём и упомянул в статье. memSQL и HANA — классические in-memory, memSQL, например, при запуске загружает с диска вообще всё в память и работает только с ней. C Exasol и Clickhouse уже зависит от точки зрения :)

Про VoltDB — изначально рассматривали, однако это не совсем SQL-совместимая БД, с этим скорее всего будут сложности — нам нужна прозрачная интеграция с SAP BO. Кроме того, она и не позиционируется как аналитическая (выросла из H-Store, что есть OLTP-решение).

Про число запусков тестовых запросов: везде бралось первое выполнение запроса, при этом экспериментально выяснили, что первое и второе выполнения по времени значительно отличаются только у Exasol — второй раз он отрабатывает значительно быстрее за счёт построенных при первом запуске индексов (впрочем даже время первого выполнения в Exasol всегда значительно меньше, чем второго всех остальных баз). Пример:

Запрос 1-ый 2-ой
T1 1.8 0.1
T2 4.2 0.1

Правильней, конечно же, было выполнить каждый запрос 5-10 раз, отбросить лучшее и худшее и взять среднее от оставшегося, однако тогда тестирование бы затянулось. Кроме того, так как мы рассчитываем на этой базе выполнять в том числе и ad-hoc запросы пользователей, время первого выполнения нам интересней.

0

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 09:53

Aerospike — это key-value noSQL БД, нам нужна полная поддержка SQL (вплоть до оконных функций).
Но он у нас есть и используется для других задач, да.

+1

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 09:44

Про затраты: да, несмотря на 7-ми кратное преимущество в скорости, можно добиться преимущества покупкой большего числа серверов за те же деньги. Однако нужно помнить, что:
— большее число серверов влечёт за собой бОльшие накладные расходы в кластере;
— возрастает сложность поддержки и администрирования;
— ЦОД не резиновый и тд и тп.
Да и помимо скорости есть и другие параметры, надо оценивать всё в сумме.

Про MemSQL — блин, как вовремя они подсуетились :( Новая версия (5.5, релиз 03.10.2016) обещает "...a new hash table design which combined with Bloom filters delivers up to 3x-5x performance improvements for hash joins".
Сейчас стенды уже разобрали, протестировать не сможем.

0

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 09:27

1) Нет, узнал о проекте от Вас :) Почитал кратко — проект интересный. Однако, пока настораживают:
— ограниченная поддержка timestamp и decimal
— необходимость наличия Импалы
Что радует, изначально заложена правильная дистрибюция таблиц по интервалу поля/полей.

2) Есть, но рассказать, увы, не смогу. Могу только сказать, что примерно затраты пропорциональны результатам теста производительности в статье :)

0

Сравнение аналитических in-memory баз данных

kapustor Oct 11 2016 at 09:00

Vertica не является в полном смысле in-memory DB. Подозреваем, что она, как и Greenplum, при достаточном объёме памяти в кластере умеет держать все или почти все данные в памяти, но предпочтение при выборе кандидатов отдавалось именно тем, кто позиционирует себя как in-memory.

0

Big Data головного мозга

kapustor Jun 22 2016 at 14:57

Алексей, есть ли данные о разнице в производительности запросов на native-hawq-таблицах и hive-таблицах?

+1

Яндекс открывает ClickHouse

kapustor Jun 16 2016 at 06:21

Исключительно ради экономии времени и никак не ради пиара, вот тут я вкратце описывал архитектуру Greenplum.
Большое спасибо за вывод в opensource, будем тестировать в наших реалиях :) Правда, очень нужен стабильный ODBC-драйвер…

0

kapustor Oct 13 2015 at 15:16

Модель скорее гибридная. Сказываются корни SAS Detail Data Store for Banking, чья модель была взята за основу и переработана.

0

kapustor Oct 13 2015 at 14:52

Для ETL используется SAS DI, подробней про нашу интеграцию SAS с GP можно прочитать тут.
Для BI используется SAP BO.
SQL Server мы не используем, не могу судить о производительности.

0

В поисках идеального мониторинга

kapustor Jul 15 2015 at 16:10

Вау. Это очень и очень круто, спасибо за ссылку.

0

В поисках идеального мониторинга

kapustor May 19 2015 at 13:35

Да, аутентификация в версии 2.0 работает ок, правда, в дальнейшем хотелось бы увидеть интеграцию с AD. В InfluxDB пока пугает отсутствие функций для обработки данных в метриках.

0

В поисках идеального мониторинга

kapustor Mar 12 2015 at 20:22

Спасибо! Рад, что вам понравилось :)
Нет, не пробовали, но были мысли об обратной интеграции — отсылать метрики diamond'ом в zabbix. Навскидку то, о чем говорите вы, вполне реально — можно попробовать забирать данные zabbix напрямую из её БД (повторюсь, это лишь мысли вслух, надо покопаться).

0

В поисках идеального мониторинга

kapustor Mar 12 2015 at 16:46

Мы тоже не используем готовое решение. В тех приложениях, где возможна отсылка большого числа алертов, используем очень похожий процесс, только реализован он на SAS Base (исторически так сложилось, что на SAS написана большая часть DWH-инфраструктуры).

0

В поисках идеального мониторинга

kapustor Mar 12 2015 at 16:36

Logstash отдельно немного пробовали, разбирали логи Greenplum. Опыт был очень интересный, всё что хотели — получилось, однако дальше разбора не пошли — оказалось намного проще создавать в Greenplum внешние таблицы, смотрящие на файлы логов, и уже их анализировать и визуализировать.

0

В поисках идеального мониторинга

kapustor Mar 12 2015 at 16:27

Нет, спасибо за наводку, выглядит интересно.

0

3