Comments / Profile of ELazin / Habr

@ELazin

User

Profile Publications 1Comments 53Bookmarks

Akumuli — база данных временных рядов

ELazin Jan 2 2018 at 23:49

Nope

Look

Akumuli — база данных временных рядов

ELazin Jan 2 2018 at 23:49

В моей базе есть много всего, но это не drop-in replacement для коммерческой БД для хранения тиков, которая стоит столько, что ее стоимость можно узнать только у персонального менеджера, только после того как он соберет всю нужную информацию о твоей компании, чтобы понять сколько денег у тебя можно просить. Сорян.

Look

Akumuli — база данных временных рядов

ELazin Jan 2 2018 at 23:39

У меня это не реализовано (и я даже не знаю как называется подобный алгоритм), в известных мне TSDB тоже.

Look

Обзор систем мониторинга серверов. Заменяем munin на…

ELazin Jun 19 2017 at 09:58

Порекламирую свою TSDB поажалуй — https://github.com/akumuli/Akumuli
Работает на запись примерно в 10 раз быстрее того же influx-а, на чтение — примерно на том же уровне (median), но более стабильно (три-сигма сильно ниже). Пока еще нет кластеризации и интеграции со всяким мониторингом вроде графаны и collectd. Send nudes^W pull-requests!

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 8 2017 at 21:16

О чем тогда спор?

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 8 2017 at 13:48

InfluxDB не держится в топе, КМК (что это за топ такой вообще?). Он на очень толстой машине может выдать чуть больше 0.5М операций записи в секунду. И они начали это делать только после того, как выкинули LevelDB, RocksDB и LMDB (там были plugable движки когда-то) из проекта и начали использовать TSM-tree — специализированный движок для хранения временных рядов (это еще в v0.9 было, года два назад).

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 8 2017 at 13:44

А может специализированный движок будет лучше работать? Вы же предлагаете написать часть БД вприложении, кэш сбоку, потом окажется что нужен обработчик запросов свой и тд. Путем, который вы предлагаете многие уже пошли, может кому-нибудь стоит попробовать специализированное решение?

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 7 2017 at 16:10

Можно поменять, тогда вы будете писать ключи в случайном порядке и получите кучу других проблем (долгие compaction паузы, например). Проблема в том, что данные приходят упорядоченными по метке времени, а читаются в совершенно другом порядке. Помимо обычных point запросов есть еще aggregations, joins, group by запросы, в каждом из которых разные ключи будут давать разные результаты. Я уже промолчу о том что KV-stores не могут делать join-ы и агрегировать данные, т.е. вам как-то вручную придется написать свою БД. Чуваки из influxdb попытались, в итоге отказались от LevelDB, а потом и от BoltDB (который является клоном LMBD), т.к. на типичный KV это все не ложится вообще. Более или менее нормально это ложится на колумнарные БД.

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 7 2017 at 13:58

Рейтинг составлен разработчиками DalmatinerDB на основе данных из интернета (сами они ничего не тестировали). Это все что нужно знать.

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 7 2017 at 13:56

Это все специфические запросы, которые нужны только в вашем проекте. Это все решается через запрос данных за интервал. БД не должна делать предположений о данных, а вы, фактически, хотите чтобы БД знала о том, что измерение является актуальным N секунд, поэтому последнее значение нужно искать не дальше N секунд в прошлом. У всех разные предпосылки.

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 7 2017 at 13:46

Feather это exchange формат данных для R датафреймов (чтобы их можно было передавать между R и Pandas), у датафрейма совсем другая модель данных (ряды должны быть выровнены, количество рядов доложно быть известно заранее и тд), использование отдельного feather файла на каждый временной ряд totally defeats the purpose этого формата, к тому же у них в README жирным шрифтом выделено — «Do not use Feather for long-term data storage».

Blosc — компрессор, который не подходит для TSDB, которая держит открытыми очень много рядов (например миллион), каждый ряд нужно уметь читать независимо, поэтому ему нужен свой отдельный контекст компрессора, а этот контекст обычно занимает десятки килобайт. Ну и еще он медленный.

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 7 2017 at 13:37

ОК, допустим вы хотите выбрать конкретный временной ряд чтобы нарисовать график, делаете full scan между двумя метками времени, на один байт полезных данных LevelDB читает несколько KB мусора, значение read amplification просто неприличное, пользователь ждет суточный график несколько минут.

Look

DariaDB. Разработка базы данных для хранения временных рядов

ELazin Mar 7 2017 at 08:06

Эта задача не ложится на обычные KV-stores, предоставляющие oredered map inteface (LMDB, LevelDB). Чтобы понять почему, подумайте, что у вас будет ключем.

Look

1 2