leventov Nov 17 2014 at 21:12

Битва key-value хранилищ

2 min

54K

High performance*NoSQL*

+30

Comments 57

UFO just landed and posted this here

dstarcev Nov 17 2014 at 21:54

Когда последний раз (пару лет назад) я сравнивал производительность couchbase и redis, couchbase показал лучшие результаты. Плюс удобнейший интерфейс администрирования кластера подкупает. Потому используем его и memcached тоже через него.

drakmail Nov 18 2014 at 00:16

Третья версия, имхо, вообще прекрасна. Вообще, очень нравится его концепция вьюх. Хотя map-reduce немного может сломать мозг, особенно rereduce.

drakmail Nov 18 2014 at 00:17

Ну и к минусам стоит отнести нежелание устанавливаться по умолчанию, если памяти меньше 4-х Гб

naum Nov 17 2014 at 21:57

LMDB куда потеряли? Говард Чу, я люблю тебя!

leventov Nov 17 2014 at 21:59

Добавил.

Mnemonik Nov 17 2014 at 23:52

У вас ссылка на MongoDB теперь показывает не на тот элемент списка.

forth Nov 18 2014 at 20:29

Хорошая штука. Но недоотлаженная.

leventov Nov 17 2014 at 21:58

Кто-нибудь может объяснить, почему минуса?

dstarcev Nov 17 2014 at 22:08

Наверное, ненавистники key-value хранилищ. Даже такие есть!

sl4mmer Nov 17 2014 at 22:47

Просто перепись ЛОРа на хабре

Xlab Nov 17 2014 at 23:25

LedisDB, схожесть с API Redis очень высокая.
Это для тех, кто планирует использовать Redis, но не уверен насчёт памяти.

leventov Nov 17 2014 at 23:36

В смысле «не уверен насчёт памяти»?

Я там графики на сайте не понял, лучше — меньше или больше? Redis у всех побеждает или всем проигрывает?

Xlab Nov 17 2014 at 23:38

В том смысле, что LedisDB является фронтендом для LMDB/RocksDB/LevelDB/итд, то есть размер данных ограничен лишь вместительностью диска, а не объёмом оперативной памяти.

Redis выигрывает у всех бекендов, так как сидит непосредственно в памяти.

leventov Nov 17 2014 at 23:49

Мне кажется проблема не в том, что памяти мало, а в сохранности данных? Потому что 100 Гб это не проблема, и чтобы хранить какие-то мелкие поля по идентификатору, столько даже не надо, если ты не Гугл/Фейсбук. А если хранить в значениях медиа, так тут уже и никакого диска не хватит.

sch1z0phr3n1a Nov 18 2014 at 08:59

Довольно сомнительные результаты бенчмарков. На set/get из redis можно получить cтолько через один сокет, и есть ощущуние что все бенчмарки проводились с одним сокетом. В реальности на тех же set/get без pipeline из redis можно выжать и 250Krps. А сколько может ledis в разными бекендами не ясно.

datacompboy Nov 18 2014 at 07:18

А Ets / Mnesia в какую категорию попадает?

leventov Nov 18 2014 at 09:10

Etc — что это такое?

Mnesia — хранилище документов, согласно сайту db-engines.

datacompboy Nov 18 2014 at 09:52

ETS это эрланговое хранилище туплов, где первое = ключ, in-memory.
DETS то же самое on disk.
Mnesia это бд построенная поверх ETS+DETS. Можно использовать как key-value реплицируемое с транзакциями и поэтэссами.

Если оно «хранилище документов» потому, что к одному ключу можно привязать сложные value?

HDDimon Nov 18 2014 at 10:37

Используем в одном из ерланговских проектов Mnesia, Riak, DETS, ETS. Стараемся использовать сильные стороны каждого из хранилищ.

datacompboy Nov 18 2014 at 10:57

А какие плюсы у Riak?

HDDimon Nov 18 2014 at 11:09

данные очень легко размазываются по нодам, высокая отказоустойчивость, возможность писать mapred jobs довольно просто с riakKV

datacompboy Nov 18 2014 at 20:51

в смысле шардинга или реплекация?

leventov Nov 18 2014 at 16:42

ХЗ почему. Возможно, авторы сайта сами не разобрались.

UA3MQJ Nov 19 2014 at 22:24

+1 по поводу Erlang ETS

NickyX3 Nov 18 2014 at 09:43

Я вот тут в разных внутренних поделках ElasticSearch как key-value использую %-)

leventov Nov 18 2014 at 11:36

Так и знал, что кто-нибудь так извращается :)

dstarcev Nov 18 2014 at 17:53

не медленно?

NickyX3 Nov 19 2014 at 08:00

Там не HighLoad. Поэтому вообще на скорость не обращаю внимания. Хотя достаточно быстро на самом деле, вон github не жалуются на скорость вроде. В основном подкупает быстрая индексация и json на выходе.

Arks Nov 18 2014 at 09:59

Я не хочу голосовать. Опрос какой-то бессмысленный. Не показывает ровным счетом ни-че-го.
Видимо неделя «тупых опросов на Хабре»?

-3

leventov Nov 18 2014 at 11:34

Первый опрос имеет смысл чтобы определить _реальную_ популярность баз. Тут та же петрушка что и с ЯП — рейтинги меряют непонятно что. Рейтинг, собственно, с db-engines показал только самое основное: Redis — «первая орбиталь» по Воложу, Memcached — вторая. Все остальное, фактически, мимо.

Второй опрос, может быть, имеет не очень большой смысл для пользователей, но огромный для меня, как разработчика key-value базы :)

buriy Nov 18 2014 at 17:39

Только и Redis и Memcached решают одну из задач, стоящими перед KV-хранилищами: хранение в памяти. Вы узнали только то, что узнали, что наиболее частая задача, решаемая KV-хранилищем — хранение данных в памяти.
Что дальше?

leventov Nov 18 2014 at 18:06

Я узнал больше, статистику использования десятка самых популярных key-value хранилищ. Из нее можно сделать ваш вывод, в том числе.

Arks Nov 19 2014 at 01:55

такую статистику не «опросами на Хабре» собирают. Вы не узнали ничего!

leventov Nov 19 2014 at 01:56

Как ее собирают?

Arks Nov 19 2014 at 02:01

В теории — количеством скачиваний, инсталляций, деинсталляций, и аптаймом перечисленных средств на серверах. На практике — никак. В любом случае это надо собирать с ДЦ а не жмаканием очередных «лайков».

leventov Nov 19 2014 at 10:47

Стоит начать с того, что есть много способов мерить популярность баз:
— кол-во компаний, использующих в проде;
— кол-во людей, использующих в проде (этот опрос);
— кол-во проектов;
— кол-во отдельных баз;
— суммарное кол-во запросов ко всем отдельным базам.

И нет одного единственно правильного. Этот опрос — наиболее близкое приближение по второй метрике, которое реально можно собрать.

Arks Nov 20 2014 at 02:14

все верно, этот опрос — примерно как посчитать сколько раз в городе на заборе написано слово "...". Ну Вы поняли.
Или Вы всерьез считаете что вся аудитория использующая например монгу целиком находится и голосует на Хабре за монгу?

-2

zigzag8312 Nov 18 2014 at 10:33

Использую iBoxDB под .NET

tangro Nov 18 2014 at 11:39

Ну в общем-то ответы закономерны:

Memcached — потому что PHP
Redis — потому что лучше Memcached
Реляционная база — потому что уже есть и в нашем проекте всем плевать на производительность
Mongo — потому что уже есть и в нашем проекте всем плевать на различия документных и key-value баз

Дальше идут 35 ответов в духе «А кто все эти люди?»

leventov Nov 18 2014 at 11:46

Aerospike, Berkley DB, DynamoDB, Ehcache, Hazelcast, LevelDB, Riak и Tarantool, выясняется, не такие уж ноунеймы. Тут довольно интересно, как реальное использование соотносится с их собственными заявлениями и хайпом в тусовке.

leventov Nov 18 2014 at 11:50

Насчет Монги — с точки зрения «вам шашечки или ехать», действительно, должно быть плевать на различие типов баз. Как и с реляционными БД — тут проблема в том, что Монга

leventov Nov 18 2014 at 11:52

… медленнее на порядок нормальной key-value базы. Хотя вот выше пишут, что Couchbase сделала Redis, интересно, за счет чего.

dstarcev Nov 18 2014 at 17:54

> Redis — потому что лучше Memcached
И давно ли?

tangro Nov 18 2014 at 19:00

Нет, недавно в принципе.

gricom Nov 18 2014 at 11:44

Кстати, интересно, что сейчас чаще используют в качестве хранилищ для хайлоада в вебе (PHP, Python, Ruby)? Просто берут Mongo и не парятся или пытаются масштабироваться на реляционных базах через master-slave репликацию и шардинг?
И насколько часто получается так, что сделали проект на MySQL, а когда пошла нагрузка, то поняли, что существующую модель данных на Mongo не перевести?

SunDrop Nov 18 2014 at 13:40

Не нашел handlersocket и расстроился
Или это к пункту: Реляционная БД в качестве key-value хранилища (Oracle, MySQL, PostgreSQL, ...)?

leventov Nov 18 2014 at 16:05

По описанию, которое я нашел, это плагин, который делает из MySQL NoSQL. Поэтому да, в точности попадает под обозначенный пункт.

shytikov Nov 18 2014 at 15:37

ESENT Managed Interface

Я программирую в основном на С#, а основной дивжок данной библиотеки является частью Windows. Поэтому работает очень нативно. Кстати, ESENT используется как механизм хранения данных в RavenDB и Outlook. В целом, очень простая и быстрая библиотека.

BleSSeD Nov 18 2014 at 16:47

DynamoDb это Amazon DynamoDb? Если да, то я его использую для хранения сессий.

leventov Nov 18 2014 at 16:55

Да

andrey427788 Nov 18 2014 at 19:20

Не указан opens source аналог Oracle Coherence, известный под именем Hazelcast.

Активно используем Oracle Coherence в силу специфики задач (обьектный кеш данных на высоконагруженной базе, большие обьемы данных).
Проектируется и планируется к использованию Oracle NoSQL (продакшен в следующем году) в силу наличия у данного NoSQL решения удачного сочетания масштабируемой архитектуры, задаваемой пользователем уровня consistency полиси при коммитах и поддержки транзакционной целостности (возможно группировать транзакции в группы по major-ключу). В последней версии имеется поддержка табличной формы данных с возможностью индексирования (сделано в форме API abstraction layer), табличное API поддерживает транзакционную целостность между индексами и содержимым таблиц.

В качестве кандидатов рассматривались Hbase, Cassandra и MongoDB, сделали выбор в пользу Oracle NoSQL по причине отсутствия одной или нескольких опций, часть из которых заявлена выше.

Вместо второго опроса лучше всего поставить картинку с классическим определением CAP theorem.

leventov Nov 18 2014 at 22:11

Почему не указан, указан Hazelcast.

ArthurG Nov 18 2014 at 23:32

Использую Google Cloud Datastore.

noxiouz Nov 19 2014 at 12:58

Elliptics, если на уровне распределенный сторадж.
Если разговор о бэкендах для хранения аля RocksDB (улучшенный LevelDB), то Eblob.

leventov Nov 19 2014 at 14:14

Да уж, серьезное упущение. Не жалуют db-engines.com русских, напишите им, чтобы добавили Elliptics на сайт.

yleo Jan 11 2018 at 19:35

В контексте статьи уместно упомянуть о libmdbx и libfpta.

libmdbx — легковесный встраиваемый key-value движок хранения. В промышленной эксплуатации с 2015 года (продукты Петер-Сервис, инфраструктура МегаФон):

не LSM, а B+Tree с отображением всех данных в память.
рой процессов может читать и обновлять данные с выполнением ACID.
wait-free для чтения, параллельно на каждом ядре CPU, без использования атомарных операций и/или примитивов синхронизации.
стоимость всех операций Olog(N) при минимальном overhead.
serializability изменений и согласованность данных после аварий.

На самом деле libmdbx — это существенно переработанная легендарная LMDB. Доработок много, все перечислены в README. Устранен либо смягчен ряд архитектурных проблем. В частности, движок обеспечивает динамическое изменения размера БД "на ходу" даже для Windows (эта мега-проблема для исходной LMDB).

libfpta — это надстройка над libmdbx, которая поверх key-value реализует таблицы со схемой, колонками, NIL-значениями и всяческими индексами, в том числе составными. В целом libfpta выполняет много рутины и предлагает более развитую модель данных. В промышленной эксплуатации libmdbx с весны 2017 года (продукты Positive Technologies).

Show the best of all time