coxx Nov 26 2011 at 14:18

Уникальные возможности Tarantool

4 min

106K

NoSQL*

+64

153

Comments 153

oe24 Nov 26 2011 at 14:21

Да уж, по логотипу сразу видно, какая компания его разработала, могли бы и не писать)

bes Nov 26 2011 at 14:22

>Tarantool — это крайне интересная база данных.
Это не база данных.

oe24 Nov 26 2011 at 14:26

Ну Вы бы тогда после отрицания, написали бы тогда истину, на Ваш взгляд

coxx Nov 26 2011 at 15:02

Формально, коллега прав.
Так же как и Apache — это не веб сервер.
База данных — это Tarantool/Box. Просто Tarantool, как следует из описания на сайте — это TCP сервер.
На мой взгляд отдельно о Tarantool/Box будет иметь смысл говорить только если на базе этого TCP-сервера появится еще какой-нибудь Tarantool/*.

Davert Nov 26 2011 at 23:40

Если окончательно снобить, то он не база данных, а СУБД =)

DYPA Nov 26 2011 at 14:49

>Присоединяйтесь сейчас и лучи славы коснутся вас :)
хм, лицензия не самая дружелюбная для присоединения к вам :)
багтрекер на launchpad, проект на гитхабе… упоминание о вики только для вида…

>У Tarantool есть простой SQL-клиент
соответствует стандарту sql 99?

coxx Nov 26 2011 at 15:07

>>У Tarantool есть простой SQL-клиент
> соответствует стандарту sql 99?
Лучше не думайте, что в Tarantool есть SQL, как язык запросов.
SQL-клиент — это просто утилитка, которая сделана для удобства администрирования и разработки. Она локально парсит очень небольшое подмножество SQL и на сервер отправляет уже свои команды. Либо ругается, что invalid syntax. Для использования в живой системе надо использовать клиентскую библиотеку.

DYPA Nov 26 2011 at 17:08

тогда не стоит акцентировать внимание на том что там есть sql ;) а ещё лучше что бы там не было sql синтаксиса, просто потому что он излишен в данном продукте :)

coxx Nov 26 2011 at 17:49

Так в самом сервере его и нет :)
Есть SQL-клиент, который… ну как это сказать, как бы эмулирует SQL, что ли…
Вам было бы легче, если бы вместо SQL-клиента была бы клиентская утилита с опциями вида:
tarantool get --index 0 --space 0 --key 42?

DYPA Nov 26 2011 at 19:26

tarantool get --index 0 --space 0 --key 42 не сложнее чем select * from table where id = 42. это как сравнивать русский и английский языки.

UFO landed and left these words here

raliev Nov 27 2011 at 14:41

это китайским или арабским владеет каждый второй, а английским — от силы каждый 18-й.

UFO landed and left these words here

akalend Nov 27 2011 at 11:01

sql аналог очень удобен для работы в консоле

coxx Nov 26 2011 at 15:18

> багтрекер на launchpad, проект на гитхабе… упоминание о вики только для вида…

Ну, фиг его знает — видимо, «так повелось».
На счет wiki — там ничего нет, видимо, потому что никто ничего не написал :) Собственно, welcome.
Оригинальная документация есть и живет отдельно от wiki.

К слову, я-то сам не разработчик и не сотрудник mail.ru.
Просто, на мой взгляд, это клевый проект, который стоит поддержать.

akalend Nov 27 2011 at 09:20

поддерживаю — проект клeвый
только начальство боится его исползовать в продакшене

UFO landed and left these words here

DYPA Nov 26 2011 at 17:04

для меня нет, просто удивляет не желание использовать стандартный багтрекер гитхаба ;)

mixrin Nov 27 2011 at 23:06

Он мягко говоря отвратителен для более-менее чего-нибудь серьезного.

erlyvideo Nov 26 2011 at 20:58

чем вам не нравится лицензия?

DYPA Nov 27 2011 at 17:21

ну по лицензии получается то, что над проектом работает только 1 человек и mail.ru — а работают над кодом судя по коммитам не меньше 4х человек…

UFO landed and left these words here

kostja Nov 26 2011 at 21:17

DYPA,

launchpad содержит не только bugs, но ещё и например blueprints.launchpad.net/tarantool, а также questions, milestones, series и т.д. У нас можно достаточно легко понять над чем мы работаем и что войдёт в 1.4.4, к примеру — достаточно зайти на launchpad.

Это интегрировнная среда open source разработки, на ней хостится куча open source projects, такие как, например, Drizzle, MariaDB, и т.д. Это не отменяет факт того, что у drizzle есть drizzle.org а у mariadb есть аж два сайта — askmonty.org, mariadb.org.

Github — отличный хост для Git репозиториев, с возможностю интеграции с кучей сторонних инструментов, но как issue tracker явно слаб.

Вики — мы ещё есть на en.wikipedia.org/wiki/Tarantool, но в целом документцию мы пишем в DocBook, а Wiki для текущих заметок и того, что в документацию ещё не попало.

Ещё у нас есть русскоязычный список рассылки, и англоязчный список рассылки.
Надеюсь, голова не закружилось: примерно так устроен любой open source проект, просто проекты повзрослее хостят всё на собственном домене.

philpirj Nov 29 2011 at 22:08

Проекты повзрослее пользуются GitHub для багтрекинга. Ко всему прочему, wiki там совсем не плох, а ещё можно целиком построить на базе GitHub статический сайт (с комментариями на Disqus, к примеру), и генерацией из исходников, который ко всему прочему можно повесить на собственный домен. Хотите социализироваться — сделайте это, и не заставляйте бедняг регистрироваться на десяти сайтах. Ещё если уж такой взрослый проект, можете ещё канал на irc открыть.
Но вообще статью нужно было бы начинать с того, что вы чем-то лучше Redis'а, хотя бы по производительности.

coxx Nov 30 2011 at 13:14

> Но вообще статью нужно было бы начинать с того, что вы чем-то лучше Redis'а,
> хотя бы по производительности.

Я для себя решил, что нет смысла сравнивать инструменты в стиле «X, лучше чем Y».
Надо смотреть на возможности, стабильность, возможно, роадмэп. И, если не хочется первопроходцем — на то, кто уже это использует и для чего.
А «лучше-хуже» — это оценка применимости к конкретной задаче.

На счет производительности: в докладе кое-что есть. И это надо делать ну уж ооочень большую систему, чтобы имело забивать голову разницей в производительности ± 10 процентов. На мой взгляд фичи важнее (по-моему, потенциально самое полезное — это вторичные индексы).

spmbt Nov 26 2011 at 15:47

> Уникальные возможности Tarantool
> И это хорошо!
> Ранние последователи всегда в выигрыше.

UFO landed and left these words here

spmbt Nov 26 2011 at 17:02

Не нравятся многочисленные призывы поддерживать продукт с весьма общими и сомнительными обоснованиями. Естественно, вызывает ассоциацию с такой картинкой (не хватает 2-3 парней вокруг, которые как бы не при деле. Но вот автор статьи говорит, что не при деле). При том, что он успешно развивается под финансированием mail.ru и привлекать бесплатную рабочую силу нет оснований. С продуктом знакомился в более раннем обзоре. Смущает ещё, что название ориентировано на неграмотных русских (в английском произносится «тарАнтула»), поэтому ухудшаются перспективы выхода в международный круг разработчиков.

coxx Nov 26 2011 at 17:24

А если вы увидите статью про Redis, то сразу будете думать, что она заказана VMWare?
А если про Hadoop, то не иначе Cloudera за этим стоит. ОК.

> При том, что он успешно развивается под финансированием mail.ru и привлекать бесплатную
> рабочую силу нет оснований.

Mail.ru делает систему под себя. А я хочу, к примеру, пакет под Ubuntu. А Mail.ru берет и не делает. Вот гады. А ниже в комментариях человек спрашивает про клиентскую библиотеку для Node.js. А Mail.ru берет и не делает. За что им только деньги платят.

> Смущает ещё, что название ориентировано на неграмотных русских (в английском произносится «тарАнтула»), поэтому ухудшаются перспективы выхода в международный круг разработчиков.

Скажите это группе The Beatles.

akuznetsov Nov 26 2011 at 17:40

Redis и Hadoop изначально были opensource и только потом получили поддержку VMWare и Cloudera.

kostja Nov 26 2011 at 22:31

Редис Сальваторе изначально написал для решения задачи, поставленной ему работодателем, потом стал делать full time. Hadoop — open source реализация Google BigTable, созданная в Yahoo, т.е. тоже на коммерческой основе.
Большинство open source проектов так или иначе спонсируются — сначала одним вендором, потом, если проект успешен, сообществом.

Интерес Мейл.Ру в *открытой* разработке:
— во-первых, это важный компонент инфраструктуры, т.е. чем выше его качество — тем лучше для mail.ru. Опять же, если проект будет успешен, значит вложенные именно в *открытую* разработку деньги потрачены не зря — они вернутся в виде communinty feedback, патчей и т.д

— во-вторых, это технологический маркетинг — вот, например, эта ветка «льёт воду на мельницу» распространения среди engineering community технологий mail.ru, просто понимания того что она делает — что для компании ориентированной на создание софта немаловажно.

fshp Sep 2 2013 at 21:57

Да и OpenSource для мейла это помоему прорыв. Браво! Приятно удивлён.

kostja Nov 26 2011 at 21:01

Tarantool — от слова таран (Battering ram). Логотип сменим.

mixrin Nov 27 2011 at 23:09

Я все полгода, что знаю, думал о пауках :)

coxx Nov 28 2011 at 09:10

Я просто уверен, что название получилось так:
1. На листе бумаги нарисовали кружок: «это, типа, у нас ядро сервера»
2. К кружочку по сторонам подрисовали палочки «это, типа, TCP-коннекты»
Получился паучок. Потом игра слов: tul / tool
:-D

akalend Nov 28 2011 at 06:26

и я тоже :)

akalend Nov 28 2011 at 06:27

а логотип давно надо было придумать :)

UFO landed and left these words here

kostja Nov 27 2011 at 10:09

Даже полгода назад у нас ещё был совсем другой «продукт».
А в целом, по-моему правильнее в Вашем случае написать свой обзор типа «почему Tarantool — @@%@#$», а не постить картинки.

Попробуйте найти подобный обзор любой современной nosql системы — днём с огнём не сыщешь. Вон про Моно один аноним решился написать, и то чуть не заклевали:

nosql.mypopescu.com/post/12466059249/anonymous-post-dont-use-mongodb

И ещё, от того, что в России вдруг все будут любить или не любить Tarantool мало что зависит, русская programming community замкнута на себе (мы в этом похожи на японцев), так что «втюхивать» ей что-то смысла просто нет.

Terion Nov 27 2011 at 11:33

Кстати, на счет монго — говорил с одним приятелем (гуру от разработки) — говорит, пробовали этот монго и отказались. Ну т.е. не то чтобы совсем отказались, но в нем хранятся только некритичные и/или временные данные, т.к. надежность и целостность у него в заднице. Если реплицировать на кучу машин — то да, но на 1—2 просто опасно.
Собственно, он вроде и проектировался как раз для больших репликаций, так что тут сложно сказать баг это или фича, но как есть…

akalend Nov 27 2011 at 13:41

хороший был доклад на HiLoad
«Почему не использовать MongoDb»

Terion Nov 26 2011 at 16:13

Очень интересно, надо сказать.
Ключевые возможности очень вкусные.
И во сколько раз поиск по вторичному индексу будет медленнее, чем по первичному?

coxx Nov 26 2011 at 16:59

Я не знаю, как устроены индексы внутри, так что предположить не могу.
Не думаю, что эти цифры хоть как-то заметны на фоне других задержек (передача пакетов по сети, распаковка-упаковка протокола).

Но вообще, лучше самому пробовать и моделировать какую-то конкретную задачку.

philpirj Nov 29 2011 at 22:18

Можно в следующем посте подробнее про протокол, вот с прочими NoSQL всё гораздо понятнее, про библиотеки за исключением $PHP, о масштабируемости? А то многое остаётся за кадром.

akalend Nov 28 2011 at 06:33

вторичный индек как правило Tree (хотя может быть и Хеш) — первичный всегда Hash
у них разгая сложность( O(1) & O(Ln(n)) )
тут надо эксперементировать в зависимости от количества данных
на практике вторичные индексы нужны для выбора подмножества: см паттерн «Справочник с разделами» слайд 22 www.slideshare.net/akalend/nosql-tarantool

coxx Nov 28 2011 at 09:12

> первичный всегда Hash
Неа. Он только уникальным должен быть обязательно.
Я пробовал — можно TREE сделать (выбирать диапазоны по первичному ключу).

kostja Dec 1 2011 at 06:17

изначально было как akalend пишет, мы исправили.

karudo Nov 26 2011 at 16:13

Из node.js использовать судя по всему нельзя пока?

coxx Nov 26 2011 at 17:08

Если вдруг захотите написать клиентскую библиотеку — обращайтесь. Я недавно соорудил клиента на python, так что смогу что-нибудь подсказать.

akalend Nov 27 2011 at 11:04

есть клиент на Си,
можно использовать в любой языковой системе
надо только приложить немного усилий.

akalend Nov 28 2011 at 06:58

думаю копать надо здесь: node-v0.6.3/doc/api/api/addons.html

usgleb Nov 26 2011 at 16:18

документация на англ…

davinchi Nov 26 2011 at 16:23

1.5 млрд в сутки.

Открываем презентацию: 1.5^{8} в сутки.

coxx Nov 26 2011 at 17:05

Блин, реально, обсчитали! Вот сволочи!

davinchi Nov 26 2011 at 17:26

Ой, а стало ещё лучше! 1.5^(10^8). Офигеть! Это около 10^17000000, с каждой секундой всё лучше и лучше!

davinchi Nov 28 2011 at 07:43

А можно всё-таки ошибку в презентации поправить, а-то мой мозг не справляется с этим числом: 1.5 в степени сто миллионов запросов в сутки.

Terion Nov 26 2011 at 16:23

И еще: если база крутится в памяти, на сколько лог и снапшоты защищают целостность данных на случай внезапного падения? ну, свет вырубился, например

coxx Nov 26 2011 at 17:37

Посмотрите доклад — где-то с 20-й секунды там есть ответы про сброс на диск.
Эти вопросы («что будет, если данные не записались на диск и выключился свет») — они ведь и для традиционных БД актуальны. В Tarantool, как и в PostgreSQL параметры, связанные с fsync, можно настраивать.

ktotamcamoetakoe Nov 26 2011 at 16:40

Прошу прощения, я не нашел в документации упоминания об ограничении размера хранилища, имеется ли данная функция в наличии?

kostja Nov 26 2011 at 21:20

slab_alloc_arena эффективно ограничивает память под данные (но не под индексы). Однако WALы могут быть даже при фиксировнном размере данных очень большими, если update rate высок.

SiGMan Nov 26 2011 at 16:57

Redis, как утверждают, lock-free — а как у вас с contention? Списки? Pubsub?

coxx Nov 26 2011 at 17:13

Посмотрите доклад. Tarantool тоже lock-free. Модель данных отличается от Redis. Связных списков, как в Redis нет. Pubsub «из коробки» тоже нет. Наверняка что-то можно соорудить на встроенном Lua…
Но все же, если вам лучше подходит Redis — лучше его и использовать.

Terion Nov 26 2011 at 21:57

А можно вкратце очертить список задач, где лучше тарантул, а где редис?

coxx Nov 26 2011 at 23:24

Список задач… Ну, как тут вкратце расскажешь… Вы про Redis лучше почитайте, и сразу поймете, в чем разница.

akalend Nov 27 2011 at 09:27

я разработал онлайн игру под тарантул
почти полностью заменил мускуль

akalend Nov 27 2011 at 09:28

задачи: выборка регионов, очереди, нотификации

kostja Nov 27 2011 at 09:30

Во-первых, когда вообще на это нужно смотреть: если у вас высокие нагрузки и есть очень горячие данные, которые кладут традиционную систему (MySQL, PostgreSQL, тот же Mongo).
При этом на железо деньги выкидывать совсем не хочется (и РСУБД можно масштабировать, прсото там выше издержки на запрос).

Хранение сессий, профилей, нотификаций и т.д.

Вы начинаете смотреть в сторону сначала Memcached, потом Redis, Citrusleaf и т.л.

Так вот ключевая возможность Tarantool — возможность на Lua реализовать свой pattern и бизнес-логику на сервере. Мы, вполне возможно, уступаем Redis по тем структурам, которые в него заложены — очереди, списки и т.д., но у нас есть возможность атомарно реализовать доступ к данным под конкретный проект, то есть что-то, что на структуры «из коробки» неудобно ложится.

Ну и плюс мы более тщательно подходим к надёжности данных, система изначально использовала Write Ahead Log, и была написана под транзакции.

Terion Nov 27 2011 at 09:54

Спасибо.
Просто есть планы сделать один проект, который, надеюсь, будет highload :) И сейчас как раз думаю над тем, что на чем реализовывать.

Из всего вышесказанного сделал предвариттельный вывод, что сессии и очереди событий (т.е. то что по факту запрашивается исключительно по ключу) лучше хранить в redis, а вещи вроде юзер-профайлов (которые чаще всего запрашиваются по ключу, но иногда нужен и поиск по другим полям) — в тарантуле.
Ну и для некоторых вещей РСУБД.

А как у тарантула с репликацией?

kostja Nov 27 2011 at 10:14

Мэйл хранит сессии в Tarantool тоже. Все хранимые процедуры, которые использует mail открыты в github.com/mailru/tntlua. Возможно это кому-то ещё пригодится. Если Вы напишете свои хранимки, постучитесь пожалуйста в список рассылки или мне, я добавлю вас в список коммиттеров на github — я лично очень хотел бы чтобы всё что делалось было open source.

Репликация есть, асинхронная, конфигурируется динамиески. Вот дока:
tarantool.org/tarantool_user_guide.html#replication

Terion Nov 27 2011 at 11:44

Когда я наконец доберусь до непосредственной разработки — обязательно)
И спасибо за такой продукт. Откровенно говоря, я когда NoSQL копал, был разочарован, что вот именно такого нету. А тут хоп — и появился ))

akalend Nov 27 2011 at 13:42

появился год назад

apangin Nov 26 2011 at 17:10

Клиент на Java тоже имеется.

ComodoHacker Nov 26 2011 at 21:09

> Ключевые слова для прямой загрузки в мозг
> durable

А как насчет прочих компонентов ACID: изоляции и согласованности?

kostja Nov 26 2011 at 21:18

Пишем.

1nd1go Nov 26 2011 at 22:24

Зачем? Какой ACID в быстрых базах?

kostja Nov 26 2011 at 22:35

Быстрые — не значит говёные.

philpirj Nov 29 2011 at 22:25

А как с CAP? Храним сессии в Хабаровском ЦОД'е, который не успел целиком зареплицироваться в Новосибирский, упал под ударом молнии, пользователь получает сообщение «подождите, ждём восстановления ХЦОД» или «ваша сессия не установлена»?

kostja Dec 1 2011 at 06:24

Напишите, пожалуйста, более подробно что вы хотите.
Что такое сессия, насколько это важные данные.
Мы, в частности, планируем синхронную и частично-синхронную репликацию:

То есть, при записи сессии можно будет выставить на клиентском запросе флаг WAIT_RPL_SYNC, и тогда тарантул убедится что этот конкретный write прошёл в реплику, прежде чем отдавать «ОК», и если не прошёл, то откатит его локально.

Возможно, это не совсем то, что нужно. Возможно, Вам нужен Voldemort, который каждый ключ умеет хранить в нескольких нодах (тарантулах), и если одна из нод упала, восстанавливает её с помощью копий.

philpirj Dec 1 2011 at 09:52

Про сессии это скорее к вам вопрос.

Мне лично по счастью хватает memcached.

kostja Nov 26 2011 at 22:39

В нашей архитектуре есть возможность реализовать ACID по принципу pay per use — то есть, эффекта на производительность запросов состоящих из одной команды поддержка acid не окажет. У нас уже есть write ahead log, и предусмотрена возможность отката последнего запроса. Осталось лишь расширить поддержку на несколько запросов.

UFO landed and left these words here

kostja Nov 27 2011 at 09:25

У монго javascript. У нас Lua.
У монго данные в память могут не влезать. У нас пока такого нет.
У монго в коробке клластер. У нас кластер надо с помощью вспомогательных инструментов сооружать самим.

Мы ещё не доросли по функционалу до Монго. Но на signle-server у нас производительность существенно выше (как и у Редиса, кстати).

Одноклассники используют Tarantool как back-end к Project Voldemort, таким образом получают кластер.

akalend Nov 27 2011 at 09:31

мне тоже кажется, что по функционалу — ближе к монго
у Редиса — куча не связанных типов данных, здесь тип данных один — кортеж, а вот возможностей много.

UFO landed and left these words here

AndryX Nov 27 2011 at 02:42

Что это за измерения такие «в сутки», нельзя было дать значение в секунду или за минуту? Неужто так важно сделать громкий заголовок?

mexanism Nov 27 2011 at 04:49

17000 в секунду (если нагрузка равномерная)

Krovosos Nov 27 2011 at 07:17

Persistance как решается?

Krovosos Dec 1 2011 at 06:27

Видимо, никак. Что ж, полезно тем, у кого все данные в память влезают…

coxx Dec 1 2011 at 11:05

Не вполне понятно, какой вы смысл вкладываете в слово «Persistance».

В Tarantool есть снапшоты и WAL. Данные, разумеется, должны влезать в память, поскольку это in-memory database.

vaevictus Nov 27 2011 at 08:51

Redis: 120k writes, 270k reads
Tarantool: 100k writes, 260k reads
(Взято отсюда — www.slideshare.net/profyclub_ru/12-redis-tarantool)
Увеличение производительности планируется, или это связанно с более обширным функционалом?

kostja Nov 27 2011 at 09:22

Да, вот этот blueprint:

blueprints.launchpad.net/tarantool/+spec/speed-up-wal-write

akalend Nov 27 2011 at 09:25

доклад понравился,
спасибо за ссылку
жаль что не смог по присутствовать лично

aleks_raiden Nov 27 2011 at 10:58

Кстати, у Redis тоже Lua движок. Никак не пойму, почему не JS :( Очень не хочеться еще один непонятный язык изучать только ради одной системы

akalend Nov 27 2011 at 11:06

при интеграции JS — получаем более медленный движок хранимок

aleks_raiden Nov 27 2011 at 12:05

а можно детальнее? Все, что я нарыл по гуглу (навскид) показывает обратное:

shootout.alioth.debian.org/u32/benchmark.php?test=all&lang=v8&lang2=lua

или даже хабр

habrahabr.ru/blogs/algorithm/113250/

akalend Nov 27 2011 at 13:44

именно из-за большого времени подключения Сысоев отказался от использования JS
как языка расширения nginx

aleks_raiden Nov 27 2011 at 14:39

а при чем тут nginx? Там немного другой, как мне кажеться, сценарий использования. Да и Lua они тоже не используют. И судя по очень дискутирующей и в чем-то провокационной статье Игоря, там была совсем в другом проблема (а точнее — просто несогласованость с архитектурой nginx-а). При этом заметьте, JS не ограничиваеться именно v8, а статья Игоря как раз про встраивания не языка а аконкретного движка в нгинкс. Так что пока Вы не ответили на мой вопрос :)

akalend Nov 27 2011 at 16:02

что касается тестов, то каждый тест делается при каких-то определенных условий.
сам сделал тестов на производительность и не мало
лично я тестов на сравнение Lua vs JS не делал, но верю словам разработчиков mail.ru
такой вопрос был на HiLoad — я привел лишь их ответ
не думаю, что они стали бы использовать что-либо более медленное

amarao Nov 27 2011 at 11:02

Меня всегда страшно возмущало, что in-memory databases считают для себя приемлимой производительность меньше миллиона операций в секунду.

люди, это же память! Скорость доступа — гигабайты в секунду! Как из этого можно выдавать жалкие сотни тысяч операций?

Предлагаю любую in-memory key-value БД с производительностью в диапазоне 100к-900к называть «очередная не очень быстрая in-memory DB».

akalend Nov 27 2011 at 11:09

не забывай, какой навешан функционал на любую in-memory databases
бутылочное горлышко в I/O: общение с клиентом через сокет.

amarao Nov 27 2011 at 12:51

Сейчас мне расскажут, что сокет не может обработать такой объём данных. А вот мне почему-то кажется, что таки может.

Кроме того, почему только сокет? shared memory отменили?

akalend Nov 27 2011 at 13:47

я начну с друго конца:
из каких компонент состоит inmemory-БД?
сколько времени (в долях) тратится на прохождение той или иной части
где узкое место?

amarao Nov 28 2011 at 21:19

Если бы я занимался разработкой in-memory databases, я бы лучше ответил на этот вопрос. Но я потребитель — и я возмущён медлительностью.

akalend Nov 29 2011 at 16:05

>shared memory отменили?
а с какого боку здесь упомянут shared memory если обмен данными между БД и клиентом идет через сокет.

VolCh Dec 1 2011 at 07:04

А зачем его делать через сокет, если он заведомо узкое место? Нет, понятно, что есть задачи где по другому никак, но не все же.

akalend Dec 1 2011 at 17:03

не всегда БД и WEB сидят на одном хосте

VolCh Dec 2 2011 at 00:00

Понятно, что не всегда, я написал об этом. Но когда сидят…

GreyCat Nov 27 2011 at 12:17

Они даже не сотни выдают. Если верить тому, что в статье — 1.5 млрд в сутки — это 17 тысяч в секунду. Если верить тому, что в документации — 1.5e8 — это 1.7 тысячи в секунду. Для сравнения, tokyo tyrant какой-нибудь выдает порядка 150-200 тысяч.

kostja Nov 27 2011 at 12:50

где вы увидели 1.5e8?

coxx Nov 27 2011 at 12:58

Кажется, Вы путаете температуру кипения с прямым углом. 1.5 млрд — это нагрузка на живой системе. Зачем ее сравнивать с цифрами из тестов.

coxx Nov 27 2011 at 13:03

Или я сам перепутал? :-)

GreyCat Nov 27 2011 at 13:09

Порядок, за редкими исключениями, в тестах и на живой системе будет тот же самый. Крайней редко строят системы, закладывая 100-кратный, не говоря уже о 1000-кратном запасе по скорости обработки, например — это банально неэффективно и дорого. Можно, конечно, держать кластер на 1000 машин, который будет простаивать 99.99% времени — но зачем?

Если речь о суточных колебаниях в системах массового обслуживания каких-то живых интернет-пользователей — то там в худшем случае колебания в 4-5 раз, в лучше — раза в полтора-два. Такого, что «ночью никого не было, а с утра все как ломанутся» — в норме практически не бывает. Даже если речь о каких-нибудь СМИ, у которых иногда случается какое-нибудь событие вселенского масштаба и все приходят на них читать об этом событии — ну, в 8-10 раз оно вырастает, но не в сто.

Поэтому — да, я считаю, что по крайней мере цифрой 1.5e8 в сутки — это совсем не то, чем можно гордиться. Особенно если это не на одной машине делается.

kostja Dec 1 2011 at 06:27

Попробую повторить вопрос, где вы увидели эту смешную цифру?

GreyCat Dec 1 2011 at 06:53

Очевидно, в заголовке Вашей презентации

kostja Dec 1 2011 at 07:17

там 10^8, не 1.5e8. Но вы правы, это тоже ошибка — я просто посчитал нули в цифре 1500000000 :-)
Пошёл исправлять…
Реальные нагрузки у нас 60 тысяч RPS, это только один проект, я дал просто консервативную цифру.

GreyCat Dec 1 2011 at 21:01

60 тысяч _каких_ requests per second? И это нагрузка на один сервер или на какой-то кластер? Если на кластер — то из скольки машин, как сделан шардинг и т.д.?

kostja Dec 2 2011 at 07:56

Я об этом рассказывал в докладе :)

ОК, не растаю повторить:
— храним все сессии всех пользователей почты, социальной сети и т.д. — всех кто зашёл на mail.ru сервис.
— около 200 млн пользователей всего, одновременно хранится (на момент доклада, сейчас уже подросло наверное) около 100 млн. сессий.
— средний размер сессии 350 байт.
— т.е. 32 ГБ данных, примерно столько же занимают индексы.
— размазаны на 2 машины, на каждой машине — 2 инстанса. 64 гб памяти. Т.е. у каждого инстанса примерно четверть данных, это вместе с индексами получается 16 ГБ.
— каждый инстанс держит ~5000 updates/sec 10000 selects/sec. Updates идут в целом на каждый чих, т.к. нужно менять время последнего посещения сайта.

Т.е. получается по 30 000 на машину, плюс у нас конечно две машины с репликами стоят для updgrades/downgrades, на случай если железо выйдет из строя и т.д.

kostja Dec 2 2011 at 07:58

важное добавление — у нас таймауты стоят на отдачу данных — 1 секунда. Изначально они срабатывали иногда во время откладывания снапшота, но мы докрутили пару параметров в конфиге, и они в целом ушли. Мы сейчас основательно смотрим на скорость WAL writer'а, будем оптимизировать дисковую подсистему ещё.

coxx Nov 27 2011 at 13:15

Кстати — это очень часто не принимают во внимание — узким и, потенциально, проблемным местом является не пропускная способность в запросах в секунду, а время отклика на один запрос. В многокомпонентных системах задержки (из-за промежуточной обработки, сетевого обмена и т.п.) вылезают раньше, чем чем будет достингнута предельньная пропускная способность одного компонента. А ведь, в конечном итоге, именно задержки ухудшают user experience.

amarao Nov 27 2011 at 13:25

Я всё это понимаю. Разумеется, мерять производительность нужно в конкурентной среде.

kostja Nov 27 2011 at 12:52

это не embedded database. не сравнивайте client/server (tarantool, redis) и embedded (leveldb, tokyo cabinet), и всё встанет на свои места.

GreyCat Nov 27 2011 at 13:13

Вполне можно сравнить с Tokyo Tyrant. И я пока как-то совсем каких-то впечатляющих оценок производительности не вижу. Впрочем, оно и понятно — там больше в диск и память будет упираться, каких-то радикальных прорывов там никто уже года 3-4 не показывает.

kostja Dec 1 2011 at 06:27

Вы попробуйте поискать сравнения Redis vs. Tokyo Tyrant. Редис его рвёт. А наша производительность — на уровне Redis.

GreyCat Dec 1 2011 at 20:58

Для начала — Tokyo Tyrant базируется на Tokyo Cabinet, у которого есть 4-5 совершенно разных вариантов организации данных со своими плюсами и минусами. О которых из них мы говорим?

Мы тестировали большинство хранилищ на очень банальной задаче: есть ключ (например, 128-битный хэш), для него нужно хранить строчку байт на 100-200 и делать expiration — выкидывать строчки, к которым не обращаются, скажем, в течение 3 суток. Объем — порядка 5-7 млрд. строчек в сутки, ~70-80% уникальные по ключам, т.е. в среднем около 50-80 тысяч записей в секунду. Чтение при этом пренебрежимо малое — в пике несколько тысяч чтений в минуту, в среднем — порядка сотен. Общий объем хранилища таким образом что-то чуть меньше терабайта в сутки, за 3 суток — соответственно, под 3 терабайта.

Redis бодро начал, но производительность довольно быстро (через час-два после начала) просела на пару порядков — до совершенно неприемлемых уровней — меньше тысячи записей в секунду на один сервер.

Tokyo Tyrant (со структурой на базе хэш-таблиц) справлялся существенно лучше, стабильно сохраняя порядка 10-12 тысяч записей в секунду на один сервер, с параллельно идущим expiration. Tokyo Tyrant с fixed-size записями и деревьями для сравнения работал еще раза в 3-4 быстрее, но для нас это был не вариант, т.к. в таком случае нет корректного expiration.

Redis субъективно хорош не тем, что он какой-то сверхскоростной, а скорее фичами, которые позволяют его использовать во многом как альтернативу более традиционным реляционным базам данных. Судя по тому, что я вижу — Tarantool — тоже ориентируется в основном на такую feature-full нишу.

Nail Dec 2 2011 at 05:09

Любопытно, а сколько записей добавилось в Redis когда он начал проседать? И сколько памяти он при этом занимал?

GreyCat Dec 2 2011 at 09:48

Ну, соответственно, видимо, «за 1-2 часа» — значит, 1/24..2/24 от суточного объема данных — это порядка 40-80 гигабайт в сумме. Сколько тогда было серверов в шарде — сейчас, боюсь, не вспомню.

kostja Dec 2 2011 at 07:45

Redis скорее всего начал проседать т.к. ушёл в своп, нет?
Что использовалось в Redis, Redis sets?

Tokyo * — это дисковый бэкенд. Вы не всё меряли, насколько я вижу. Надо ещё мерять время макс-мин на ответ. У всех существующих сегодня дисковых nosql бэк-эндов оно существенно плавает.

Мы ориентируемся на скорость в том числе. Наличие хранимых процедур никак на скорость подсистемы индексов не влияют. Было бы очень любопытно посмотреть как мы живём на ваших данных, т.к. похоже это наша ниша.

GreyCat Dec 2 2011 at 10:12

В своп не уходил, за этим, разумеется, следили. Использовались, видимо, просто strings — нужна-то по сути самая базовая функциональность: SETEX и всё.

> Tokyo * — это дисковый бэкенд

Вы, вероятно, что-то хотели этим сказать (ввести какую-то типизацию и противопоставить что-то чему-то) — но, видимо, я не понимаю, что вы хотели сказать.

> Вы не всё меряли, насколько я вижу

Я вроде бы пока даже никаких цифр толком не назвал — только очень грубые относительные характеристики «на порядок быстрее / медленнее»…

> Наличие хранимых процедур никак на скорость подсистемы индексов не влияют.

Наличие _самих_ индексов — влияет, тогда как

> Было бы очень любопытно посмотреть как мы живём на ваших данных, т.к. похоже это наша ниша.

Мы меряли примерно 2-3 года назад. С тех пор в этом месте мы уже давно написали собственное специализированное решение, которое позволяет нам этот несчастный терабайт-в-сутки хранить средствами ровно 2 физических машин с очень скромной нагрузкой. Для реализации такого же на Redis в свое время понадобился бы кластер из сотен машин, на TT — из десятков.

Nail Nov 27 2011 at 13:19

Есть такой форк Redis, который раньше назывался Redisql, а теперь — Alchemy Database.
code.google.com/p/alchemydatabase/

Он умеет все тоже самое, что и Редис, примерно тоже самое, что и Тарантул — составные композитные индексы, и плюс еще некоторые фичи, например SELECT JOIN.

Особенности у него такие:
— основной язык запросов — SQL (также поддерживаются все команды Redis)
— составные индексы на BTree
— поддерживает JOIN таблиц
— умеет дампить данные в MySQL
— также встроенный LUA
— LUA-триггеры
— очень быстрый встроенный веб-сервер, который урлы сразу маппит на вызовы разрешенных LUA-процедур
— оптимизации для запросов вида SELECT count(*) from table where index between 1 and 10000000
— еще всякие интересные штуки

Единственно что плохо — автор ждет Redis 2.6RC, чтобы выпустить стабильную версию.

coxx Nov 27 2011 at 15:50

Пожалуй, в таких доработках меру надо знать. А то выйдет «пилили-пилили… глядь — а получился MySQL 3.23 образца 2001 года» :)

Nail Nov 27 2011 at 16:47

Дайте MySQL образца 2001 года, который делает 100K запросов/сек с репликацией, и мне больше ничего не надо.

akalend Nov 28 2011 at 14:57

используй HandlerSocket и будет тебе счастье

Nail Nov 28 2011 at 15:32

HandlerSocket хорошо работает с primary key.
А вы представляете, например, насколько небыстрыми будут апдейты на таблицах с десятками миллионов записей с включенными secondary индексами?

akalend Nov 28 2011 at 17:03

используй такую архитектуру — чтоб это было быстро.

Nail Nov 28 2011 at 18:14

Спасибо за совет, и все таки вместо шашечек вроде разворачивания шардинга на несколько машин и кэширования, я бы предпочел делать тупо «insert into» и «select where все что захочу», как это было в «MySQL образца 2001 года», только со скоростью in-memory database.

akalend Nov 29 2011 at 16:15

я бы тоже предпочел делать тупо «insert into» и «selct where все что захочу» со скоростью in-memory
из текущих средств это позволяет пока Handler socket или иные in-memory БД но уже без привычного INSERT/SELECT
Скоро все будем изучать UnQL

akalend Nov 27 2011 at 16:30

надо сравнивать в контексте: круг задач — производительность

Nail Nov 27 2011 at 16:42

Круг задач и производительность примерно те же.

krovatti Nov 27 2011 at 16:17

Использую Tarantool в некоторых «гаражных» проектах. Устраивает по всем пунктам.

akalend Nov 27 2011 at 16:31

а что за проекты, можно в приват.

HeadFore Nov 27 2011 at 19:30

> Во-первых, очевидно, что доступ по 32 или 64-битным ключам быстрее, чем по ключам произвольной длины.
Насколько я понял из этой фразы, поиск идёт по двоичному дереву? Если так, то с Redis очень странно сравнивать, т.к. в нем используются хеш-таблицы, и чтение/запись ключа всегда O(1).

akalend Nov 28 2011 at 06:24

доступ идет либо по деревянным индексам, либо по хеш: как сам настроишь
на данный момент использование хеш индексов дает больше преимуществ.
использование деревянных индексов можно лишь через хранимки

Plohich Nov 27 2011 at 21:30

у Tarantool есть один огромный минус: mysql-like репликация. Для создания реплики потребуется остановит сервер, сделать копию данных и запустить сервер. Это не проблема когда у вас 1-2 Гб данных, но с 200Гб это уже не столь приятно, не говоря о больших объемах.

kostja Nov 28 2011 at 11:42

Не надо дезинформировать публику. Останавливать сервер для создания реплики никогда не нужно было.
Бёрете файл-снапшот, на любую дату, копируете на реплику, запускаете реплику, указываете ей ip мастера, она дотягивает изменения сама.

Наша репликация похожа на MySQL только в одном: она асинхронная. В PostgreSQL тоже асинхронная репликация.

Plohich Nov 30 2011 at 22:05

Эмм, но снапшот то тоже надо сделать. Честно, Tarantool не устанавливал, базируюсь только на документации и схема репликации чертовски схожа с Mysql. Там такая проблема есть.

Если можете, поясните как Репликация происходит здесь, при учете того, что мне надо зафиксировать конкретную копию базы с конкретным айди операции и уже обновляться от нее. Заранее спасибо.

kostja Dec 1 2011 at 06:35

Если хранятся все WAL файлы, то snapshot можно подсунуть пустой, с помощью tarantool_box --init_storage.

Отличие от mysql репликации в том, что у нас в replication log и write ahead log — одно и то же, то есть на диск мы пишем один раз, а не два, как mysql. в MySQL состояние репликации характеризуется парой binary log file name, offset in the binary log — у нас одним числовым значением log sequence number. Это на практике имеет очень большо ое значение — гораздо проще создавать реплики и делать восстановление если мастер упал.

У MySQL есть statement-based репликация, и она долгое время была репликацией по умолчанию. У нас, фактически, row based replication, то есть каждая запись в wal затрагивает только один tuple, и делает это однозначно.

Единственное общее между нами — асинхронная репликация, но мы работаем над добавлением синхронной.

Alexznadr Nov 28 2011 at 18:45

Выглядит интересно.
Не совсем понял из документации, поддерживаются/планируются ли какие-то то команды-примитивы для синхронизации (CAS, putIfAbsent и т.п.)?
Планируется ли UDP интерфейс?

Он одно поточный или многопоточный? Интересует насколько различалась производительность в в многоядерных системах в вариантах «количество потоков по числу каналов памяти + затраты на обеспечение когерентности кешей» vs «один поток».

Компания mail.ru уже заменила все memcache на тарантул?

А по поводу негативной реакции людей. Тут как мне кажется дело в том, что когда компания mail.ru рассказывает о тарантуле — перебарщивают с хвалебными эпитетами. Я понимаю, что проделана большая работа, и люди ей в целом скорей всего гордятся. Но просто людьми, судя по негативной реакции, это воспринимается как хвастовство.

Например «В некотором смысле, Tarantool можно сравнить c Nginx, который разрабатывался в Rambler, и только через некоторое время обрел заслуженную славу и признание сообщества, будучи открытым проектом.» — нет — пока нельзя сравнить: «славы» и «признания сообщества» тарантул пока не обрёл. Тексты в части «Чем я могу помочь» — тоже, уверен, вызывают отторжение у читателей.

У вас есть свои сильные стороны. Акцентируйте внимание на них. Всё будет хорошо.

coxx Nov 28 2011 at 22:24

Статью написал я и я не сотрудник mail.ru.

Фразой про Nginx я как раз и хотел сказать, что пока славы и признания нет, и я хочу помочь этому проекту получить известность, а затем, возможно, признание и славу.

Мне реально по человечески очень интересно, почему список «Чем я могу помочь» у Вас вызвал отторжение (лучше не надо говорить от имени неких «читателей»).

Я делаю прямой призыв к сообществу: помогайте, кто чем может и совокупный результат достанется каждому. Повторюсь — я не имею никакого отношение к mail.ru.
У меня есть простой интерес: если проект получится раскачать, то я лично смогу пользоваться всеми благами open source, поддержкой сообщества и с уверенностью использовать эту систему в своих проектах.
И, поверьте, я свой вклад в этот open source проект вношу не только написанием статьи.

Alexznadr Nov 29 2011 at 07:23

Видимо на вопросы ответа не будет…
По поводу вашего интереса к психологии и коммуникациям — если он действительно есть — кажется разумным пройтись по топикам посвященным тарантулу и обсудить в лс эти вопросы с авторами комментариев с большим числом минусов. Из этого топика — попробуйте написать например с spmbt выше по тексту.

kostja Dec 1 2011 at 06:03

Alekzandr,
я не очень слежу за хаброй, надо всё-таки патчи кодить и ревьювить иногда :)
Добро пожаловать к нам в группу, groups.google.com/group/tarantool-ru

kostja Dec 1 2011 at 06:12

CAS у нас есть с помощью Lua. Как и auto_increment, и ещё с десяток других команд для которых в других NoSQL выдумали собственную команду.
UDP, возможно, будет использоваться для реализации gossip protocol, в остальном я очень понимаю его преимуществ.

Сервер использует один POSIX process/thread операционной системы, но использует свои лёгкие потоки для реализации внутренней многозадачности. На многоядерной системы мы просто ставим несколько экземпляров сервера, каждый из которых работает со своими данными.

В компании mail.ru нет полиции которая бы ходила и проверяла кто чем пользуется. У нас используется и Redis, и HBase, и MySQL. Просто, моё ощущение, люди предпочитают пользоваться тем, для чего есть хорошая поддержка, и оперативно решаются проблемы, даже если это не mainstream и не супер-навороченное решение — поэтому часто выбирают Tarantool. Возможно, это специфика Mail.Ru, не мне решать.

Наеюсь ответил на все вопросы,
— kostja

RusMikle Jan 31 2012 at 22:57

Спасибо за статью, обсуждение тоже было интересным. Особенно для новичка в nosql

alekciy Feb 5 2012 at 16:15

>Nginx, который разрабатывался в Rambler,
Неправда ваша. nginx не разрабатывался в Rambler. От того, что автор писал его работая в данной компании (замечу, админом, а не программером) вовсе не значит, что это разработка данной компании.