RVK Jul 20 2009 at 22:36

Использование составных ключей для манипуляции данными в memcached

7 min

3.3K

Website development*

+16

Comments 52

aleks_raiden Jul 21 2009 at 05:41

гм… а это случаем не дублирует теги? и какой оверхед при активном использовании (по памяти)?

RVK Jul 21 2009 at 07:01

что значит «дублирует тэги»?
по памяти все нормально, структура в любом случае получается достаточно компактной. Можно еще оптимизировать, но это уже в качестве домашнего задания :)

aleks_raiden Jul 21 2009 at 07:02

ну я о том, что тегами то же достигается — удаление разных сущностей (в разных местах) одной командой.

RVK Jul 21 2009 at 07:04

а вот вы о чем. Не спорю. Но тэги это же тоже реализация, а не стандартная фича. Я предложил свою, и только то.

f3ath Jul 21 2009 at 07:04

Статья про теги. Ваш К.О.

UFO landed and left these words here

zerkms Jul 21 2009 at 08:37

теги удобнее. факт.

zerkms Jul 21 2009 at 07:58

тесты нечитабельные. они не выполняют ту работу, которую вы на них возложили — документирование. также — они совершенно не отражают главную «фичу» топика, такую как «групповое удаление».
по факту: куда более запутанная и сложная реализация, нежели теги. сложная в понимании, в основном

ps: «Подобный подход с успехом работал на проекте photofile.ru под нагрузкой около 4-х млн хитов в сутки.» из этого не значит, что с тегами было бы хуже :-)

RVK Jul 21 2009 at 08:26

тесты вполне нормально отражают суть. если есть конкретные притензии а не субъетивные, слушаю.
то же самое и по запутанности реализации. помоему проще просто некуда.

zerkms Jul 21 2009 at 08:34

$this->assertEqual($cache->get(), '1');
$this->assertNotEqual($cache->get(), '2');

$cache->delete('comments|counters');

ну или только счетчик пользователя

$cache->delete('comments|counters|user123');

Лучше всего о работе класса расскажет юнит-тест (они вообще часто лучше любой документации):

где эти ситуации описаны в тестах?

да, есть кейс:
$cache = new MemcacheCacher('key|key1');
$this->assertFalse($cache->exists());

но что будет, если удалить key? где? как догадаться? :-)

protected $header = array();
таким образом пресловутый кешхэдер хранится в памяти, пока не произойдёт перезапись. а что будет, если между этими событиями рядом работающий скрипт возьмёт и изменит хэдер? между получением кэша и его изменением — не обязательно ведь 2 строки, как в тестах. получение и изменение могут быть разделены между собой на десятки-сотню мс.

zerkms Jul 21 2009 at 08:39

про «key» был невнимателен. остальное в силе :-)

RVK Jul 21 2009 at 08:42

>но что будет, если удалить key? где? как догадаться? :-)

А это что?

$cache = new MemcacheCacher('key');
$cache->del();

>а что будет, если между этими событиями рядом работающий скрипт возьмёт и изменит хэдер?

А вы подумайте что будет, ну и если обнаружите проблему, которую я не заметил, буду благодарен

zerkms Jul 21 2009 at 08:56

эм. значение $header с устаревшими данными будет записано поверх свежих данных. м?

RVK Jul 21 2009 at 08:59

да, но ничего страшного не будет. в любом случае при получении данных из кеша, необходимо проверять что данные реально получены. Еще и потому что в любом случае они могут проэкспайрится или исчезнуть из-за глюка на сервере.

zerkms Jul 21 2009 at 09:04

если данные могут быть потеряны из-за недостатков реализации — значит это повод задуматься о том, что эта реализация не айс. (мягкий намёк на теги, в миллионный раз).

RVK Jul 21 2009 at 09:15

данные не могут быть потеряны. с чего вы взяли?

zerkms Jul 21 2009 at 09:36

угу. поторопился. был неправ.

RVK Jul 21 2009 at 09:44

дело в том, что в реализации с тэгами, всегда необходимо делать две выборки, и всегда необходимо выбирать данные из кэша. в моей же реализации мы всегда выбираем только кешхеадер, и по нему и только по нему определяем, надо ли выбирать основные данные (которые могут быть немаленькими, а это расходы памяти) или не надо. То есть, мой подход значительно менее ресурсоемкий как по использованию памяти, так и по количеству чтений из кеша, так и по количеству операций.

да, есть одна проблема. дело не в потерях данных, а в том что если вдруг два скрипта, параллельно обновляют кеш, то может случится ситуация, когда один из них удалил некую группу, а второй тут же записал данные, в которых эта группа не удалена. Но я писал выше что приведенный код несовершенен. Данная проблема решается
1. Разнесением кешхеадера. Сейчас все хранится под одним ключем 'cacheheder', но это не очень опитмально. Надо бы сделать не один корень, а несколько, по первым составным частям ключа. Тогда и запись будет более распределенной, то есть несколько скрипотов могут писать в кеш, не мешаю друг другу.

2. Можно добавить систему блокировок, которая исключит оставшийся шанс конфликта двух записей.

3. Можно при удалении данных, не только удалять их из хеадера, но и удалять из кеша тоже, тогда это, даже при присутвии в кешхеадере этих данных, заставит скрипт их обновить (как я уже говрил, клиент обязан проверять факт получения данных в любом подходе)

Но в любом случае, самая большая опасность состоит только в том, что в некоторых ситуациях может оказаться что некоторые данные не обновлились, хотя они были изменены. Но в реальности шанс такого стечения обстоятельств достаточно мал. В конце концов, мы не паримся насчет использования MyISAM в львиной доле наших проектов, хотя там такие ситуации тоже возможны. Но мы как то обходимся без транзакций.

UFO landed and left these words here

RVK Jul 23 2009 at 14:51

1. То же самое и у меня. Если в кешхеадере нет данных, из кеша не читаем.
2. Отличия в том, что в реализации с тегами может быть такая ситуация, при которой происходит чтение тэгов (1 операция), получение данных из кеша (2 операция) и после этого выясняется что данные устарели. В моем случае всегда можно определить устарели ли данные только на основе информации из кешхеадера.

>Меня это всегда напрягало, поэтому использую, преимущественно, InnoDB.

Это уже параноя.

UFO landed and left these words here

RVK Jul 23 2009 at 15:00

>Вообще, при чтении тегов сразу определяется версия и «годность» данных ;)

Поподробнее ка, плиз.

>Это привычка. Осталась в наследство от Delphi. И считаю, что привычка хорошая ;).

Не понимаю причем тут Дэлфи. Я тоже раньше плотно на нем писал, но почему то привычки такой нет, зато есть чувство здравого смысла, и понимание того когда оно надо а когда нет.

UFO landed and left these words here

RVK Jul 23 2009 at 15:08

причем тут время? речь то не о времени жизни кеша, а о том что данные были изменены и от этого утарели. а проверить это можно только выбрав сами данные и сравнив их версию со значением тэга. в моем же случае выбирать данные необходимости нет.

UFO landed and left these words here

RVK Jul 23 2009 at 15:15

повторяю вопрос еще раз, как по одному только значению тэга можно понять надо ли выбирать данные?

RVK Jul 23 2009 at 15:20

в веб-программировании ситуаций когда несолько запросов работают как единое целое несравнимо меньше чем единичных запросов. так же как и ситуаций конкурентного доступа к ресурсам. таким образом «преимущественно, InnoDB» это параноя, ибо если исходить из реалий то необходимость использования innoDB по определению намного меньше в большинстве веб-приложений.

RVK Jul 21 2009 at 08:29

а да, я и не говорил что с тэгами было бы хуже, но, если не ошибаюсь, то тогда, когда этот подход был применен на фотофайле (более двух лет назад), реализации тэгов еще небыло.

Damnedest Jul 21 2009 at 08:38

habrahabr.ru/blogs/webdev/43539/ вот статья по тегам в мемкешед была.

garex Jul 21 2009 at 09:09

Эээ… А смысл тогда в плоском кэшировании, если всё равно руки тянутся задеревить это?

silverwind Jul 21 2009 at 18:15

Смысл все-таки в удобстве… хоть чуть-чуть по сравнении с совсем уж плоским кешированием.

К тому же кешарование в памяти — для быстроты доступа к данным, что ведь совсем не исключает желания группировать элементы.

gorinich Jul 22 2009 at 07:03

memcached устроен так, что он совершенно не тратит ресурсы на поиск данных, другими словами, скорость поиска нужного значения не зависит от количества данных в memcached.

garex Jul 22 2009 at 07:07

Этто я подразумеваю.

Но допоперация поиска здесь настораживает.

Время оно не резиново.

gorinich Jul 22 2009 at 07:21

Меня больше настораживает другое, что я описал в комменте ниже.
Как бы допоперация поиска стоит не так много. Тот же механизм блокировок через memcached чего стоит ))) Это не жалко, да и времени не так много займет. А вот передача пожирневшего «кешхеадер» будет стоить достаточно дорого :) Не столько процессорного времени, сколько iowait. А это может оказаться очень неприятно )

RVK Jul 22 2009 at 09:35

скажите, приминительно к вашему проекту сколько будет весить кешхеадер? Это же не сложно посчитать, достаточно построить хеш из используемых в проекте ключей, и серилизовать его.

gorinich Jul 22 2009 at 09:53

Ну судя по графикам во всех мемкешах лежит что-то около 7М ключей. Это примерно половина всех сущностей, вторая половина, видимо, не востребована )
Строить хеш совершенно не интересно )

RVK Jul 22 2009 at 09:58

7м только ключей, без данных? И кто-то тут еще говорит об эффективности? Что за проект, если не секрет?

gorinich Jul 22 2009 at 10:16

Онлайн игра Дозоры. У нас порядка 20М сущностей. От них никуда не денешься, все держим в мемкешах.

RVK Jul 22 2009 at 10:37

ну вероятно для онлайн игр то что я тут описал негодится. я не очень знаком со спецификой онлайн игр. Но вот на том же фотофайле было около 40М сущностей (сейчас гораздо больше), но проблем никаких небыло. Я думаю что ресурсы подобные фотофайлу на порядок распростаненее ресурсом типа онлайн-игры.

P.S. И все таки меня терзают смытные сомнения по поводу эффективности хранения такого количества сущностей в мемкеше. Ну да ладно.

gorinich Jul 22 2009 at 10:50

Что такое сущность на фотофайле?

У нас же не один демон мемкеша :) Для каждого типа сущности свой кеш, или даже несколько кешей. Сейчас у нас 20 мемкешей. Так что там все нормально. А держать все в мемкешах просто приходится. От этого никуда не денешься.

gorinich Jul 22 2009 at 07:16

Т.е. вы предлагаете хранить структуру, которая помнит о всех объектах, хранящихся в кеше?
А если структура вырастет? По личному опыту знаю, что если в memcached класть данные размером порядка 1Мб, то это чревато частыми ошибками записи (причем почему-то больше записи) или чтения этих данных из кеша. К тому же передавать мегабайт данных по сети это далеко не мгновенно (если кеш находится на другой машине).
Иными словами если ваш «кешхеадер» разростется, это приведет к тормозам, которые будет трудно найти :)

Все сказанное мной относится к очень нагруженному проекту. На не очень больших нагрузках этого может и не случаться.

P.S.: если memcached начинает вытеснять данные, это сигнал, что в архитектуре допущен косячок :) Это не критично, но лучше такого не далать. Хотя бы из чувства прекрасного )))
PPS: Если у вас достаточно серьезный проект и вам нужен специфический функционал, то лучше будет взять исходники memcached и дописать то, что необходимо. Оно будет того стоить )

garex Jul 22 2009 at 07:30

+1

Вот что-то такое у меня тоже имеется в мыслях.

С архитектурой где-то косяк явно.

RVK Jul 22 2009 at 08:05

повторяю, подобная архитектура работала без проблем на photofile.ru, одном из самых высоконагруженных фотохостингов рунета. Конечно же можно представить себе и более нагруженные проекты, но все таки кешхеадер размером в мегабайт мне очень сложно себе представить.

gorinich Jul 22 2009 at 08:42

Ну у нас в среднем 12М хитов в сутки и подобное решение вымерло бы очень быстро :) Тем более при конкурентном доступе. Даже при размере кешхеадера в 100Кб это решение оказалось бы узким местом.

Я считаю, что вы где-то в архитектуре приняли неверное решение. При обновлении того же списка комментариев, куда менее затратно обновить все необходимые значения в кеше, чем почистить кеш и подкинуть работы базе данных. Кеш обычно вводится, когда база или какой-то ресурсоемкий код оказывается узким местом. И решение задачи типа «выльем воду из чайника, чем сведем задачу к предыдущей» в данном случае выглядит странным.

RVK Jul 22 2009 at 09:02

Вы видимо немного спутали мою статью с самоучителем по работе с мемкеш. Тема моей статьи узкая, она рассказывает только о том, как реализовать групповое удаление данных из кеша. И только то. А то о чем вы горите, это даже не очевидно. Удалять ли данные из кеша, или менять их там, решается конкретно даже не применительно к конкретному проекту, а применительно к конкретной части конкретного проекта. И это уже абслоютно другая тема, цели освятить которую в данной статье я перед собой не ставил. Как впрочем и хак мемкешеда на тему добавления нового функционала.

RVK Jul 22 2009 at 09:04

между прочим размер кешхеадера от количества хитов в сутки не зависит.

wacky Jul 23 2009 at 12:54

dklab.ru/lib/Dklab_Cache/
те же яйца, только аналитическая сторона вопроса более глубоко рассмотрена
получился велосипед

RVK Jul 23 2009 at 14:45

читайте комментарии выше.

1. Моя реализация была придумана раньше
2. Моя реализация оптимальнее по памяти и количеству обращений к мемкешу

alexmuz Jul 27 2009 at 08:26

Уважаемый Роман, приветсвую от имени людей, которым Фотофайл знаком не-по наслышке.
Идея описана не совсем верно, ибо во-первых, на Фотофайле никогда не складировались все сущности в так Вами называемый «кешхеадер», а для каждого набора сущностей он строился отдельно, при необходимости. А во-вторых, в реализаии в мета-данных указывалось не только наличие данных, но и expire, что существенно ускоряло работы системы в целом.
В одном вы действительно правы — вариант из ДКЛаб с тегами появился позднее.
Ну и ради справедливости указали бы, что идея изначально не Ваша.
С уважением.

RVK Jul 27 2009 at 12:01

1. Я специально в примере указал что это всего лишь пример. И даже дальше, по ходу в комментариях я указал что целесообразнее разделить кешхеадер по первому ключу.

2. Я в курсе что там хранилось еще и время жизни, и даже написал что хранить там можно все что угодно. Повторяюсь, пример упрощенный.

3. Можно подробнее узнать, а чья же это, позвольте, идея? Ну как минимум моя и Антона, ибо эту реализацию мы обсуждали с ним вдвоем. Сама же реализация в коде была выполнена мной от и до.

UDRL Jul 27 2009 at 13:17

Все же Роман, слова о том, что нужно делить мета-данные по ключам — критичны, иначе затраты на сериализацию выйдут бешенные.

Ну и время жизни- тоже не помешает, хотя от него можно конечно отойти. Для примера. Недалеко.

з.ы. А времена были интересные, да…

RVK Jul 27 2009 at 13:33

да, наверное не надо было ленится и все таки реализовать этот немаловажный нюанс))