RVK Jul 21 2009 at 02:36

Использование составных ключей для манипуляции данными в memcached

7 min

3.1K

Website development*

+16

Comments 52

aleks_raiden Jul 21 2009 at 09:41

гм… а это случаем не дублирует теги? и какой оверхед при активном использовании (по памяти)?

-1

RVK Jul 21 2009 at 11:01

что значит «дублирует тэги»?
по памяти все нормально, структура в любом случае получается достаточно компактной. Можно еще оптимизировать, но это уже в качестве домашнего задания :)

aleks_raiden Jul 21 2009 at 11:02

ну я о том, что тегами то же достигается — удаление разных сущностей (в разных местах) одной командой.

RVK Jul 21 2009 at 11:04

а вот вы о чем. Не спорю. Но тэги это же тоже реализация, а не стандартная фича. Я предложил свою, и только то.

f3ath Jul 21 2009 at 11:04

Статья про теги. Ваш К.О.

aktuba Jul 21 2009 at 11:02

Теги удобнее, как мне кажется.

zerkms Jul 21 2009 at 12:37

теги удобнее. факт.

zerkms Jul 21 2009 at 11:58

тесты нечитабельные. они не выполняют ту работу, которую вы на них возложили — документирование. также — они совершенно не отражают главную «фичу» топика, такую как «групповое удаление».
по факту: куда более запутанная и сложная реализация, нежели теги. сложная в понимании, в основном

ps: «Подобный подход с успехом работал на проекте photofile.ru под нагрузкой около 4-х млн хитов в сутки.» из этого не значит, что с тегами было бы хуже :-)

RVK Jul 21 2009 at 12:26

тесты вполне нормально отражают суть. если есть конкретные притензии а не субъетивные, слушаю.
то же самое и по запутанности реализации. помоему проще просто некуда.

zerkms Jul 21 2009 at 12:34

$this->assertEqual($cache->get(), '1');
$this->assertNotEqual($cache->get(), '2');

$cache->delete('comments|counters');

ну или только счетчик пользователя

$cache->delete('comments|counters|user123');

Лучше всего о работе класса расскажет юнит-тест (они вообще часто лучше любой документации):

где эти ситуации описаны в тестах?

да, есть кейс:
$cache = new MemcacheCacher('key|key1');
$this->assertFalse($cache->exists());

но что будет, если удалить key? где? как догадаться? :-)

protected $header = array();
таким образом пресловутый кешхэдер хранится в памяти, пока не произойдёт перезапись. а что будет, если между этими событиями рядом работающий скрипт возьмёт и изменит хэдер? между получением кэша и его изменением — не обязательно ведь 2 строки, как в тестах. получение и изменение могут быть разделены между собой на десятки-сотню мс.

zerkms Jul 21 2009 at 12:39

про «key» был невнимателен. остальное в силе :-)

RVK Jul 21 2009 at 12:42

>но что будет, если удалить key? где? как догадаться? :-)

А это что?

$cache = new MemcacheCacher('key');
$cache->del();

>а что будет, если между этими событиями рядом работающий скрипт возьмёт и изменит хэдер?

А вы подумайте что будет, ну и если обнаружите проблему, которую я не заметил, буду благодарен

zerkms Jul 21 2009 at 12:56

эм. значение $header с устаревшими данными будет записано поверх свежих данных. м?

RVK Jul 21 2009 at 12:59

да, но ничего страшного не будет. в любом случае при получении данных из кеша, необходимо проверять что данные реально получены. Еще и потому что в любом случае они могут проэкспайрится или исчезнуть из-за глюка на сервере.

zerkms Jul 21 2009 at 13:04

если данные могут быть потеряны из-за недостатков реализации — значит это повод задуматься о том, что эта реализация не айс. (мягкий намёк на теги, в миллионный раз).

RVK Jul 21 2009 at 13:15

данные не могут быть потеряны. с чего вы взяли?

zerkms Jul 21 2009 at 13:36

угу. поторопился. был неправ.

RVK Jul 21 2009 at 13:44

дело в том, что в реализации с тэгами, всегда необходимо делать две выборки, и всегда необходимо выбирать данные из кэша. в моей же реализации мы всегда выбираем только кешхеадер, и по нему и только по нему определяем, надо ли выбирать основные данные (которые могут быть немаленькими, а это расходы памяти) или не надо. То есть, мой подход значительно менее ресурсоемкий как по использованию памяти, так и по количеству чтений из кеша, так и по количеству операций.

да, есть одна проблема. дело не в потерях данных, а в том что если вдруг два скрипта, параллельно обновляют кеш, то может случится ситуация, когда один из них удалил некую группу, а второй тут же записал данные, в которых эта группа не удалена. Но я писал выше что приведенный код несовершенен. Данная проблема решается
1. Разнесением кешхеадера. Сейчас все хранится под одним ключем 'cacheheder', но это не очень опитмально. Надо бы сделать не один корень, а несколько, по первым составным частям ключа. Тогда и запись будет более распределенной, то есть несколько скрипотов могут писать в кеш, не мешаю друг другу.

2. Можно добавить систему блокировок, которая исключит оставшийся шанс конфликта двух записей.

3. Можно при удалении данных, не только удалять их из хеадера, но и удалять из кеша тоже, тогда это, даже при присутвии в кешхеадере этих данных, заставит скрипт их обновить (как я уже говрил, клиент обязан проверять факт получения данных в любом подходе)

Но в любом случае, самая большая опасность состоит только в том, что в некоторых ситуациях может оказаться что некоторые данные не обновлились, хотя они были изменены. Но в реальности шанс такого стечения обстоятельств достаточно мал. В конце концов, мы не паримся насчет использования MyISAM в львиной доле наших проектов, хотя там такие ситуации тоже возможны. Но мы как то обходимся без транзакций.

aktuba Jul 23 2009 at 15:29

>дело в том, что в реализации с тэгами, всегда необходимо делать две выборки, и всегда необходимо выбирать данные из кэша. в моей же реализации мы всегда выбираем только кешхеадер, и по нему и только по нему определяем, надо ли выбирать основные данные (которые могут быть немаленькими, а это расходы памяти) или не надо. То есть, мой подход значительно менее ресурсоемкий как по использованию памяти, так и по количеству чтений из кеша, так и по количеству операций.

1. При использовании тегов сначала проверяется, есть ли данные с такими тегами в кеше (test_tags). Если нет — ничего не читаем из кеша. Соответственно — не всегда 2 запроса.
2. У Вас тоже 2 запроса — сначала кешхеадер, потом данные. Чем отличается от того, что я написал выше?

>В конце концов, мы не паримся насчет использования MyISAM в львиной доле наших проектов, хотя там такие ситуации тоже возможны. Но мы как то обходимся без транзакций.

Меня это всегда напрягало, поэтому использую, преимущественно, InnoDB.

RVK Jul 23 2009 at 18:51

1. То же самое и у меня. Если в кешхеадере нет данных, из кеша не читаем.
2. Отличия в том, что в реализации с тегами может быть такая ситуация, при которой происходит чтение тэгов (1 операция), получение данных из кеша (2 операция) и после этого выясняется что данные устарели. В моем случае всегда можно определить устарели ли данные только на основе информации из кешхеадера.

>Меня это всегда напрягало, поэтому использую, преимущественно, InnoDB.

Это уже параноя.

aktuba Jul 23 2009 at 18:53

>Отличия в том, что в реализации с тегами может быть такая ситуация, при которой происходит чтение тэгов (1 операция), получение данных из кеша (2 операция) и после этого выясняется что данные устарели. В моем случае всегда можно определить устарели ли данные только на основе информации из кешхеадера.

Вообще, при чтении тегов сразу определяется версия и «годность» данных ;)

>Это уже параноя.

Это привычка. Осталась в наследство от Delphi. И считаю, что привычка хорошая ;).

RVK Jul 23 2009 at 19:00

>Вообще, при чтении тегов сразу определяется версия и «годность» данных ;)

Поподробнее ка, плиз.

>Это привычка. Осталась в наследство от Delphi. И считаю, что привычка хорошая ;).

Не понимаю причем тут Дэлфи. Я тоже раньше плотно на нем писал, но почему то привычки такой нет, зато есть чувство здравого смысла, и понимание того когда оно надо а когда нет.

aktuba Jul 23 2009 at 19:05

>Поподробнее ка, плиз.

Упс, ошибочка… Проверяется только версия. Но, думаю можно расширить на время:

RVK Jul 23 2009 at 19:08

причем тут время? речь то не о времени жизни кеша, а о том что данные были изменены и от этого утарели. а проверить это можно только выбрав сами данные и сравнив их версию со значением тэга. в моем же случае выбирать данные необходимости нет.

aktuba Jul 23 2009 at 19:13

>а проверить это можно только выбрав сами данные и сравнив их версию со значением тэга.

Да не надо получать сами данные. У тегов тоже есть версии ;).

>Не понимаю причем тут Дэлфи. Я тоже раньше плотно на нем писал, но почему то привычки такой нет, зато есть чувство здравого смысла, и понимание того когда оно надо а когда нет.

Верно. Здравый смысл — это применять транзакции там, где работают несколько запросов как одно целое. На Delphi очень много работал с базами — вот и осталась привычка использовать транзакции там, где может возникнуть разрыв связей.

RVK Jul 23 2009 at 19:15

повторяю вопрос еще раз, как по одному только значению тэга можно понять надо ли выбирать данные?

RVK Jul 23 2009 at 19:20

в веб-программировании ситуаций когда несолько запросов работают как единое целое несравнимо меньше чем единичных запросов. так же как и ситуаций конкурентного доступа к ресурсам. таким образом «преимущественно, InnoDB» это параноя, ибо если исходить из реалий то необходимость использования innoDB по определению намного меньше в большинстве веб-приложений.

RVK Jul 21 2009 at 12:29

а да, я и не говорил что с тэгами было бы хуже, но, если не ошибаюсь, то тогда, когда этот подход был применен на фотофайле (более двух лет назад), реализации тэгов еще небыло.

Damnedest Jul 21 2009 at 12:38

habrahabr.ru/blogs/webdev/43539/ вот статья по тегам в мемкешед была.

garex Jul 21 2009 at 13:09

Эээ… А смысл тогда в плоском кэшировании, если всё равно руки тянутся задеревить это?

silverwind Jul 21 2009 at 22:15

Смысл все-таки в удобстве… хоть чуть-чуть по сравнении с совсем уж плоским кешированием.

К тому же кешарование в памяти — для быстроты доступа к данным, что ведь совсем не исключает желания группировать элементы.

gorinich Jul 22 2009 at 11:03

memcached устроен так, что он совершенно не тратит ресурсы на поиск данных, другими словами, скорость поиска нужного значения не зависит от количества данных в memcached.

garex Jul 22 2009 at 11:07

Этто я подразумеваю.

Но допоперация поиска здесь настораживает.

Время оно не резиново.

gorinich Jul 22 2009 at 11:21

Меня больше настораживает другое, что я описал в комменте ниже.
Как бы допоперация поиска стоит не так много. Тот же механизм блокировок через memcached чего стоит ))) Это не жалко, да и времени не так много займет. А вот передача пожирневшего «кешхеадер» будет стоить достаточно дорого :) Не столько процессорного времени, сколько iowait. А это может оказаться очень неприятно )

RVK Jul 22 2009 at 13:35

скажите, приминительно к вашему проекту сколько будет весить кешхеадер? Это же не сложно посчитать, достаточно построить хеш из используемых в проекте ключей, и серилизовать его.

gorinich Jul 22 2009 at 13:53

Ну судя по графикам во всех мемкешах лежит что-то около 7М ключей. Это примерно половина всех сущностей, вторая половина, видимо, не востребована )
Строить хеш совершенно не интересно )

RVK Jul 22 2009 at 13:58

7м только ключей, без данных? И кто-то тут еще говорит об эффективности? Что за проект, если не секрет?

gorinich Jul 22 2009 at 14:16

Онлайн игра Дозоры. У нас порядка 20М сущностей. От них никуда не денешься, все держим в мемкешах.

RVK Jul 22 2009 at 14:37

ну вероятно для онлайн игр то что я тут описал негодится. я не очень знаком со спецификой онлайн игр. Но вот на том же фотофайле было около 40М сущностей (сейчас гораздо больше), но проблем никаких небыло. Я думаю что ресурсы подобные фотофайлу на порядок распростаненее ресурсом типа онлайн-игры.

P.S. И все таки меня терзают смытные сомнения по поводу эффективности хранения такого количества сущностей в мемкеше. Ну да ладно.

gorinich Jul 22 2009 at 14:50

Что такое сущность на фотофайле?

У нас же не один демон мемкеша :) Для каждого типа сущности свой кеш, или даже несколько кешей. Сейчас у нас 20 мемкешей. Так что там все нормально. А держать все в мемкешах просто приходится. От этого никуда не денешься.

gorinich Jul 22 2009 at 11:16

Т.е. вы предлагаете хранить структуру, которая помнит о всех объектах, хранящихся в кеше?
А если структура вырастет? По личному опыту знаю, что если в memcached класть данные размером порядка 1Мб, то это чревато частыми ошибками записи (причем почему-то больше записи) или чтения этих данных из кеша. К тому же передавать мегабайт данных по сети это далеко не мгновенно (если кеш находится на другой машине).
Иными словами если ваш «кешхеадер» разростется, это приведет к тормозам, которые будет трудно найти :)

Все сказанное мной относится к очень нагруженному проекту. На не очень больших нагрузках этого может и не случаться.

P.S.: если memcached начинает вытеснять данные, это сигнал, что в архитектуре допущен косячок :) Это не критично, но лучше такого не далать. Хотя бы из чувства прекрасного )))
PPS: Если у вас достаточно серьезный проект и вам нужен специфический функционал, то лучше будет взять исходники memcached и дописать то, что необходимо. Оно будет того стоить )

garex Jul 22 2009 at 11:30

+1

Вот что-то такое у меня тоже имеется в мыслях.

С архитектурой где-то косяк явно.

RVK Jul 22 2009 at 12:05

повторяю, подобная архитектура работала без проблем на photofile.ru, одном из самых высоконагруженных фотохостингов рунета. Конечно же можно представить себе и более нагруженные проекты, но все таки кешхеадер размером в мегабайт мне очень сложно себе представить.

gorinich Jul 22 2009 at 12:42

Ну у нас в среднем 12М хитов в сутки и подобное решение вымерло бы очень быстро :) Тем более при конкурентном доступе. Даже при размере кешхеадера в 100Кб это решение оказалось бы узким местом.

Я считаю, что вы где-то в архитектуре приняли неверное решение. При обновлении того же списка комментариев, куда менее затратно обновить все необходимые значения в кеше, чем почистить кеш и подкинуть работы базе данных. Кеш обычно вводится, когда база или какой-то ресурсоемкий код оказывается узким местом. И решение задачи типа «выльем воду из чайника, чем сведем задачу к предыдущей» в данном случае выглядит странным.

RVK Jul 22 2009 at 13:02

Вы видимо немного спутали мою статью с самоучителем по работе с мемкеш. Тема моей статьи узкая, она рассказывает только о том, как реализовать групповое удаление данных из кеша. И только то. А то о чем вы горите, это даже не очевидно. Удалять ли данные из кеша, или менять их там, решается конкретно даже не применительно к конкретному проекту, а применительно к конкретной части конкретного проекта. И это уже абслоютно другая тема, цели освятить которую в данной статье я перед собой не ставил. Как впрочем и хак мемкешеда на тему добавления нового функционала.

RVK Jul 22 2009 at 13:04

между прочим размер кешхеадера от количества хитов в сутки не зависит.

wacky Jul 23 2009 at 16:54

dklab.ru/lib/Dklab_Cache/
те же яйца, только аналитическая сторона вопроса более глубоко рассмотрена
получился велосипед

RVK Jul 23 2009 at 18:45

читайте комментарии выше.

1. Моя реализация была придумана раньше
2. Моя реализация оптимальнее по памяти и количеству обращений к мемкешу

alexmuz Jul 27 2009 at 12:26

Уважаемый Роман, приветсвую от имени людей, которым Фотофайл знаком не-по наслышке.
Идея описана не совсем верно, ибо во-первых, на Фотофайле никогда не складировались все сущности в так Вами называемый «кешхеадер», а для каждого набора сущностей он строился отдельно, при необходимости. А во-вторых, в реализаии в мета-данных указывалось не только наличие данных, но и expire, что существенно ускоряло работы системы в целом.
В одном вы действительно правы — вариант из ДКЛаб с тегами появился позднее.
Ну и ради справедливости указали бы, что идея изначально не Ваша.
С уважением.

RVK Jul 27 2009 at 16:01

1. Я специально в примере указал что это всего лишь пример. И даже дальше, по ходу в комментариях я указал что целесообразнее разделить кешхеадер по первому ключу.

2. Я в курсе что там хранилось еще и время жизни, и даже написал что хранить там можно все что угодно. Повторяюсь, пример упрощенный.

3. Можно подробнее узнать, а чья же это, позвольте, идея? Ну как минимум моя и Антона, ибо эту реализацию мы обсуждали с ним вдвоем. Сама же реализация в коде была выполнена мной от и до.

UDRL Jul 27 2009 at 17:17

Все же Роман, слова о том, что нужно делить мета-данные по ключам — критичны, иначе затраты на сериализацию выйдут бешенные.

Ну и время жизни- тоже не помешает, хотя от него можно конечно отойти. Для примера. Недалеко.

з.ы. А времена были интересные, да…

RVK Jul 27 2009 at 17:33

да, наверное не надо было ленится и все таки реализовать этот немаловажный нюанс))

Show the best of all time