SkachatReferat 9 июн 2009 в 23:51

Memcached — стратегия кеширования

6 мин

17K

Хочу поприветствовать хабросообщество. Из приятных впечатлении при регистрации на Хабре — так это атмосфера сказочности, которая бывает только в старых добрых сказках из советского Кинофильма.
Итак, слезы умиления прошли, приступаем. Ниже топик, который привел к инвайту на Хабр.

Memcached применяется для кеширования данных. Это делается для того, чтобы избежать лишних обращений к базе данных, т.е. в Memcached сохраняют результаты запросов. Это ускоряет работу сайта и уменьшают время выдачи страниц.
Кеш кроме преимуществ имеет свои недостатки. Одна из проблем кеша — это его актуальность. В режиме работы «только чтение» трудностей не возникает. Если же мы имеем дело с данными, которые изменяются, или изменяются часто, то эффективность кеширования резко падает. Чем чаще данные меняются, тем менее эффективен кеш. Обычно кеш сбрасывается после первого же изменения. Причем происходит сброс сразу всех закешированных данных. После сброса запросы идут к базе данных и по-новой происходит наполнение кеша. Если еще одно изменение — то кеш снова сбрасывается. Часто оказывается, что такая хорошая вещь как memcached не приносит никакой пользы для производительности сервера, и к тому же влечет за собой еще дополнительные расходы на память, процессорное время.
Один из методов решения данной проблемы — это логическое разделение кеша на независимые части. Если сброс кеша происходит, то только для той части, которая изменилась.

Рассмотрим один из таких подходов в связке Memcached — БД

Если мы будем делать логическое разделение по запросам, то встает вопрос о том, как и что разделять, насколько часто обновлять. Здесь необходимо давать подсказки по каждому запросу, поскольку назначение запросов разное и непонятно какие запросы обновлять и при каких событиях. Это требует больших усилий для внедрения — и мне, как ленивому программисту, это не интересно.

Давайте разделим все обращения к базе по таблицам.

Допустим есть у нас запрос с обращением к нескольким таблицам. Мы берем запрос, анализируем какие в нем таблицы, смотрим, изменились ли в таблице данные. Если данные изменились, то кеш для запроса тоже обновляем. Звучит немного сложновато, возникают вопросы — каким образом это все делать, но в конечном счете реализация довольно простая.

Приступим к наброскам:

* Каждая таблица у нас будет иметь счетчик, который меняется каждый раз когда данные в таблице изменяются.
* Когда мы выполняем удаление и вставку строк, когда записи изменяются — мы увеличиваем эти счетчики.
* Перед выполнением запроса из него берется список затрагиваемых таблиц. По этим таблицам находим значения счетчика. Формируем эти значения в одну строку и добавляем как комментарий к запросу.

Вот и все сложности с таким подходом. Чтобы перейти к новой политике кеширования нам достаточно внести небольшие изменения в код. Пример, демонстрирующий этот подход, предоставлен ниже. Этот пример полностью самостоятельный и может быть выполнен если у вас есть PHP с поддержкой расширений mysql и memcache.
Такой подход увеличивает эффективность кеширования данных. При сбросе кеша удаляются только те данные, которые относятся к измененным таблицам. Если быть более конкретным, то слова «сброс кеша» теряют смысл, измененные данные становятся недоступными и продолжается наполнение кеша по новым ключам для тех же запросов. Если у вас есть «гадкая» таблица, из-за которой часто сбрасывается весь кеш, то теперь такая таблица не будет портить вам всю картину.

Метод жизнеспособен, он был опробован на одном из сайтов(http://www.skachatreferat.ru). Опыт показал, что не следует пренебрегать другими методами кеширования. Что для данных, чья актуальность не критична при частоте обновления раз в 5 минут, лучше применять самое простое кеширование с установкой времени жизни кеша в заданный период, в данном случае это 5 минут.

Возьмем habrahabr, который предоставляет доступ к статьям. Здесь каждая статья представляет собой текстовое поле и набор каких-то атрибутов. Текст меняется редко, в то время как атрибуты статьи меняются часто. По этой причине есть смысл поместить только текст статьи в кеш, а атрибуты независимо выбирать из таблиц. В результате скорость доступа к данным выростает на порядок.

Чем меньше столбцов мы выбираем, тем лучше для производительности. MySQL работает со столбцами с данными простого типа на порядок быстрее, чем со столбцам типа TEXT(где у нас хранится текст статьи). За счет использования этих особенностей достигается значительный выигрыш в производительности.

Ниже расположен скрипт для демонстрации метода разделения кеша по таблицам, исходник которого был вам обещан. Скрипт полностью самостоятельный и не требует каких-либо дополнительных модулей. Не забудьте указать данные для mysql и memcache в начале скрипта:

<? header('Content-type: text/html; charset=UTF-8'); $mysql_host='localhost'; $mysql_username='root'; $mysql_password='12345'; $mysql_database='test'; //укажите имена двух таблиц, эти таблицы не изменяются в этом примере $mysql_table1='table1'; $mysql_table2='table2'; $memcache_host='localhost'; $memcache_port=11211; $mysql=mysql_connect($mysql_host,$mysql_username,$mysql_password); if(!$mysql) die("Невозможно подсоединиться к MySQL: $mysql_username@$mysql_host/$mysql_password"); if(!mysql_select_db($mysql_database)) die("Невозможно подсоединиться к базе данных: $mysql_database"); $memcache = new Memcache; if(!$memcache->pconnect($memcache_host,$memcache_port)) die("Memcached не доступен: $memcache_host:$memcache_port"); function cacheGet($key) { global $memcache; return $memcache->get($key); } function cacheSet($key,$data,$delay) { global $memcache; return $memcache->set($key,$data,0,$delay); } function sqlExtractTables(&$query) { preg_match_all("/\\<\\<([A-Za-z0-9\\_]+)\\>\\>/",$query,$tables); if(!$tables[1]) die("Запрос не содержит таблиц, доступные для распознавания вида '<<table_name>>': $query"); $query=preg_replace("/\\<\\<([A-Za-z0-9\\_]+)\\>\\>/","\\1",$query); return $tables[1]; } function sqlQuery($query) { $resource=mysql_query($query); if(!$resource) die("Неправильный запрос: $query <br> ".mysql_error()); echo "<b>Запрос был выполнен:</b> $query<br>"; return $resource; } function sqlSet($query) { $tables=sqlExtractTables($query); foreach ($tables as $table) cacheSet($table,uniqid(time(),true),24*3600); return sqlQuery($query); } function sqlGet($query) { $tables=sqlExtractTables($query); foreach ($tables as $table) $appendix.=cacheGet($table); $appendix="/*".md5($appendix)."*/"; $query=$query.$appendix; $cache_key=md5($query); $result=cacheGet($cache_key); if($result!==false) { echo "<b>Попадание в кеш:</b> $query<br>"; return $result; } else echo "<b>Кеш не сработал:</b> $query<br>"; $resource=sqlQuery($query); $result=array(); while ($row = mysql_fetch_assoc($resource)) { $result[]=$row; } cacheSet($cache_key,$result,3600); return $result; } ?> <h2>Демонстрация. Разделение кешированных запросов по таблицам</h2> <h3>Делаем 2 запроса</h3> <? sqlGet("select * from <<$mysql_table1>> limit 1"); //обычно это селекты вида "select * from <<$mysql_table1>> where id=1", здесь так дано чтобы не надо было привязываться к конкретным столбцам ?><br><? sqlGet("select * from <<$mysql_table2>> limit 1"); ?> <h3>Меняем одну из таблиц</h3> <? sqlSet("delete from <<$mysql_table2>> where 1=0"); ?> <h3>Выполняем те же запросы опять</h3> <? sqlGet("select * from <<$mysql_table1>> limit 1"); ?><br><? sqlGet("select * from <<$mysql_table2>> limit 1"); ?> <h3>Результат: второй запрос должен быть выполнен снова, минуя кеш. Первый запрос продолжает браться из кеша</h3>

исходник здесь: www.skachatreferat.ru/demo.txt

Теги:

memcached

Хабы:

Веб-разработка

Memcached — стратегия кеширования

Публикации

Истории

Ближайшие события