tenshi Apr 9 2010 at 08:40

Правильное REST кэширование

6 min

+19

Comments 43

smartov Apr 9 2010 at 09:04

Спасибо за статью.

>>Поисковик же получит контент и проиндексирует его.
Но не так, как было бы с обычной страницей. Нужно исследование как это влияет на выдачу.

tenshi Apr 9 2010 at 09:13

конечно, но это к сожалению не мой профиль ._.

aps Apr 9 2010 at 15:26

Про этот вариант ничего не скажу — не использовал такое. А обычный xHTML+XSLT роботы кушают хорошо. И даже лучше чем обычные страницы. Потому что XSLT позволяет реализовать 100% и валидный noindex.

tenshi Apr 9 2010 at 15:30

кастомный доктайп тоже это может ;-)

aps Apr 9 2010 at 15:42

Я не знаю каким образом поисковики определяют что есть HTML, а что XSLT и насколько важно для них то, что они определили. Вполне допускаю, что есть какие-нибудь нюансы.
Я вообще очень удивился, когда обнаружил, что goolge XSLT-файл из xml-stylesheet сожрал и проиндексировал. Яндекс, естественно, его проигнорировал.

tenshi Apr 9 2010 at 16:14

покажи его о_0"

aps Apr 10 2010 at 05:55

Задача была именно что скрыть XSLT.
Я делаю через него include того, что робот не должен видеть. Но фокус не удался.

tenshi Apr 10 2010 at 06:42

а точно делаешь? просто я пооткрывал твои сайты в хроме и не нашёл там упоминания об xslt

aps Apr 10 2010 at 14:09

Фича такая. Хром в исходниках дает не исходник, а результат преобразования.
Я когда эти сайты делал хрома не было. На одном из них вообще в хроме подвал перекошен.
У меня есть глубокомысленный личный проект на нескольких доменах с 15.000 посещаемостью и почти 10 летней историей. Модернизация давно назрела. Потихоньку делаю. Вот все думаю сделать — не сделать на XSLT-клиент.
Хочется, но больно геморойно и никак не справлюсь с DOCTYPE.
Декларативно все генерируют правильно. По факту — квиркмод

tenshi Apr 11 2010 at 04:24

а что там сложного с доктайпом?

aps Apr 11 2010 at 07:54

Парсится все как будто квиркмод выставлен, а не xHTML, который я задал.

tenshi Apr 11 2010 at 09:55

покажи код

lorc Apr 9 2010 at 09:36

При прямом запросе браузером произойдёт редирект на ?article:right.cache
Поисковик же получит контент и проиндексирует его.

Я конечно не большой специалист в SEO, но разве это не будет считаться клоакингом, со всеми вытекающими?

tenshi Apr 9 2010 at 09:39

нет

lorc Apr 9 2010 at 09:44

Эт хорошо. Хоть и не мой профиль, но статья интересная, спасибо.

aps Apr 9 2010 at 15:34

Это не более чем технический прием. Если в с его помощью будете спамить и клоачить — это будет считаться спамом и клоакингом, если нет — не будет.
Но в отличие от традиционных способов клоакинга — этот поисковики опредить не могут. Только по стуку.

sunnybear Apr 10 2010 at 22:30

вопрос на засыпку: при чем здесь клиентская оптимизация? :)

sunnybear Apr 10 2010 at 22:37

да, ответ глубоко зарыт
habrahabr.ru/blogs/xslt/90373/#comment_2720218

имхо, технология интересная, но тупиковая: размер HTML сейчас нисколько не критичен (после автоматического gzip/minify), а вот скорость разбора документа на клиенте весьма и весьма важна…

tenshi Apr 11 2010 at 04:30

не знаю насколько он не критичен, но при обновлении страницы со статьёй на хабре я вижу как она очень постепенно загружается в течении 3 секунд на 10 мегабитах.

sunnybear Apr 11 2010 at 06:48

я, конечно, извиняюсь, но загружается она так медленно из-за
(1) большого количества рекламных вызовов «там-сям»
(2) из-за бардака в клиентской оптимизации (количество файлов легко можно вдвое уменьшить)

Данный подход конкретно для Хабра сделает только хуже

aps Apr 11 2010 at 09:04

>размер HTML сейчас нисколько не критичен
Ну да у всех же безлимит 100Мбит.
>а вот скорость разбора документа на клиенте весьма и весьма важна…
Не замерял. Честно признаюсь. Хотя надо было бы.
Визуально (если не парсить все дерево, а только переставлять и подтягивать блоки) все выполняется достаточно быстро, задержка незаметна. Что достаточно важно — все блоки появляются одновременно, а не как с include через Ajax. Даже если по времени это было бы дольше, чисто психологически — задержка не так заметна как в случае с постепенным появлением контента.

sunnybear Apr 11 2010 at 09:07

>>размер HTML сейчас нисколько не критичен
> Ну да у всех же безлимит 100Мбит.

Извините, но Вы сейчас чушь сказали :) Посчитайте, сколько пользователь теряет
1) На загрузке сжатого и архивированного HTML
2) На загрузке всех остальных (пусть и оптимизированных) компонентов страницы
3) На осуществлении 3-5 дополнительных запросов к серверу, которые не уменьшают размер HTML

И лучше это делать для пинга не в 1 мс :) Потому что в этом случае у пользователей, скорее всего, 100Мбит

sunnybear Apr 11 2010 at 09:09

> Не замерял. Честно признаюсь. Хотя надо было бы.

Замерьте. И не на двухядерном Xeon, а на каком-нибудь нетбуке. Все будет куда менее очевидно :)

Хотя интереснее это будет сравнить со скоростью загрузки этих же элементов в iframe. Мне кажется, что разброс будет в районе 10-20%.

rednaxi Apr 11 2010 at 09:41

Смысл применения этой технологии в том, чтобы один раз скачанный блок кешировался и больше не грузился. Т.е. Мы теряем при первой загрузке страницы, зато при повторных мы выигрываем.
Насчёт разницы в скорости отрисовки спорить без тестов, и тем более приводить какие то числа-немного странно, имхо. Но могу сказать что у xslt неплохие шансы, потому что эту технологию разрабатывает w3c и она в плане быстродействия очень неплоха.

sunnybear Apr 11 2010 at 09:50

имхо
1) Реализация обновления страницы на уровне браузера убивает, как минимум, 50% выигрыша. Все «сэнономленные» запросы будут вновь и вновь уходить-приходить (новая вкладка, Ctrl+R, что-то еще браузеру не понравится). Я не вижу здесь какой «прорывной» составляющей: еще один (скорее всего) спорный подход к решению давней проблемы.
2) xslt тормозит. Везде: на клиенте и на сервере. Это аксиома такая :)
3) Говорить о том, что w3c разрабатывает xslt, и поэтому эта технология крута, — глупо. XHTML2 тоже w3c разрабатывает (или уже таки остановилось?), но это явно тупиковая ветвь. Таких полутупиковых (потому что они не мейнстрим, и часто применяются не по делу) технологий у w3c много (было бы странно, если бы такая крупная организация разрабатывала исключительно только мейнстрим :)

и, наконец,
4) экономить по 4-10 Кб на таких запросах (эта страница в сжатом виде (даже без minify) меньше 20 Кб занимает) — это уже совсем перекос. Лучше блокирующие скрипты пересобрать/вынести и стили нормальные написать (чтобы рендеринг не тормозил) — эффекта будет больше. Или картинки в спрайты / data:URI запихнуть. Или их поотимизировать. Или выкинуть лишнюю клиентскую логику (типа инициализации jQuery везде, где только можно).

tenshi Apr 11 2010 at 10:13

1. именно для этого и используется жёсткое кэширование ресурсов.
2. глупость.
4. 20кб через жопорез — это не так уж и мало.

aps Apr 12 2010 at 10:56

2) xslt тормозит. Везде: на клиенте и на сервере. Это аксиома такая :)
На клиенте я не знаю не замерял. А на сервере скажу — операция финишной сборки (у меня) занимает 2-5 мсек. На локальном серевере (слабенький ноутбук) 5-10 мсек.
Я понимаю, что у броузеров парсеры сильно-сильно тормозные, но не настолько же.
4) Если верить данным li.ru на среднем новостном сайте соотношение хитов/хостам 1:10
10K*10 хитов = 100

Я с вами согласен в п.2 клиентский XSLT, скорее всего тупиковая вещь. За десять лет я не вижу никаких подвижек в эту строну. И вряд ли увижу дальше.

tenshi Apr 12 2010 at 11:00

в браузерах совсем не тормозные: libxslt, msxml, transformiix

StrangeAttractor Apr 10 2010 at 22:31

Статья — понятно. Комменты — понятно. А что за «прямой эфир»?

ilya_compman Apr 10 2010 at 23:22

справа от этой статьи посмотрите :)

StrangeAttractor Apr 10 2010 at 23:24

Справа от статьи у болшой прямоугольник, в котором написано «click here to download plugin» :-)

ilya_compman Apr 10 2010 at 23:26

скрин

sinchro Apr 11 2010 at 01:30

Во оно как, оказывается я.директ еще там висит, вот так на чужих скринах и узнаешь как должна выглядить страница без адблокеров )))

egorinsk Apr 10 2010 at 22:55

Интересная идея, но заморочная имхо, и вообще непривычны все эти инклюды, наверно лучше внутри сервера все же собирать страницу из (возможно) кешированных кусочков. Идея с использованием номера версии/даты обновления интересная.

rednaxi Apr 11 2010 at 04:59

Тут смысл в клиентском кешировании больших блоков.
Например, у вас на сайте есть объемный сайд бар (или большое левое меню как на alibaba.com)
В таком случае не имеет смысла заставлять пользователя каждый раз его перекачивать, проще 1 раз ему отдать этот сайдбар чтобы он закешировался.

Идея с использованием ревизии/даты обновления довольно стандартная и часто используется для кеширования статики (изображений/цсс).

Работает она так: например у вас есть картинка сайт.ру/img/image.jpg
вы пишете рерайт правилос чтобы site.ru/img/r[0-9]*/image.jpg вело на /img/image.jpg, а саму image.jpg отдаете с сервера с заголовком expires на год вперед чтобы она у клиента закешировалась хорошо и надолго.
теперь при изменении изображения вам придется переписать ссылку на него везде где она есть на ссылку с новой ревизией (обычно это делается автоматически с помощью какой нибудь функции Template::getImageUrl('image.jpg'); которая проверяет ревизию файла и вставляет нужную ссылку), а у клиента соответсвенно браузер видит что изменился урл и перекачивает картинку, которую потом снова кеширует. Такой подход сопряжен с определенными сложностями — в частности, придется переписывать весь цсс чтобы там картинки вставлялись с помощью вашей функции.

Есть еще одна хитрость, которая позволяет облегчить работу с цсс — можно создавать домены третьего уровня вида r[0-9]*.site.ru, который будет просто альясом основного сайта (настраивается в dns один раз, не надо каждый раз создавать поддомены), и в шапке инклудится какой нибудь master.css с домена r123.site.ru, который уже подтягивает все другие css.
Смысл такого подхода в том, что другие цсс и картинки будут тянуться с того же домена, что и мастер.цсс, и следовательно для изменения ревизии достаточно в 1 месте — в шапке поменять домен и на клиентской машине обновится весь кеш разом.

Комбинирование этих двух подходов (поддомен для css и Rewrite для статики, которая вставляется на странице) позволяет хорошо кешировать статику сайта на клиентской машине, и с точки зрения разработчика этот кеш удобно обновлять.

sunnybear Apr 11 2010 at 09:52

как раз загрузка (конкретно) css с таких доменов — шаблон антиоптимизации. Ключевое слово — DNS.
Лучше просто реврайты, типа
main.wo123.css -> main.css

tenshi Apr 11 2010 at 09:55

зачем нам лишние обращения к днс? лучше уж так: css.xxx.ru/123.css

sunnybear Apr 11 2010 at 09:58

css.xxx.ru — еще один шаблон антиоптимизации. DNS-запрос в первый раз не кэшируется, а потом он не нужен, потому что CSS закэширован :) В итоге каждый раз мы (если только CSS не раз в час меняется :) делаем доп. DNS-запрос для CSS-файла.

tenshi Apr 11 2010 at 10:16

у тебя всё-равно будут лишние запросы к днс после каждого апдейта вёрстки

sunnybear Apr 11 2010 at 10:30

не будут, если CSS на том же домене. 500 байтов cookie — ничто по сравнению с 1 DNS-запросом.

tenshi Apr 11 2010 at 10:33

а, блин… я подумал, что main.wo123.css — это домен такой у тебя х)

rednaxi Apr 11 2010 at 10:28

Просто реврайты такого типа добавляют сложности с тем, что надо искать все вхождения картинок в цсс и им прописывать новую ревизию, хотя это конечно можно автоматизировать каким нибудь скриптоп перед выкладыванием новой верстки на продакш. Способ с поддоменами хорош тем, что легко внедряется и требует относительно мало трудозатрат, при этом свою задачу выполняет исправно-кеширует цсс и картинки из цсс и позволяет быстро обновить всю верстку.
Опять же, вынос изображений и цсс на поддомен плох тем, что создает лишний днс запрос, а хорош тем, что позволяет создать больше параллельных запросов с сервера ( актуально например в случае новостных лент с обилием изображений)

sunnybear Apr 11 2010 at 10:31

В WEBO Site SpeedUp это уже давно автоматизировано и работает на нескольких тысячах сайтов.

CSS на отдельный поддомен выносить — зло! расстреливать за это нужно.