NickKolok Jul 19 2016 at 17:25

Кэш, хэш и няш-меш

6 min

15K

FirefoxHTML * JavaScript * Mesh networks * Client optimization *

Comments 34

MadridianFox Jul 19 2016 at 17:51

«Аня едет в трамвае с работы и читает новости…»
А рядом сидит сурового вида парень в толстовке с капюшоном, который ворует чужие сессии через раздачу заражённого jquery с подогнанным хешем.

MTonly Jul 19 2016 at 17:58

Как вариант, локальные версии файлов популярных библиотек мог бы периодически загружать сам браузер из гарантированно надёжных источников.

MadridianFox Jul 19 2016 at 18:01

Тогда теряется вся няш мешность.

NickKolok Jul 19 2016 at 19:41

Взять алгоритм, коллизии в котором неизвестны и их вероятностью можно пренебречь — и все дела.

tkf Jul 20 2016 at 04:31

Указывать также и размер файла, или же указывать связку из двух хэшей. Или и то и другое вместе. Задача найти коллизию в таком случае становится более интересной.

MTonly Jul 19 2016 at 17:56

Хабр всезнающий, в какое спортлото отправлять рацпредложение?

Все предложения, касающиеся веб-разработки, W3C в настоящее время рекомендует публиковать на WICG (хотя де-факто толку в этом мало).

MTonly Jul 19 2016 at 18:02

Кстати, аналогичный атрибут, хранящий хэш скрипта или файла таблицы стилей, уже предусмотрен и называется integrity, правда, предназначен он сейчас исключительно для проверки целостности файла с целью предотвращения подмены файла по пути от сервера к пользователю.

thousandsofthem Jul 19 2016 at 19:07

Насколько мне известно, проблема в реализации указанного в статье только одна — cache poisoning.
Именно из-за этого хэш использется только для проверки целостности и никак иначе
оф дока: www.w3.org/TR/2014/WD-SRI-20140318/#risks-1

NickKolok Aug 4 2016 at 18:19

С описанным по приведённым ссылкам (ещё раз спасибо!) вполне можно бороться. Там два типа атаки:
а) Обход CSP (расписан на примере XSS). По крайней мере тот пример, что там есть — смешно читать. Нейтрализуется простым правилом: наличие same-origin CSP влечёт запрет загрузки из хэш-кэша. Всё.
б) Брутфорс ожидаемых хэшей (например, некий сервер по GET-запросу (!) отдаёт пользователю идентификационные данные (!!)). Нейтрализуется тоже достаточно просто: если сервер разрешает хранить передаваемый субресурс в хэш-кэше, то он отдаёт специальный заголовок, например, Allow-Subresource-Sharing (сокращённо — ASS-заголовок). Делается тремя строчками в htaccess, обратную совместимость не ломает, сделать такое случайно… Надо постараться. Хотя с тем, что всякие wp-admin.css в хэш-кэш лучше не класть, спорить сложно.

Видимо, буду пытаться направить эти соображения туда… кстати, порекомендуйте, а куда лучше и через что?

nazarpc Jul 19 2016 at 18:26

1) Для нормальной работы кэша достаточно указать правильные заголовки — браузер не будет ничего грузить
2) Более сложные сценарии (в том числе работа offline) уже успешно решены с помощью WebSockets

FasSsko Jul 20 2016 at 06:16

Не WebSockets, а WebWorkers)

nazarpc Jul 20 2016 at 06:17

На самом деле ServiceWorkers, опечатался, да

bakhirev Jul 19 2016 at 19:05

Это плохо, т.к.:

Обновил один файл стилей
Пересобрал 10 страниц сайта, т.к. в теле каждой изменилось значение одного хеша.

Итого: вместо 1 файла, браузер должен будет обновить 11.
Имхо: если интернет настолько медленный, что даже ETags не затянуть, то можно считать, что его нет вообще.

NickKolok Jul 19 2016 at 20:17

ETags отваливался не у всех файлов, а с вероятностью примерно процентов 10.

UFO landed and left these words here

nikitasius Jul 19 2016 at 19:06

jQuery со своего домена или с CDN?

Замечательный CDN от Cloudflare: https://cdnjs.com

Если же какой-то модифицированный jquery, то со своего сервера через тот же CF (на бесплатном тарифном плане).

UFO landed and left these words here

vintage Jul 19 2016 at 19:37

Всё уже придумано за нас: DHT

Sobic Jul 20 2016 at 06:15

или еще вот ipfs.io

Mithgol Jul 20 2016 at 21:01

И так как NickKolok желал знать моё мнение, то вот оно: я также считаю, что для распределённого хранения данных с адресацией по контенту более всего подходит IPFS.

Рекомендую к прочтению блогозапись «Почему Интернету нужен IPFS, пока ещё не поздно» и её обсуждение на Хабрахабре.

dmitry_ch Aug 4 2016 at 18:36

> Владельцам малых сайтов часто приходится выбирать: либо подключать jQuery и/или подобные ей библиотеки с CDN (гугловского, например),
> или со своего домена.
> В первом случае уменьшается время загрузки сайта (в том числе первичной, т.е. при первом заходе посетителя на сайт) за счёт того,
> что файл с серверов Гугла с большой долей вероятности уже есть в кэше браузера.

Шанс того, что кеш браузера, заваленный добром от недавно просмотренных десятков сайтов, будет содержать именно тот файл с CDN, который лично данному сайту необходим, крайне невелик. Но пусть это не 1%, пусть целых 5% — т.е. у одного из 20 человек именно этот файл будет доступен на 0.2 сек быстрее.

Зато у 19 из 20 будут лишние задержки на DNS-поиск, возможное установление https-соединения с дополнительным хостом, плюс имеем риск недоступности файла с CDN — в общем, 19 из 20 посетителей имеют шанс получить ухудшение вместо улучшения.

Как по мне, так не та статистика, за которую надо владельцу малого и/или малопосещаемого сайта держаться. Лучше положить файлы js и стилей себе на сервер, объединить их и минифицировать, настроить сжатие (в идеале — gzip_static), настроить кеширование — положительный эффект будет куда большим!

А версионирование файлов легко и непринужденное делается через указание версии в URI файла (а не в GET-параметре, как это любят неотключаемо делать мамонты вроде Битрикса). Хоть в виде http://domain.tld/files/js/VERSION/file.js, хоть в виде http://domain.tld/files/js/file-VERSION.js — настроить веб-сервер на отдачу в каждом случае файла, лежащего по факту в /files/js/file.js (т.е. на игнорирование часто VERSION) несложно, а польза безо всяких расширений языка разметки (и реализации поддержки расширения в браузере) несомненна.

И, да, заголовок etag как раз и придуман для реализации того, что вы в своем предложении упоминаете. Только куда более прозрачно и с меньшим влиянием на процесс создания html-кода страницы.

NickKolok Aug 4 2016 at 19:08

Спасибо за развёрнутый комментарий!
Начну с конца.
etag:
а) требует запроса к серверу. Это время и трафик (пусть и мизерный). И нагрузка на сервер (тоже небольшая).
б) не позволяет разделять субресурсы (картинки, библиотеки и т. д.) между сайтами. А в этом есть определённая выгода. Некоторые библиотеки (и в первую очередь jQuery) действительно очень популярны и с очень большой долей вероятности окажутся в кэше. Размер jQuery достаточно невелик (в пределах 200 кБ, сжатая — и вовсе 32 кБ). Или, например, типовые смайлики на phpbb-форумах — за каждым отдельный запрос слать и etags сверять, учитывая, что такое добро наверняка уже в кэше валяется?

UFO landed and left these words here

NickKolok Aug 4 2016 at 19:29

Вы знаете, сколько различных версий одной jQuery? Плюс минифицированные и полные варианты.

По одной версии на каждую актуальную версию вордпресса/джумлы и все остальные версии.

А вообще вопрос интересный, тянет на отдельную тему для исследования. Спасибо.

Часто заменяются на альтернативные.

Часто, но не всегда. Хотя согласен, что году эдак в 2007-м подобных повторяющихся элементов оформления было больше.

dmitry_ch Aug 4 2016 at 21:12

Про смайлики — помните, был анекдот про порутчика Ржевского, мол, все шутки пронумеровать и говорить только номер той, что хотите отпустить? Так вот и все смайлики мира, все библиотеки, все даже фразы в блоках и твитах пронумеровать, и придумать расширение для html, которое вместо ссылки на графический смайлик или вместо указания фразы текстом просто будет на номер в метатаблице ссылаться! Мы не победим, пока не возьмемся за дело всерьез, это же понятно — так что старые браузеры нужно будет удалить, а вот тогда новые уже будут заменять контент «по номерам» как надо )))

А если серьезно, вы поизучайте свой кеш. Да, jquery невелика (хотя как посмотреть!), но и экономия, кроме лишнего запроса, будет не смертельна. А вот вы посмотрите, каков размер кеша в вашем ПК, а каков в вашем телефоне, потом прикиньте, какой из вариантов jqeury туда надо поместить, чтобы многие сайты им воспользовались, и осознайте, сколько, глядя на объем запрашиваемых файлов любого современного сайта, вы каждым кликом по ссылке в вебе в кеше заменяете/удаляете.

CDN только Гугла отдает 54 (!!) версии jquery, да еще умножьте на 2 (протоколы поддерживаются и http, и https), да еще, наверное, у них есть и «просто», и «min»-версии. Таким CDN далеко не один, а минимум штуки 4-5 (я про самые популярные). Итого, если я зашел на один сайт, где с CDN грузилась jquery, а потом сразу на другой (где тоже jquery и тоже с CDN), то имеем вероятность примерно 1/500 — 1/1000, что библиотека jquery там и там — одна и та же, и на втором сайте не будет грузиться, т.к. загрузилась на первом. Это при условии, что кеш вообще объемен, и что-то хранит. Ну и да, теперь давайте подумаем, сколько в вашем кеше только под разные версии jqeury отведено места ))

Скажем прямо: идея унификации хороша, но в реальном мире проще не городить огороды. Вы боретесь с лишним http-запросом? Попросите сначала Яндекс с Гулом в своих счетчиках посещений сайта не делать столько http-перенаправлений :) — пользы для людей будет больше!

NickKolok Aug 5 2016 at 20:58

Про старые браузеры оговорено отдельно — едва ли их смутит новый атрибут. Хотя вот за IE не ручаюсь...

А если серьёзно, то спасибо, Вы меня окончательно убедили в том, что необходимо серьёзное исследование. С цифрами и фактами.

Понимаете, если у меня из-за нестабильного мобильного интернета отвалится счётчик Яндекса или Гугла — я переживать не буду, даже вряд ли замечу. А вот если jQuery — скорее всего, не смогу нормально пользоваться сайтом.

Сейчас унификация малоактуальна — нет контентной адресации. Вы совершенно верно указали на зоопарк CDN'ов. Теперь представим, что зачатки контентной адресации в виде предлагаемого хэш-кэша внедрены и начинают использоваться на некоторых сайтах. И вот в один прекрасный момент производитель некоторого мобильного браузера публикует список ресурсов (основных библиотек и шрифтов, например), которые будут захардкожены в кэш, основываясь на статистических данных. Естественно, что сайты, использующие именно эти библиотеки/шрифты, будут работать быстрее (в данном браузере), что создаёт стимул к унификации. Например, к переходу на несколько более новую (и распространённую) версию jQuery.

vintage Aug 5 2016 at 21:26

А также напрочь останавливает какой-либо прогресс.

NickKolok Aug 6 2016 at 08:02

Отнюдь. Вышла новая jQuery — прилетело обновление браузеру. В чём проблема?

vintage Aug 6 2016 at 08:39

В том, что тут же сломаются все сайты, что полагались на старую логику работы. При этом одним пользователям уже прилетело, а другим ещё не прилетело. Поддерживать обе версии одновременно — то ещё удовольствие.

NickKolok Aug 6 2016 at 10:35

Не сломаются. Хэш (в том числе ради обратной совместимости) страхуется классическим урлом субресурса.

vintage Aug 6 2016 at 11:51

А это тут при чём?

NickKolok Aug 6 2016 at 20:31

Процитирую статью:

<link href="//habracdn.net/habr/styles/1468852450/_build/topic_form.css" rel="stylesheet" media="all" checksum="ef4547a3d5731e77f5a1a19e0a6d89915a56cd3a"/>

Найдя в теле веб-страницы подобный тэг, браузер смотрит, есть ли объект с таким хэшем в кэше, и если есть, то не отправляет никаких запросов вообще.

Или, в нашем случае,

<script src="//somecdn.net/libs/jquery-9.9.9-max.js" checksum="004547a3d5731e77f5a1a19e0a6d89915a56cd3a"/>

(контрольная сумма — рандом).

Если у браузера нет в кэше файла с хэшем 004547a3d5731e77f5a1a19e0a6d89915a56cd3a, то браузер честно идёт по указанному урлу, выкачивает оттуда файл и кэширует его. Если файл в кэше есть, он берётся оттуда.

Гипотетическое же обновление браузера заключается в том, что наиболее ожидаемые файлы попадают в кэш заранее и закрепляются там. Всё. Никакого нарушения обратной совместимости.

vintage Aug 6 2016 at 21:55

Преференции для определённых версий определённых библиотек приводят либо к замедлению прогресса, либо к бесполезности предзагрузки.

NickKolok Aug 4 2016 at 19:17

Версионирование файлов указанным способом — конечно, круто, но есть некоторые проблемы. Например, версионировать натуральным рядом не всегда оптимально: некоторые файлы при бампе версии могли не измениться. Остаётся версионировать хэшем. В итоге получаем то же решение, что и предлагаемое, но с двумя минусами:
а) версия и путь смешаны в кучу
б) нельзя разделять субресурсы

А фишка-то именно в разделении.

Кстати, а что Вы имеете против GET-параметра?