ru_vds 2 мар 2018 в 11:51

Кэширование и производительность веб-приложений

8 мин

46K

Блог компании RUVDS.comВеб-разработка*Серверное администрирование*

Перевод

+19

Комментарии 21

Splo1ter 2 мар 2018 в 15:51

Мемоизация функций

Это скорее всего называется cache aside.

pae174 2 мар 2018 в 16:47

Не рассмотрены:
— кэширование DNS ответов на клиенте и на промежуточных серверах.
— keep-alive соединения от клиента к серверу (не совсем кэширование но принцип похож — повторное использование соединения вместо создания нового соединения).
— кэширование дескрипторов открытых файлов для случая когда сервер отдает много статики с диска.
— кэширование выдачи stat().
— кэширование дерева директорий на диске
— кэширование информации о клиентском хосте и о параметрах канала от клиента до сервера (так называемый hostcache).
— кэширование контента после сжатия (gzip).

visirok 6 мар 2018 в 00:11

Возможно Вы знаете ответ на очень интересующий меня вопрос. Если полгорода вдруг решили посмотреть одно и тоже на Youtube, протянется к каждому прибору своя ниточка с ближайшего DNS сервера или пакеты где-то на промежуточных серверах будут кэшится и потом оттуда раздаваться?
Заранее признателен за ответ.

pae174 6 мар 2018 в 01:17

Промежуточные сервера у провайдеров обычно кэшируют ответы. Причем продолжительность жизни ответа в кэше может быть как больше так и меньше TTL, настроенного на авторитативном сервере. Такое положение вещей создает определенную боль при переезде сайтов с одного хостинга на другой и при прочих подобных мероприятиях.

visirok 6 мар 2018 в 08:31

Спасибо. Хотя это не совсем ответ на мой вопрос.

pae174 6 мар 2018 в 13:58

Точный ответ — из полгорода желающих одновременно зайти на youtube значительная часть их заберет резолв из промежуточных кэшей а не с авторитативного сервера. Однако предсказать процент попадания в кэш заранее невозможно.

alekciy 6 мар 2018 в 09:34

А как в данном случае связан ролик с youtube который смотрит полгорода и DNS? И я не очень уловил, что в ответе pae174 не устроило.

В целом ситуация будет такая. У youtube.com TTL = 30 минут. Т.е. величина средняя и вероятность запроса на разрешение имени высокая. Но учитывая популярность youtube можно сказать, что в DNS кэше провайдера нужная информация будет (именно кэширование инфы, а не конкретных пакетов) и резолвинг произойдет крайне быстро. Поэтому на уровне DNS можно считать, что задержки не будет.

Далее попадаем на уровень уже самого ролика. Если у провайдера кэширующие сервера есть (а обычно это так и есть), то ролик упадет в кэш конкретного провайдера. После чего будет уже быстро раздаваться клиентам этого провайдера. Очень популярный ролик вероятно упадет в кэш провайдеров всего города. Кроме того есть и другие уровни кэша, чуть выше. Это кэш на магистрали. Еще есть Google Global Cache который могут себе ставить провайдеры.

Надеюсь ответил на все пункты понятно.

P.S. А почему интересует данный вопрос?

visirok 6 мар 2018 в 10:17

Спасибо за ответ. В теории я это себе как-то так и представлял. Но описанная схема хорошо подходит под кэширование по HTTP протоколу. Боюсь, в стрименге всё происходит по другому. Там другие протоколы. Я заметил, что качество картинки при просмотре Youtube и подобных ресурсов со временем подстраивается под пропускную возможность канала. Т.е. какой-то из серверов начинает отправлять другие пакеты, чем в начале просмотра, а в процессе ситуация может снова поменяться.
Если это делает кэш-сервер, то на нём должно лежать много вариантов одного ролика, грубо говоря. Не хочу Вас обидеть, но картина наверное намного сложнее, чем Вы описали. Не хочу Вас напрягать, но был бы признателен за ссылку на детальное описание этих процессов.
Ну а интересно мне это потому, что хочется понять, как работают приборы, которые нас окружают.

alekciy 6 мар 2018 в 10:44

По сути стримминг от от статического контента отличается мало. Большой статический файл на клиент уходит кусками и там уже склеивается. Стрим летит на клиент примерно так же, но в отличие от статики клеится на клиенте на лету + важен порядок кусков.

Т.е. какой-то из серверов начинает отправлять другие пакеты

Не совсем так. Инициатор соединения клиент, а не сервер. Он и определяет требуемый ему range. А сервер уже отдает ровно то, что от него просят.

Если это делает кэш-сервер, то на нём должно лежать много вариантов одного ролика

Не совсем так. На нем много кусков многих роликов. Варианта «вот ролик Х в наборе качества Z, W» обычно нет. Хотя конечно при желании склеить куски одного потока в единственный файл можно.

признателен за ссылку на детальное описание этих процессов

Такого описания не может быть в принципе, т.к. какая стратегия применяется кэш сервером зависит собственно от деталей реализации конкретного кэш сервера. И для детального понимания нужно просто читать документацию на конкретное используемое ПО.

visirok 6 мар 2018 в 11:06

Спасибо за Ваше терпение, но позволю с двумя последними пунктами не согласиться.

Варианта «вот ролик Х в наборе качества Z, W» обычно нет

Я часто наблюдаю, что качество показываемого видео на глазах меняется. Это значит, я думаю, клиент (app) в телевизоре начинает получать контент (наверное типа mp4) с фреймами другого разрешения. А это, в Вашей терминологии кусок N «ролика Х в качестве Z».

Такого описания не может быть в принципе,

Описание должно быть, поскольку создатели серверной инфраструктуры и разработчики клиентов по показу стриминга должны были выработать общий стандарт.
«Будем искать», как говаривал Семён Семёныч.

alekciy 6 мар 2018 в 11:52

с фреймами другого разрешения

Ну мы же начали с ютуба, так? Так. И там не «с фреймами другого разрешения». Потому что адекватный гугл понимает, что такой поток кэшировать сложнее, чем блоки явно заданные конкретными url.

клиентов по показу стриминга должны были выработать общий стандарт.

Стандарты есть. Например долгоживущий RTSP. Только на практике все сиииильно и на порядок сложнее, чем некий общий стандарт. Рекомендую поискать статьи/видео от Макса Лапшина.

Так же есть webm. Гугл.

visirok 6 мар 2018 в 13:29

Спасибо. Поищу на досуге.

Web_Proger 4 мар 2018 в 17:45

Для меня, который ничего из этого не знал (даже используемых терминов), полезно.

visirok 6 мар 2018 в 00:02

Этот кэш используется, когда в ответе сервера содержатся правильно настроенные HTTP-заголовки, указывающие браузеру на то, когда и на какое время он может кэшировать ответ сервера.

Это единственное, что можно сделать своими руками, если используешь чужую инфраструктуру. Вот про это хотелось бы узнать побольше: стандарты, инструменты, best practices.
Был бы очень признателен за ссылки.

pae174 6 мар 2018 в 01:19

https://habrahabr.ru/post/203548/

visirok 6 мар 2018 в 08:45

Спасибо. Много полезных деталей во второй статье этой серии. В ней я вроде бы нашёл подтверждение своему давнему подозрению, что в мире HTTPS кэширование за пределами сервера не происходит. Учитывая тренд всё делать через HTTPS, про кэширование можно забыть, получается. А что думают специалисты в этой области?

alekciy 6 мар 2018 в 09:44

что в мире HTTPS кэширование за пределами сервера не происходит.

Это не так. Потому что кэширование на клиенте как было и осталось. В FF в этом легко убедится посмотрев содержимое кэша:
about:cache?storage=disk&context=
в котором видно много Https ресурсов.

visirok 6 мар 2018 в 10:26

Спасибо. Ценное замечание. Но тогда поведение FF противоречит првилу описанному в указанной наверху ссылке, имхо:

Если запрос авторизованный (authorized) или безопасный (то есть, HTTPS), он не будет закэширован.

alekciy 6 мар 2018 в 10:53

Не противоречит. Рекомендую читать оригинал. Смотрим: «it won’t be cached by shared caches». Речь о кэширование на промежуточных хостах. Не на клиенте.

visirok 6 мар 2018 в 13:27

Спасибо. Вы правы. Лучше читать первоисточники.

pae174 6 мар 2018 в 14:04

в мире HTTPS кэширование за пределами сервера не происходит
Происходит если кэширующий прокси терминирует TLS соединение. Так работает Cloud Flare по крайней мере.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий