Amka Aug 27 at 15:24

Оптимизация Django под высокие нагрузки: как мы ускорили ответы сервиса с помощью кэша, SIMD и настройки GC

Medium

6 min

3.9K

Python * Django * Server optimization *

Case

+15

Comments 23

ivankudryavtsev Aug 27 at 16:02

Конечно, если бы вы использовали не JSON, а скажем, Protobuf или Cap'n Proto, у вас бы все работало еще быстрее.

Несмотря на то, что SIMD "на вас работает", вы его не используете, а просто выбрали самую быструю либу из доступных. Если бы она работала на "адском пламени" - вам бы от этого было бы ни холодно, ни жарко, потому как цель ваша была просто "более быстрые лошади". В этом смысле хидер слегка бэйтный и мислидинг (на мой взгляд).

Amka Aug 28 at 09:13

Конечно, если бы можно было запустить protobuf на старых smarttv, мы бы так и сделали. Но здесь вступают в силу ограничения вендоров.
На счет SIMD. Понял возмущение, но увы, не понял в чем. В формулировке? Так SIMD использовался так же, как и любые другие возможности процессоров. Скажем, тот же LLVM сам использует SIMD при компиляции там, где может, даже если вы в коде не использовали AVX intrinsics.

ivankudryavtsev Aug 28 at 10:00

Ну так про то и речь, что SIMD используется автоматически. Вы же не пишете, как Вы используете другие фичи современных процессоров для ускорения TLS? А ведь без них у вас bottleneck был бы в TLS...

Amka Aug 28 at 10:07

Теперь понятно :) Это правда, я упоминаю SIMD ради популяризации, т. к. много где разработчики про него не знают, а ведь можно не надеяться на компилятор, а использовать функции самому. В общем, небольшой кликбэйт, виновен!

Xiran Aug 28 at 12:32

Как-будто ответы явно приправлены ИИ

Amka Aug 28 at 14:09

Отнюдь. Хотя поди докажи нынче, что ты не бот.

steeldimon Aug 28 at 07:30

Интересно что за данные вы отдаете, что сериализация занимает более 0.1% общего времени ответа и оптимизация именно этого блока важно для прироста.

Amka Aug 28 at 09:08

В этом случае речь идёт о расписании телепередач, там множество метаданных и передача данных между сервисами тоже в JSON (позже заменили на Protobuf). Можно было бы оптимизировать формат данных и отдвавать что-то более компактное в более компактном API, но увы, около 40% клиентских приложений просто не обновить, а остальные обновляются медленно.

danilovmy Aug 28 at 08:24

orJSON одобряю. Сам везде его использую. А кроме него странно, что вы оптимизируете инфраструктуру, а не саму Django, где прирост будет не в проценты а в разы. Особенно это ощутимо в случае DRF. Я делал несколько раз доклад о Django-FTL, наборе методик, убыстряющих, например, формы Django или Serializers DRF в 60 раз, как и о простых настройках Django которые тронь и всё ~~развалится~~ взлетит.

Amka Aug 28 at 09:09

Боюсь на момент событий ваш доклад ещё не вышел, но я его обязательно посмотрю, спасибо за ссылку! Выбор точек для оптимизации был выбран после анализа нагрузки и профилирования методов.

Andrey_Solomatin Aug 28 at 10:15

Серверы приложений стали обрабатывать до 3-х раз больше запросов в секунду на том же железе

А кэш поместили туда-же или это дополнительное железо?

Amka Aug 28 at 14:14

Это отдельное железо, но ровно те же сервера редиса, которые уже использовались. Волею судеб сервера у нас имели остаточное кол-во свободной ОЗУ.

Andrey_Solomatin Aug 28 at 10:20

После анализа передаваемых и используемых данных, стало ясно, что часть данных можно не запрашивать из БД, сокращая время обработки запроса и генерации ответа. Это позволило сократить объем ответа некоторых методов до 20% (профиль пользователя, метаданные контента).

Я как-то оптимизировал один процесс, который падал по памяти, там 99% данных вытащенных из базы не использовались. Одна из самых лёгких оптимизаций м в моей жизни.

Amka Aug 28 at 14:12

Это первое, что было сделано. Я бы сказал, что нужно проводить ревизию периодически, т. к. за годы изначальный API и его сценарии использования могут сильно измениться, а вот процесс обновления выборок и в целом устаревания полей я встречал крайне редко.

Andrey_Solomatin Aug 28 at 10:29

Разобрав цепочку запросов пользователя стало ясно, что несколько последовательных запросов требуют получения одних и тех же данных из профиля пользователя: наличие подписок и дополнительных покупок, привязку его к интернет-провайдеру, регион и др.

К экстремально пиковым нагрузкам можно привязать высокоуровненый кэш:
Этот пользователь может смотреть это видео. И под нужные даты его предзаполнять.

Amka Aug 28 at 14:13

Это хорошая идея. К сожалению, не всегда можно предсказать из какой сети зайдёт пользователь, но для достаточно большой части это сработает.

izibrizi2 Sep 1 at 13:06

Очень странно читать про SIMD и Джангу, приправленную DRF. SIMD - это когда у вас гигабайты данных в секунду, причем эти гигабайты идут непрерывным потоком, и пока ваш DRF сформирует модельку, SIMD уже пару сотен мегабайт может проглодить, так что вы не в те ворота вошли. Это даже не из пушки по воробья, а какой нибудь межконтинентальной ракетой с ядерным зарядом по муравьям. А если у вас GC нагружен, то SIMD вам мало чем поможет, так как у вас много аллокаций и видимо нужно код переписывать. Может быть вам стоит попробовать jsonl, чтобы не вкорячивать в память длинные списки джейсона.

Ну попробуйте взять pypy, он вам реально бустанет производительность. Мой парсер на питоне работает на нём в 5 раз быстрее.

Асинхронный код можно запускать и на классической джанге, путем сосздания своего эвент лупа.

Я уже молчу про то, что можно pydantic заюзать, хотя бы для рест клиентов, его на раст переписали.

Короче, у вас инструменты на которых можно быстро прототипировать, но когда нагрузка растет, стоит посмотреть на более производительные решения и вынести нагруженные части в отдельные сервисы.

andreymal Sep 1 at 13:37

его на раст переписали

Из-за чего он работает медленнее чем чистый питон?)

izibrizi2 Sep 1 at 16:18

Не совсем понял про чистый питон. Там все либы на чистом питоне проиграли. Я молчу про drf который вообще провалится.

andreymal Sep 1 at 16:22

либы на чистом питоне проиграли

А перед pydantic — почему-то выиграли

izibrizi2 Sep 2 at 05:44

Там кроме маршмелоу и семантика, которые в 15 раз медленнее пидантика, все остальные под капотом наеисаны на си, или я не так понял?:)

andreymal Sep 2 at 10:21

маршмелоу и семантика

Скрытый текст

Amka Sep 3 at 10:53

Как я упоминал ранее - SIMD здесь не самоцель, а просто приятный бонус. Самое важное - это росто производительности минимальными изменениями в коде используя максимум от доступного железа.
Как итог самые нагруженные части и были вынесены в сервисы на Go.

Самое главное, что у любого бизнеса есть ограничения и иногда нет ресурсов на вынесение логики из огромного монолита в нужный срок. Приходится искать решения, которые устроят вас здесь и сейчас, закладывая длительные изменения в план.