Hell_Grabowsky1 фев в 10:15

Разбор threading vs multiprocessing vs asyncio в Python

Средний

8 мин

9.8K

Python *

Из песочницы

Комментарии 21

dyadyaSerezha 1 фев в 12:44

1) Я думал, что писать вычислительный код, как в примере, на самом Питоне (без библиотек) - это моветон. Питон же медленный. Прав ли я?

2) Есть ли библиотеки (Polars?), которые внутри себя организуют параллельные вычисления, не прибегая к каким-либо механизмам самого Питона? Если есть, почему ничего о них не написано?

3) Есть ли сравнения производительности (по максимальному rps, напрмер) для типичного web-сервиса на Python с Java или C#, где надо обратиться к REST, к БД, что-то совсем простенькое посчитать и записать или отдать результат в БД или по REST? Я к тому, что верно ли утверждение, что писать что-то для high load на Питоне - это плохая идея?

Hell_Grabowsky 1 фев в 18:14

Ответила вам. Коммент ниже

Hell_Grabowsky 1 фев в 13:05

Приветствую.

1. Для тяжёлых вычислений Python довольно медленный и ограничен GIL. Для простых расчётов, I/O-задач, бизнес-логики и «склейки» компонентов он используется повсеместно. И на практике Python редко считает сам — тяжёлую работу за него делают библиотеки на C или Rust.

2. Да, конечно есть. NumPy, Polars, PyTorch и другие считают в нативном коде, параллельно и без GIL. Python там обеспечивает только интерфейс. В статье это не подчеркнуто, потому что для экосистемы Python это уже стандартная модель.

3. Здесь распишу подробнее. По rps:

· Java / C# в среднем дают больше RPS на одном процессе

· Python даёт меньше RPS на процесс, но разница обычно не в разы, а в процентах

Потому что в таком сервисе:

· 70–90% времени уходит на ожидание сети и БД

· Python в это время просто ждёт, а не «медленно считает»

Например, запрос в БД — 5–20 мс, HTTP-вызов — 10–50 мс, Python-логика — микросекунды. То есть, даже если Python в 2 раза медленнее Java на вычислениях —
на фоне сетевых задержек это почти незаметно.

Python используют под high load и весьма успешно. Так как асинхронные серверы (FastAPI, aiohttp) держат десятки тысяч соединений, сервисы масштабируют горизонтально (добавляют инстансы), а тяжёлые вычисления выносятся в отдельные воркеры или нативные библиотеки. В целом, high load решается архитектурой, а не языком.

Но, если у вас в каждом запросе много CPU-вычислений, нельзя масштабироваться горизонтально и нужно максимум RPS с одного процесса любой ценой, то лучше выбрать Java, C# или Go.

alex88django_novice 2 фев в 08:32

Какую нагрузку ваш сервис на Python будет держать, зависит как минимум от реализации сервера: одно и то же FastAPI приложение можно "поднять" на uvicorn (дефолт) или granian (написан на rust) - rps и latency будут сильно отличаться.

Далее, если Вы используйте классическую связку FastAPI + Pydantic, то будьте готовы, что Вам придется "платить" за сериализацию и валидацию (да, Pydantic был переписан на rust в свое время, но ему это не особо помогло). Как альтернатива пайдентику - msgspec (написан на С, очень быстрый)

И так, по тихой грусти, можно придти к тому, что библиотеки на других ЯП под Python - это не только про математику и тяжеловесные CPU-bound вычисления (numpy, polars и т.д.) - это вообще про все, что "вокруг" среднестатистического Python веб-сервиса.
И тогда логичный вопрос: а что у нас от самого пайтона то осталось, кроме синтаксических конструкций?

Hell_Grabowsky 2 фев в 13:51

Вы абсолютно правы: современный высокопроизводительный Python всё больше напоминает "клей" для эффективных библиотек, написанных на C, Rust или C++. Использование Granian вместо Uvicorn или msgspec вместо Pydantic — это отличные примеры того, как разработчики стараются обойти врожденную медлительность интерпретатора.

Что же остается от самого Python? Пожалуй, самое ценное — скорость разработки и экосистема. Python стал универсальным интерфейсом: он позволяет строить сложную логику на простом и читаемом языке, делегируя "черную работу" низкоуровневым движкам. В итоге мы получаем лучшее из двух миров: комфорт написания кода и производительность, близкую к нативной. Да, от чистого Python остаются в основном "синтаксические конструкции", но именно они делают разработку доступной и быстрой

alex88django_novice 3 фев в 07:13

В нашей команде давеча написали веб-сервис на пайтоне, а потом еще месяца 2-3 его оптимизировали: затащили polars вместо pandas, переписали «драйверы» с использованием cython, перешли с uvicorn на granian, а после и вовсе - с http на gRPC, добавили dramatiq, чтобы эффективно утилизировать все ядра cpu на подах… А сейчас этот сервис в стадии активного переписывания на go :D

CyrK 1 фев в 16:23

А что лучше для планировщика, который бы гарантированно "тикал" каждую минуту, и при совпадении времени выполнял воспроизведение аудио файла? Т. Е. Как сделать, чтобы тик был бы точно каждую минуту ноль секунд вне зависимости от продолжительности воспроизведения и редактирования планировщика.

Hell_Grabowsky 1 фев в 18:12

Вам подойдет asyncio. Он позволяет реализовать «кооперативную многозадачность»: вычислять точное время до следующего тика, пока звук проигрывается в фоне, не блокируя основной цикл.

CyrK 2 фев в 00:46

Спасибо, к сожалению не имею возможность поставить + из-за кармы.

alex88django_novice 2 фев в 04:54

Для точных кроновых задач («точно каждую минуту 0 секунд») asyncio плохо подходит, да и Python в целом

Hell_Grabowsky 2 фев в 05:45

Согласна, Python — это не система реального времени. Если процессор «ляжет», опоздает любой скрипт. Но для аудио это не критично. Если нужен именно Python, я бы выбрала asyncio. Он не «плывет», так как мы считаем время до :00 на каждом шаге, а не просто ждет по 60 секунд. Так, например:

while True:

now = datetime.datetime.now()

wait = 60 - now.second - now.microsecond/1e6

await asyncio.sleep(wait)

asyncio.create_task(play_audio())

alex88django_novice 2 фев в 07:10

в приведенном Вами примере кода нигде не гарантируется, что play_audio будет выполняться строго по таймеру:

asyncio.create_task создает задачу и помещает ее в ready_to_run очередь event loop'а, но не запускает ее непосредственно (на самой 1-й итерации sleep будет "холостой")
так как у нас (в целом) 1 поток + кооперативная многозадачность, play_audio (по каким либо причинам) может банально не отдавать управление назад в event loop какое-то длительное время (скажем, wait*2), и фьюча, порожденная вызовом asyncio.sleep, в этом случае не будет опрошена ивент-лупом «вовремя» (через wait секунд от момента добавления ее в очередь)

Тут банально нет какого-то механизма прерывания (как в выталкивающей модели многозадачности), и это, в глобальном смысле, проблема асинхронной модели в Python: кооперативная многозадачность на 1-м потоке.
И когда при помощи Python + asyncio нужно реализовать что-то чуть более сложное, чем сделать N запросов по сети конкурентно - начинаются танцы с бубнами, придумывание воркэраундов и т.д.

Hell_Grabowsky 2 фев в 07:38

Если asyncio не подходит из-за рисков блокировки событийного цикла, можно же попробовать multiprocessing. Вынос воспроизведения в отдельный независимый процесс гарантирует, что планировщик не будет зависеть от длительности или ошибок выполнения задачи. Достаточно реализовать цикл, который динамически рассчитывает время до начала следующей минуты и запускает новый процесс ровно в «ноль секунд».

alex88django_novice 2 фев в 07:54

А multiprocessing - это overhead на переключение процессов...

В общем, это уже немного в сторону, но хотелось бы видеть (в обозримом будущем) какую-то более совершенную реализацию асинхронной модели в Python, тем более что в 3.14 GIL выпилили, и это открывает возможность для условного "asyncio V2": с M:N моделью, планировщиком, который будет скедъюдить тысячи async задач на ограниченном (количеством ядер CPU) множестве OS потоков. Эх, прекрасное далёко

OtakSlim 2 фев в 13:50

asyncio.to_thread не заблокирует событийный цикл. Выкинули в отдельный поток воспроизведение и дальше считаем время. Нет оверхеда на создание процесса

alex88django_novice 3 фев в 06:53

Угу, а оверхэда на context-switch и борьбу за GIL тоже нет?

alex88django_novice 3 фев в 09:15

а вообще, посмотрите на код, который привела автор(ка) статьи выше.
to_thread с create_task в принципе не "дружит", а c run_coroutine_threadsafe результат будет такой же, как и без него.

В любом случае, длительность выполнения play_audio влияет на реальное время выполнения sleep -> на время 1 итерации while цикла, т.е. задача, поставленная корневом комментарии - "Как сделать, чтобы тик был бы точно каждую минуту ноль секунд вне зависимости от продолжительности воспроизведения и редактирования планировщика" - не решена

Hell_Grabowsky 4 фев в 06:44

"Автор", пожалуйста. Я против феминитивов, каверкают русский язык.

Дальше. Если мы ищем решение именно в рамках Python, давайте признаем:

По поводу to_thread: он действительно не спасает от GIL, но он спасает событийный цикл от блокировки во время системного вызова (открытия файла или ожидания аудио-карты). Это позволяет sleep проснуться вовремя, даже если поток со звуком еще работает.
По поводу точности: чтобы минимизировать влияние play_audio на следующую итерацию while, расчет времени wait должен происходить сразу после вызова create_task, а не после завершения задачи. В моем примере так и сделано.
Если цена ошибки в 10–50 мс критична — Python действительно лишний. Такие задачи решаются либо на уровне ОС (systemd-timers), либо на языках с вытесняющей многозадачностью.

А по поводу "Asyncio V2" в Python 3.14 — полностью разделяю ваш энтузиазм. Возможно, это наконец-то избавит нас от необходимости выбирать между оверхедом процессов и ограничениями одного потока.

alex88django_novice 4 фев в 09:35

я выше писал про это другому комментатору: to_thread c create_task не дружат. Если Вы хотите запустить задачу в другом потоке (именно Задачу и именно в стиле "fire-and-forget", т.е. без явного await), то Вам нужно заменить create_task(play_audio()) на `run_coroutine_threadsafe(play_audio, asyncio.get_event_loop())`.
Но результат будет аналогичный, как и в Вашем исходном примере: если play_audio выполняется слишком долго - даже с промежуточными awaitами и периодическим возвратом управления в цикл событий - это напрямую влияет на время выполнения sleep.

Другими словами, Вы попросту получите синхроный цикл в асинхронном коде

UPD: тут my bad:`run_coroutine_threadsafe(play_audio, asyncio.get_event_loop())` запустит корутину play_audio в основном потоке, а create_task и to_thread можно подружить (через небольшой воркэрауд). В этом случае play_audioне будет влиять на sleep, остается лишь проблема отсутствия прерывания

CentariumV 5 фев в 11:40

Неплохо, но при использовании метода multiprocessing общее время вычислений сократилось до 2 минут.

«А потом мы перешли на Go и время выполнения сократилось до 2 секунд») Вообще, считаю, что статья написана хорошо, структурировано. Наконец - то понял модель многопоточности в Python.

51scorp 27 фев в 08:36

Использовали request, а почему не захотели перейти на httpx библиотеку, которая значительно быстрее работает?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий