Комментарии / Профиль vladimirice / Хабр

Senior Python developer / TechLead

Подписчики

ПрофильСтатьи11ПостыНовостиКомментарии126

Инкапсуляция в Python: property, name mangling и никаких кофемашин

спасибо за статью. Очень нравится читать ваши статьи, потому что в них типичные вопросы и задачи описаны с очень интересной и необычной точки зрения.

От WSGI к ASGI: как Python научился работать с асинхронным вебом

vladimirice 25 фев в 12:16

Благодарю за очередную отличную статью. Написал пожелание в комментариях о такой статье. И было приятным сюрпризом увидеть ее так скоро.

Как устроены задачи (Task) в asyncio

vladimirice 24 фев в 12:59

Отличные статьи. Продолжайте пожалуйста. Очень бы хотелось почитать статью про взаимодействие сервер + фреймворк (про реализацию ASGI)

Как я ускорил анализ логов в мобильной игре с помощью Python-конвертера

vladimirice 16 мая 2025 в 14:40

Владлен, жму руку. Я в своей кампании сделал такую же инновацию и очень рад увидеть такую же идею у кого-то еще. Польза от нее огромная, а трудозатраты минимальные. Да, и есть заявка на всякие ELK. А пока их "разворачивают" - нужно решать текущие задачи, как то "избавиться от просмотра логов глазами" и "формировать статистику по логам"

Python-библиотеки, которые упрощают жизнь программиста. Часть 1

vladimirice 14 дек 2024 в 12:50

Соглашусь с этим комментарием. Понравилось, что в статье указаны достоинства и недостатки. Если у автора есть возможность рассказать о личном опыте - будет очень полезно. Особенно интересен и полезен формат "10 ошибок использования из практики" или "10 вариантов оптимизации на примере реальных задач". Любой рассказ практического опыта будет очень полезен.

Создание собственного API на Python (FastAPI): Знакомство и первые функции

vladimirice 12 дек 2024 в 07:43

Соглашусь с Вами, Кирилл. Автор Алесей как-то очень резко, болезненно и крайне токсично реагирует на любой, даже малейший намек, что он в чем-то некомпетентен. Автор сразу же переходит на личности, пишет длиннейшие субъективные, ничем не подкрепленные комментарии, переполненные токсичностью. А также банит в своей телеграм группе, подчищает все неудобные ему сообщения, банит "неудобный ему" контакт в Телеграм. Отчего у него такая крайне резкая реакция? Хотели ли бы заказчики/работодатели/ученики/коллеги работать с таким человеком? Каждый вправе решить это сам и отвечать за последствия.

Блокировки в PostgreSQL: 4. Блокировки в памяти

vladimirice 10 сен 2019 в 20:10

Вместо этого ядро должно давать точную информацию о том, какие ожидания были у сеанса, сколько их было и сколько времени они заняли

То есть подробная статистика по сеансам, которая формируется в результате анализа событий, по аналогии с информацией о работе VACUUM. Причем анализировать нужно все сеансы и очень детально.

Кажется, что это достаточно большой и сложный модуль и возможно на его написание нет ресурсов.

Блокировки в PostgreSQL: 4. Блокировки в памяти

vladimirice 10 сен 2019 в 15:36

Егор, спасибо за отличный цикл статей. Очень ждем следующего цикла :)

Вопрос скорее не про блокировки а в целом про экосистему PostgreSQL

К сожалению, единственная доступная информация об ожиданиях — информация на текущий момент. Никакой накопленной статистики не ведется. Единственный способ получить картину ожиданий во времени — семплирование состояния представления с определенным интервалом. Встроенных средств для этого не предусмотрено

Существует класс трудноулавливаемых и трудноизучаемых запросов — быстрых, короткоживущих. Например, где-то когда-то в цикле запрашивали строчки по одной, вместо того чтобы запросить их все сразу (типичный кейс ORM), а потом забыли об этом. Потом приложение выросло, запросы сами по себе легковесные и быстрые, но создают при этом большую нагрузку на систему, причину которой сложно отследить. Вот так я понимаю короткоживущие быстрые запросы, надеюсь, что правильно.

Я к тому, что для OLTP эта ситуация типична. Как так получилось, что в PostgreSQL до сих пор нет встроенных средств семплирования, которые позволят хоть как-то отловить подобные запросы? Либо все-таки подобные запросы не настолько сильно вредят Postgres, и поэтому семплирование неприоритетно. То есть блокировки, которые Вы предложили отловить семплированием — тоже редкий случай, не стоящий того, чтобы инструменты семплирования размещать в ядро.

Либо принципиально такие инструменты как семплирование — это не задача PostgreSQL и их некорректно встраивать. Было бы интересно услышать Ваше мнение по этому вопросу.

Блокировки в PostgreSQL: 3. Блокировки других объектов

vladimirice 8 сен 2019 в 12:51

Немного смешалось 2 кейса, поэтому описание получилось расплывчатым. Изначально я забыл (или тогда еще не знал) о существовании частичного индекса и сделал с Redlock.

Затем появился кейс запрета параллельных действий пользователя. Приведенным Вами описанием выше это тоже можно решить, при условии, что каждое действие пишется в таблицу событий. А это так и есть. Спасибо. Кстати, еще один аргумент в пользу необходимости в проекте такой вот таблицы событий. Для rate limiters можно очень успешно использовать без необходимости REDIS

Блокировки в PostgreSQL: 3. Блокировки других объектов

vladimirice 8 сен 2019 в 06:46

Я понял, спасибо. Принцип в том, чтобы упорядоченность соблюдалась в рамках страницы, а не в порядке следования строк в этой странице

Блокировки в PostgreSQL: 3. Блокировки других объектов

vladimirice 8 сен 2019 в 06:45

Да, все верно.

Изначально была сделана просто вставка событий id + JSONB. Среди этих событий было голосование за публикации. Конечно, в итоге была сделана отдельная таблица для событий голосования с подходящим уникальным индексом. Но до этого, в качестве быстрого решения была сделана распределенная блокировка на REDIS. Она впоследствии осталась для соблюдения условия «пользователь может сделать только одно социальное действие (голосование либо публикацию комментария и т.п.)», чтобы усложнить написания злоумышленниками скрипта, который будет от лица пользователя делать множество запросов (лайков, например) параллельно.

А можно было бы сделать это на рекомендательных блокировках? Например заблокировать id пользователя (или хеш от него)

Блокировки в PostgreSQL: 3. Блокировки других объектов

vladimirice 6 сен 2019 в 17:05

Рекомендательные блокировки

В приведенном примере блокировка действует до конца сеанса, а не транзакции, как обычно.

У меня был случай, когда в силу недостатков архитектуры нельзя было явно поставить уникальность на вставку нового значения. Чтобы защититься от дубликатов, я реализовал REDIS lock. Перед тем как осуществить действие, происходит попытка захвата блокировки действия. После успешного завершения действия (или ошибки) — блокировка снимается. Или же она снимается по таймауту.

Получается, что вместо этого можно было бы использовать рекомендательные блокировки? Заблокировать условный ресурс и быть уверенным, что другой сеанс будет ждать освобождения ресурса? Разве что кажется, что есть недостаток. Если сеанс внезапно завершается (обрывается соединение по какой то причине, если я понимаю правильно, что такое сеанс) — то блокировка мгновенно опускается. С другой стороны, раз блокировки нет, то действие откатилось и вроде все хорошо.

Однако как быть, если сеанс зависнет и блокировка тоже застрянет? Тут тогда таймаут снятия блокировки будет равен таймауту завершения сеанса?

Блокировки в PostgreSQL: 3. Блокировки других объектов

vladimirice 6 сен 2019 в 16:57

Егор, читаю (по 2 раза минимум, для глубокого понимания) все ваши статьи, но к сожалению, времени стало намного меньше, поэтому перестал задавать вопросы. Но по этой статье все таки задам :)

Раньше таблицы расширялись только на одну страницу за раз. Это вызывало проблемы при одновременной вставке строк несколькими процессами, поэтому в версии PostgreSQL 9.6 сделали так, чтобы к таблицам добавлялось сразу несколько страниц (пропорционально числу ожидающих блокировку процессов, но не более 512).

Интересен тогда кейс append-only:
* Пусть у нас идет интенсивная вставка значений в таблицу, допустим 1000 строк в секунду.
* Пусть так получилось, что это не batch — именно 1000 в секунду, причем это делают разные процессы. Извиняюсь за натянутость кейса, он специально преувеличен, чтобы понять суть.
* Пусть строки достаточно «тяжелые».

То есть вероятен описанный выше кейс, когда разные процессы начнут расширять таблицу на новую страницу. Пусть мы достигли предела и расширились на 512 страниц за раз из разных процессов.
А потом продолжили вставку новых значений (она не останавливалась).

Значит ли это все, что строки будут лежать в файлах сильно фрагментировано? То есть мы ожидаем append-only и вставку «строка за строкой, id за id». А из за такого вот расширения упорядоченность строк будет сильно нарушена. Что, в частности, помешает эффективному использованию индекса BRIN

WAL в PostgreSQL: 3. Контрольная точка

vladimirice 20 июл 2019 в 13:31

А в чем было дело? Очень интересно, может быть какой-то интересный кейс тюнинга?

WAL в PostgreSQL: 3. Контрольная точка

vladimirice 20 июл 2019 в 13:30

Если я все правильно понял, контрольная точка не пишет на максимальной скорости в том числе и потому, чтобы не расходовать железные ресурсы. При необходимости ускорения железные ресурсы начнут больше расходоваться и можно «неожиданно» получить деградацию производительности. То есть цена ускорения это всегда потенциальная деградация?

Или алгоритм настолько умен, что даже рост нагрузки за счет ускорения можно прогнозировать? Вернее, есть параметр, ограничивающий его ресурсы, который я упустил, когда читал статью

WAL в PostgreSQL: 3. Контрольная точка

vladimirice 20 июл 2019 в 13:26

Очень заинтересовал момент доступности страницы для чтения при pin :)

А если страница вытесняется на диск с целью заменить ее на новую с диска (все страницы буффера заняты, требуется вытеснение)? В этом случае «можно читать» вероятно, не работает, потому что содержимое страницы в какой-то момент полностью будет изменено.

WAL в PostgreSQL: 3. Контрольная точка

vladimirice 20 июл 2019 в 10:10

Блокируют ли грязную буфферную страницу процессы checkpointer/background writer перед записью ее на диск?

WAL в PostgreSQL: 3. Контрольная точка

vladimirice 20 июл 2019 в 10:09

В заключение все нежурналируемые таблицы перезаписываются с помощью образов в init-файлах.

имеются ввиду слои init, которые остались на диске на момент отказа системы? Могут ли они быть повреждены, ведь они могут быть в неконсистентном состоянии (на то и WAL для других операций)

WAL в PostgreSQL: 3. Контрольная точка

vladimirice 20 июл 2019 в 10:08

Надо просто продолжить выполнение текущей, но ускориться.

Ускорение ведь возможно вроде бы только за счет увеличения расходуемых ресурсов железа и то, наверное, есть предел распараллеливания, обусловленный самим алгоритмом.

Думаю тут интереснее в первую очередь не внутренности алгоритма, а возможность деградации производительности системы в связи с неоптимальным процессом выполнения контрольных точек.

Правильно ли я понял, что процесс checkpointer это популярный кандидат (один из кандидатов) на оптимизацию, если вдруг система «ни с того ни с сего» начала работать медленнее?

WAL в PostgreSQL: 2. Журнал предзаписи

vladimirice 11 июл 2019 в 06:30

Егор, спасибо за отличную статью. Вопрос, связанный с заморозкой.

В заголовке фрагмента WAL хранится:
номер транзакции, к которой относится запись;

полагаю, что этот номер для чего-то используется, например, при восстановлении.

Но как быть если номер транзакции заморожен, прошло уже много времени и в системе появилась уже другая транзакция, номер которой совпадает с замороженным номером?

Как в целом процесс заморозки дружит с WAL с точки зрения номеров транзакций?

2 3 ...

6 7