rushter20 июл 2018 в 09:16

Всё, что нужно знать о сборщике мусора в Python

7 мин

160K

Python * Программирование *

Перевод

+38

Комментарии 16

zhovner 20 июл 2018 в 09:26

Почему до сих пор не избавились от алгоритма подсчета ссылок? Разве он не устарел?

tewak 20 июл 2018 в 10:54

Основным плюсом этого алгоритма является то, что объекты удаляются сразу как только они не нужны.

Этот метод практически не уступает по производительности ручному управлению памятью, но при этом позволяет существенно сократить количество присущих ему ошибок. Поддержка кода также упрощается.
А каким алгоритмом собственно предлагаете его заменить?

rushter 20 июл 2018 в 11:05

zhovner tewak

В случае с Python этот метод местами мешает ему, это одна из причин почему до сих пор никто не может избавится от GIL. Если убрать подсчет ссылок, то сразу сломается всё API, которое используют библиотеки, написанные с использованием компилиуремых языков (по сути любые компилируемые модули для питона). Из-за подсчета ссылок любое действие над объектом должно быть безопасным, т.к. постоянно меняется счетчик.

Поэтому убирать в обозримом будущем его никто не будет, это сломает очень большое количество популярных библиотек.

В производительном PyPy есть сразу 6 вариантов GC, которые можно выбирать отталкиваясь от задачи. Они сразу пошли по пути отказа от стандартного API CPython.

xflower 20 июл 2018 в 12:48

А почему нельзя использовать atomic integer как счётчик? Это частично решило бы проблему подсчёта ссылок в разных потоках.

rushter 20 июл 2018 в 15:11

Мне кажется всё опять упирается в API, в котором десятки лет четкие инструкции и порядок действий как работать с объектами, многие библиотеки просто сломаются. К тому же это может сильно замедлить работу (среднестатистическому скрипту потребуется более 10 000 atomic счетчиков), при этом не решает всех проблем.

Ryzhyj 20 июл 2018 в 15:04

Не очень понял, а почему «удаление потом» не является безопасным и не может использваться с компилируемыми языками? Имеется ввиду что подсчёт ссылок должен работать и вне интерпритатора, в нативном коде? Если да, то как мининмум можно оставить подсчёт ссылок только в нативном коде, а внутри интерпритатора запускать циклический сборщик, который будет учитывать досягаемость до объекта из пайтон кода и наличие ссылок на объект из нативного кода.
Да и вообще был бы очень признателен если бы пояснили почему в питон мире сложилась такая ситуация, что есть официальный CPython с рядом проблем под капотом (GC, GIL, нету JIT) и есть как минимум один кастомный питон (PyPy) в котором эти проблемы решены.

rushter 20 июл 2018 в 15:28

Я имел ввиду, что компилируемые языки используют CPython C API, в котором при работе с объектами нужно вручную вызывать определенные функции, которые работают со счетчиками, захватывают GIL и т.д. Оставить подсчет ссылок в нативном коде наверное можно, но это будет хак и не решит всех проблем, такое никто не пропустит в Python. Проще начать с чистого листа и выпустить Python 4.

Текущая модель работы с CPython просто не позволяет изменить многие моменты не ломая кучу библиотек (даже тех, которые написаны на чистом Python).

По поводу почему такая ситуация сложилась — тут всё просто, Python уже почти 30 лет, многие вещи проектировались в 90х годах, тогда даже многоядерных процессоров не было. Разработчики Python считают, что нужно поддерживать обратную совместимость. Ну а для полноценного JIT Python непредназначен, уж слишком он динамический сейчас.

НЛО прилетело и опубликовало эту надпись здесь

kalininmr 5 авг 2018 в 21:36

не всё так однозначно.
есть масса ситуаций(и очень частых) где refcounter наиболее эффективен.

igrig 21 июл 2018 в 06:15

Если мы заговорили об этом — питон самое слабое место?

sergey-gornostaev 21 июл 2018 в 07:01

Плюсы и минусы всегда зависят от контекста. Например GIL, который часто считают слабым местом — это один из факторов позволивших добиться простой и удобной интероперабельности с Сишным кодом, что является сильной стороной Python.

igrig 21 июл 2018 в 08:41

Я всегда спрашиваю в конкретном контексте. deadone — это не Вам. Если я летал на марс — то я и требую с меня как я летал на марс. Кто ставит минусы опять — автор боится отвечать, ибо и ему прилетит. Уже вон летит.

osseum 21 июл 2018 в 06:23

Если кратко, то GC итерирует каждый объект из выбранных поколений и временно удаляет все ссылки от отдельно взятого объекта (все ссылки на которые этот объект ссылается).

Как GC может обойти все объекты в поколении? Неужели где-то явно есть список всех объектов этого поколения? Мне кажется, такой список занимал бы слишком много места, его дорого было бы поддерживать.

rushter 21 июл 2018 в 06:27

Есть конечно, они связным списком хранятся и не так много занимают. В Python есть куча мест, где память намного больше используется, ради оптимизации скорости. Это же не C, где каждый байт экономят.

ebt 21 июл 2018 в 08:33

Здесь стоит упомянуть известный опыт instagram, где добились существенного прироста производительности просто отключив сборщик мусора.

Infernion 1 авг 2018 в 11:52

Поправочка, они уже включили его обратно. Но к их чести, они сделали патчик в Python 3.7 который решил их предыдущую проблему.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий