tyomitch 6 ноя 2016 в 23:59

Как устроен парсер Python, и как втрое уменьшить потребление им памяти

12 мин

49K

Open source*Python*Компиляторы*C*

+110

Комментарии 68

wOvAN 7 ноя 2016 в 00:35

картинка [Делайте добро]

iCpu 7 ноя 2016 в 06:11

Картинка [и не надейтесь остаться безнаказанными]

Iceg 7 ноя 2016 в 00:52

Если так трактовать фразу «Изучения программирования нужно начинать с Python», то — да :)

maxfox 7 ноя 2016 в 01:16

Подскажите, пожалуйста, человеку, далекому от C и парсеров/компиляторов… Насколько нормален такой код (как по ссылкам) в мире системного программирования и разработки ЯП? Ну т.е. писать такое руками? Это считается качественным кодом? Просто выглядит жутковато…

iCpu 7 ноя 2016 в 06:28

Нет, это не считается качественным кодом. Тем не менее, можно взять один из формальных параметров: статистический анализ кода и его результаты. https://habrahabr.ru/company/pvs-studio/blog/306204/
Судя по нему, ситуация достаточно стандартная.

Любой синтаксический анализ, и, тем более, анализ сложных языковых систем — большая задача. «Большая» в системном смысле, для её решения приходится многократно повторять очень похожие языковые конструкции. Поэтому ужасное, но работающее решение из первой версии может спокойно перекочевать в последнюю, потому как в определённый момент ничего лучше не было, а сейчас любые попытки исправления ситуации выглядят ужасающе. Собственно, именно такую реакцию и проявило руководство группы разработчиков. И это тоже стандартно. И, если они не изменят решения, то, вполне возможно, они потеряют лидирующие позиции при разработке стандартов в пользу тех групп, чьи альтернативные интерпретаторы не будут выжирать ВСЮ память, чтобы запустить «Hello, Kitty!»

ebt 7 ноя 2016 в 01:50

Я регулярно упираюсь в лимиты памяти при программировании быстрых и грязных системных утилит на питоне. Из недавнего: при анализе многоугольников внутри векторной графики потребление памяти достигло десятка гигабайт. По хорошему, нужно переключаться на C etc., но времени для этого нет. Так что если Ваш патч не примут, Вы всё равно можете создать свою сборку и облегчить жизнь многим людям.

blueboar2 7 ноя 2016 в 06:52

А теперь смотрите — приняли его патч. Этот патч, как я понял, уменьшает количество памяти, требуемое на ПАРСИНГ программы. Сколько у вас весит исходный код? Мегабайт? Ну может два, и то такое редко бывает. Допустим даже, что при разборе понадобится в 50 раз больше памяти. 100 Мегабайт. Даже 200. Как заявляет автор, его патч уменьшит это число на 30%. Будет 140 Мегабайт. 60 сэкономится. И толку вам с этих 60 Мега(!)байт, если ваша программа ворочает десятками гига(!)байт?

tyomitch 7 ноя 2016 в 08:09

1) количество памяти, требуемое на парсинг, уменьшается в среднем втрое (200 Мб -> 67 Мб); для некоторых реальных программ это означает уменьшение памяти, нужной на загрузку и работу в сумме, на 30%.
2) если программа во время работы выполняет динамически генерируемый код, что для скриптовых языков типа Python обычное дело, — то объём кода, который нужно распарсить, не ограничен единицами мегабайт исходников.

blueboar2 7 ноя 2016 в 09:51

Хм. Ну даже и в три раза. Для его десятков гигабайт это мелочи. Около 1%. А выполнять динамически генерируемый код — я б не сказал, что это прямо «обычное дело». Ну бывает, да. Но чтобы в каждой второй программе…

Не поймите, что я против этого патча. Любое улучшение это плюс. Просто оно не такое чтобы прямо супер, как тут пишут.

saboteur_kiev 9 ноя 2016 в 04:09

скриптов на питоне, которые быстро прогоняют через себя сотни мегабайт логов или скл данных, и это все крутится на виртуалках. Постоянное выделение и освобождение памяти — кластер будет доволен.

-1

sebres 10 ноя 2016 в 22:22

скриптов на питоне, которые быстро прогоняют через себя сотни мегабайт логов или скл данных

Не путайте, ибо в контексте статьи и патчей, важно сколько те скрипты через себя (питоньих) исходников или jit (eval и иже с ними) "прогоняют".

igrishaev 7 ноя 2016 в 17:06

Объясните, пожалуйста, что вы имели в виду под "динамически генерируемым кодом"? Eval, скрипты в играх?

Antervis 7 ноя 2016 в 09:55

а вам не кажется, что любая, пусть даже мало значимая оптимизация в коде интерпретатора/компилятора очень ценна, т.к. эта оптимизация скажется на миллионах пользователей?

blueboar2 7 ноя 2016 в 10:01

Я выше комментатору написал — я всецело за оптимизации, и понимаю, что она принесет пользу. Просто показать что она не такая огромная. А то что польза есть — тут я не спорю, надо внедрять.

wOvAN 7 ноя 2016 в 12:51

Мне кажеnся разработку Python спонсируют производители RAM

FantomNotaBene 1 дек 2016 в 22:02

Это же не так давно говорили о Java.

Bojczuk 7 ноя 2016 в 14:23

По хорошему, нужно переключаться на C etc., но времени для этого нет.

Рекомендую посмотреть в сторону Cython.

thatsme 7 ноя 2016 в 01:51

Спасибо за статью и за ПАТЧ!
Жаль, что мантейнеры его не осилили.
У меня от самого рождения питона, было чёткое убеждение, что Гвидо плохо себе представляет, что такое формальные грамматики, и или брезгует, или на момент создания не знал о том, что есть генераторы парсеров.

sebres 10 ноя 2016 в 22:29

У меня где-то валялся "бизоний" питоний парсер, он тоже делает код гораздо мельче, к тому же еще и быстрее, но к сожалению (в свое время) кроме всякой мелочи еще и с сохранением того кода в бинарник были проблемы, так и не допилил, может раскопать снова...

Flux 7 ноя 2016 в 03:47

«Раз за всё это время никто к патчу интереса не проявил, — значит, никого другого потребление памяти парсером не заботит. Значит, нет смысла тратить время мейнтейнеров на его ревью.»

Схоронил статью, будет во что тыкать носом фанатов писать на голом питоне всё, от обработки изображений до тяжелой математики.

YaakovTooth 7 ноя 2016 в 07:11

Зачем это писать на голом питоне если есть pillow, numpy и scipy?

Flux 7 ноя 2016 в 22:33

Потому что могут это писать на голом питоне.

Шучу, потому что не могут не на питоне. Вообще, этот вопрос задавать нечестно — смысловой посыл такой же как в моём комменте на который вы отвечали.

YaakovTooth 9 ноя 2016 в 22:07

Так то скорее риторический вопрос. ;)

kozzztik 7 ноя 2016 в 18:29

А что, собственно, кого-то волнует место, занимаемое программой после того как ее разобрал интерпретатор? Это настолько незначительно, что действительно никого особо не заботит, и Гвидо тут в некотором роде прав.
С другой стороны, если можно сэкономить, почему нет. Времени у ментейнеров не очень то много, и оно пойдет на что-то другое, вероятно еще более полезное.
Вообще если вы угораете по экономии памяти, то, очевидно, питон далеко не самый подходящий язык.

tyomitch 7 ноя 2016 в 18:43

Вообще если вы угораете по экономии памяти, то, очевидно, питон далеко не самый подходящий язык.

Какой язык вы бы предложили для упомянутой мной задачи (поиск значения в огромном dict-литерале)? sqlite?

kozzztik 7 ноя 2016 в 21:02

а sqlite это язык? Простите, из очевидного — Си, с плюсами и без. Даже Паскаль подойдет лучше, чем питон, если вам важна память. Ассемблер если борода позволяет. Есть еще много языков, которые обращаются с памятью лучше питона.
Питон это в первую очередь скорость и качество разработки. При том скорость разработки, а не исполнения. Зачастую это единственное что важно, даже в хайлоаде. Но если нужно экономно работать с памятью или действительно качественно утилизировать процессор, то очевидно питон не лучший выбор.

tyomitch 8 ноя 2016 в 01:36

У меня не было цели сэкономить память, у меня была цель «сделать как можно быстрее и удобнее» — и речь именно о скорости разработки, а не исполнения. В данной задаче проблема была не в том, что мне было для Python жалко лишний гигабайт памяти, — а в том, что у меня этого лишнего гигабайта тупо не было в системе, так что скрипт не запускался.

(Если вам интересно, то конкретно эту задачу я пробовал решать на Си, — и GCC точно так же, как и Python, вылетает при попытке объявить многомегабайтную структуру-литерал.)

Deosis 8 ноя 2016 в 07:44

Вы пытаетесь данные представить как код, где-то выше писали, что выгоднее сложить их в отдельный файл и вручную загрузить и распарсить. Оверхед в рантайме будет настолько мал, что выгода от прямого включения данных в код перевесит ручную загрузку только при соотношении запусков скрипта к его компиляциям примерно 1000 к 1.

tyomitch 8 ноя 2016 в 12:11

Это-то ясно, но с точки зрения удобства и скорости разработки есть большая разница: в одном случае надо писать код для загрузки и парсинга данных, а также начальной генерации файла с даннами; в другом случае не надо писать вообще ничего — дамп данных в чистом виде как раз и является кодом скрипта.

(В конечном итоге я именно по-вашему свой скрипт и реализовал, через pickle.)

kozzztik 8 ноя 2016 в 15:33

Ну, это должно как бы намекнуть, что вы что-то делаете кардинально не так, и дело уже совсем не в питоне. Я не к тому, что фикс не нужен. Выпилить спагетти и получить хоть и небольшой, но профит — я лично всегда за. Но не нужно удивляться тому, что ни у кого из разработчиков не нашлось времени поревьювить — кейс более чем странный. На столько, что никто не считает его важным. Так делать просто не нужно (я про кейс, а не фикс). Делать фикс того, что язык работает не очень хорошо, когда его используют неправильно никто не хочет.

Тут был хороший совет выйти на кого-то из разработчиков напрямую, и убедить в том что это надо. Можно еще сменить стратегию — не нужно рассказывать о том что вы пытались создать многомегабайтную структуру литерал и у вас не вышло. Об этом вообще на самом деле лучше никому не рассказывать ) Взять стандартные кейсы, что стандартная программа будучи запущенной будет занимать на столько то меньше памяти и еще что-то, что этот фикс дает при нормальном ежедневном использовании. Это будет явное описание того, какую он на самом деле ценность представляет.

tyomitch 8 ноя 2016 в 15:44

Можно еще сменить стратегию — не нужно рассказывать о том что вы пытались создать многомегабайтную структуру литерал и у вас не вышло. Об этом вообще на самом деле лучше никому не рассказывать ) Взять стандартные кейсы, что стандартная программа будучи запущенной будет занимать на столько то меньше памяти и еще что-то, что этот фикс дает при нормальном ежедневном использовании. Это будет явное описание того, какую он на самом деле ценность представляет.

В моём тикете (как и в этой статье) вся история описана целиком: «у меня был странный кейс, я подпилил Python чтобы он справлялся с моим кейсом, и в результате на стандартном наборе бенчмарков потребление памяти снизилось на 30%». Именно последний факт — мой главный аргумент.

kozzztik 8 ноя 2016 в 16:01

По комментарию Гвидо, он судя по всему зацепился за сам кейс. Может прочитал по диагонали, и взгляд зацепился только за это. Он вообще, судя по всему, весьма специфичный товарищ. Собственно PEP20, пункт 14. Кстати говоря можно попробовать сослаться на этот самый PEP в аргументации почему этот фикс все таки нужен.

НЛО прилетело и опубликовало эту надпись здесь

kozzztik 12 ноя 2016 в 00:05

Если вы отправляете ракету в космос, то да. Но на «обычных» проектах вполне достаточно аннотаций с инспекциями. И больше важны такие вещи как легко и быстро обвешать все тестами и быстро написать сам код, что бы было больше времени и на тесты, и на документацию и а на рефакторинг. А время ресурс обычно весьма ограниченный. Ну и что немаловажно — в питоне только один стандарт написания кода. Имхо, когда нужно много, быстро и качественно — питон лучший выбор. До тех пор пока не нужно «очень %s», как то производительно, качественно, параллельно и т.д. Там уже есть более подходящие инструменты.

-1

НЛО прилетело и опубликовало эту надпись здесь

Flux 7 ноя 2016 в 22:26

Так-то не очень корректный вопрос, с задачей практически любой язык справится. Но если бы от этой задачи зависело быстродействие системы и оно было бы важно, то решал бы на чем угодно что компилируется или jit-компилируется. Скорее всего на C++.

tyomitch 8 ноя 2016 в 01:30

О быстродействии речь не шла вообще, ни в статье ни в комментариях. При чём тут оно?

Любую задачу, имеющую решение, можно решить на любом тюринг-полном языке, так что «практически любой язык справится» — не аргумент. Фортран тоже справится, может на нём надо было писать?

(Если вам интересно, то конкретно эту задачу я пробовал решать на Си, — и GCC точно так же, как и Python, вылетает при попытке объявить многомегабайтную структуру-литерал.)

НЛО прилетело и опубликовало эту надпись здесь

Flux 7 ноя 2016 в 22:31

Да, от потребления памяти парсером зависит в конечном итоге не так много. Больше огорчает общий настрой разработчиков языка, которые мало того что не пилят производительный код с первого раза, так еще и брезгуют своим «ценным временем» когда им под нос суют готовую, сделанную оптимизацию.
Тут рукой подать до подхода «память не ресурс», а когда такой подход применяется не конкретным разработчиком а рантаймом языка — это звездец.
Собственно именно по этим причинам питон так и останется языком для вызова оберток над нормальным кодом или написания нетребовательных приложений.

НЛО прилетело и опубликовало эту надпись здесь

kozzztik 8 ноя 2016 в 15:19

Вы не забывайте, что это опенсорс. Заявлять что ментейнеры «брезгуют своим ценным временем» это как минимум некрасиво и очень лицемерно. Вы побрезговали своим ценным гораздо больше — вы даже не потратили его на то что бы стать ментейнером, не говоря о том что бы отревьювить как ментейнер.
К тому же нужно понимать, что всегда приходится выбирать. Время можно потратить на одно, а можно на другое. Выбрали другое. Видимо оно было важнее.
К слову говоря не слышал, что бы кого-то не устраивало текущее положение питона как языка. Вроде бы всех устраивает.

Zada 7 ноя 2016 в 04:00

Посмотрел, мало что понял. Но ты крут!
Куда писать/пиговать/голосовать за патч? Надо его проталкивать.

caban 7 ноя 2016 в 06:55

А почему не используется Lexx и Yacc? Я думал для таких проектов это норма?

Duduka 7 ноя 2016 в 08:22

Lexx для любителей фантастики, а Lex и Yacc для «домашнего» языко-строения, yacc парсит LR(1) с кубической сложностью.

tyomitch 7 ноя 2016 в 10:17

yacc работает за линейное время. Кубическая сложность (в теории) нужна для произовольной КСГ, без ограничений LR(1).

Парсер Python тоже работает за линейное время. К скорости его работы никаких нареканий у меня нету.

KvanTTT 7 ноя 2016 в 12:04

А что скажете про ANTLR 4?

tyomitch 7 ноя 2016 в 12:26

Скажу, что это LL-парсер, и поэтому он спотыкается на грамматиках с левой рекурсией, в отличие от yacc и подобных ему LR-парсеров.

KvanTTT 8 ноя 2016 в 00:34

У вас устаревшие сведения: ANTLR 4 не спотыкается на леворекурсивных правилах: Left-recursive rules.

RPG 7 ноя 2016 в 10:06

На самом деле, даже такая мелочь как потребление памяти "хелловордом" в Python крайне раздражает. Python, который ещё ничего не делает, съедает сразу 6 МБ. Если мне надо запустить сотню скриптов параллельно — это уже проблема. Или другой пример — минималка CentOS, куча демонов — postfix, imap, https, systemd, rsyslog, у всех потребление памяти ~ 6-10 МБ. И выделяется firewalld, который по сути ничего не делает и жрёт при этом 25 МБ. Подозреваю, тут уже не в интерпретаторе дело, а в каких-нибудь хэш-таблицах, сделанных через односвязный список...

Но вот что интересно, если 100 человек отправит в апстрим аналогичный патч, снижающий потребление ОЗУ, то возможно сообщество прислушается?

tyomitch 7 ноя 2016 в 10:22

Нет, такие вопросы решаются не голосованием. Мейнтейнеры Python — добровольцы, и единственный способ добиться ревью патча — убедить ревьюера, что лично ему этот патч интересен.

slava_k 7 ноя 2016 в 13:18

Если это действительно так, то при таком подходе у языка весьма мрачное будущее.

exfizik 8 ноя 2016 в 00:49

Языку 25 с хвостиком лет, популярность (особенно в последние годы) растёт, а вы ему мрачное будущее предсказываете :)

kozzztik 8 ноя 2016 в 15:56

либо самому стать ревьювером )

apro 7 ноя 2016 в 10:42

Обычно если нужно "протолкнуть" патч типа этого, его разбивают на как можно
большое количество более мелких патчей, и проводят много разных бенчмарков
подтверждающих его пользу. Можно еще с кем-то из мантейнеров лично поговорить
на какой-нибудь конференции.

tyomitch 7 ноя 2016 в 11:49

Тут дело не столько в бенчмарках, сколько в корректности. Python/ast.c — это такая кастрюля спагетти-кода, что определить «на глазок», вносит мой патч ошибки или не вносит, крайне тяжело. Я бы и сам не дал руку на отсечение, что не вносит.

Нехорошо, когда в ядре проекта лежит спагетти-код десятилетней давности, в котором никто из ныне действующих разработчиков не разбирается и не хочет разбираться; но, как выше отметил iCpu, это довольно типичная ситуация.

zagayevskiy 7 ноя 2016 в 10:53

в каких-нибудь хэш-таблицах, сделанных через односвязный список

Wat?

-1

burjui 7 ноя 2016 в 11:27

Научу гуглить за умеренную плату.

zagayevskiy 7 ноя 2016 в 11:30

Спасибо, я в курсе. Только вот человек это сказал в контексте большого потребления памяти. Прямо десятки мегабайт оно у него жрет.

Gorthauer87 7 ноя 2016 в 12:04

Интересно, а какой парсер в piston'е используется? Может его разработчики будут посговорчивее?

tyomitch 7 ноя 2016 в 12:20

Код парсера там полностью другой, так что описанные в статье проблемы к их парсеру не относятся.

saw_tooth 7 ноя 2016 в 14:17

Гвидо верно ответил: вопрос памяти никого не интересует, потомоу что ее в любой момент можно добавить (давайте без крайностей). А вот многопоточность вменяемая интересует всех, потому что с ней решится куча вопросов, и облегчится жизнь. На пайконе 2016 там серия докладов была по этому поводу, и народец вроде как разшевелился.

-3

tyomitch 7 ноя 2016 в 14:23

Разве одно другому как-то мешает?

saw_tooth 8 ноя 2016 в 18:30

Я разве сказал что оно мешает? Просто видимо приоритет этой проблемы гораздо меньше, чем многопоточность

kozzztik 7 ноя 2016 в 18:32

Так что, кто то придумал что-то лучше GIL?

saw_tooth 8 ноя 2016 в 18:37

Ну, был весьма обнадежвающий доклад о новом GIL, но Гвидо сказал весьма просто: Пока не будет предложено что ли бо ЛУЧШЕ чем GIL, текущий никуда не денется, ибо нормально работает для однопоточных апликух.
Иными словами, как я понял, они открыты для предложений в этой стороне, но к одобрению будут относится весьма щепетильно… в чем то я их понимаю.

kozzztik 8 ноя 2016 в 21:31

Ну, обнадеживающий он только в том случае если вы его либо слушали не внимательно, либо не до конца. Ибо в конце были замечательные графики падением производительности до 25 раз. Лучший тест «всего лишь» вдвое медленнее чем на GIL.
И это при том, что все проблемы до сих пор не решны до конца. В частности нужно, всего лишь, поменять сборщик мусора, по хорошему переписать все С extentions… По сути все там же где и было — на понимании того, что отказ от GIL это боль и без него все будет тормозить. Докладчик просто очень оптимистично все это рассказывал )

meteozond 8 ноя 2016 в 11:13

Мне кажется, тему надо эскалировать в питонячем сообществе, как вариант тут.

Browning 16 июн 2020 в 00:39

Мурыжили-мурыжили патч и в итоге заменили парсер целиком…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Как устроен парсер Python, и как втрое уменьшить потребление им памяти

Комментарии 68

Публикации

Истории