enamored_poc Jan 3 at 09:14

Python: Почему [] в аргументах функции — это ловушка?

Easy

5 min

16K

Python *

Review

+26

Comments 58

dyadyaSerezha Jan 3 at 13:18

Вопрос только один: зачем это так реализовано в Питоне? Так контринтуитивно для всех остальных языков. Следствие ли это того, что Питон изначально делался как простой скриптовый язык, и потом, для обеспечения обратной совместимости или старых внутренних болячек так была сделана передача параметров с дефолтный значением, или это сознательный выбор с самого начала и он даёт некие преимущества? Тогда какие?

rSedoy Jan 3 at 13:32

Нет, вопрос в другом, почему в очередной раз это является каким-то открытием, хотя практически в каждом учебнике (про доки я молчу) на это следствие реализации обращают внимание.

dyadyaSerezha Jan 3 at 14:29

Доки? Доки и учебники читают только лохи. Шутка. Но ваш вопрос не отменяет главного моего: зачем, почему именно так? Я всегда задаю этот вопрос, когда нахожу неочевидные, нелогичные (снаружи) решения.

KonstantinTokar Jan 4 at 14:06

Затем, что Гвидо Ван Россум 1)был плохим программистом, 2)ему очень хотелось сделать язык в котором всё не так как у других. Отсюта и табы, и неизменяемые объекты, и ловушки на ровном месте.

Octagon77 Jan 3 at 19:15

Есть гипотеза почему - Пайтон делался давно, следовательно, для программистов совсем другого уровня. Видно же - он катастрофически медленный не случайно, скоростью пожертвовали ради чего-то ещё. Чего именно - не скажу, но вижу - что бы оно ни было, сейчас уже не упёрлось - до аннотаций типа дожили. На варворов найденное в Риме не по назначению пользующих похоже, потому и открытия. Одно успокаивает - такое непотребство продолжалось только пока вода по акведукам текла...

TaggedNorth Jan 12 at 05:19

Сомневаюсь, что жертвовали скоростью только ради типизации.

до аннотаций типа дожили

Коллеги на питоне просто только начинают понимать, как удобно пользоваться IDE вместо чуть более продвинутого блокнота (целых 48% Python-разработчиков все ещё пишут на vscode). Поэтому и были добавлены аннотации типов. Аннотации оказались нужны в 2 местах при разработке:

При формировании подсказок при написании кода IDE.
При работе с агентами, когда мы передаем тулы в LLM.

С другой стороны, аннотации не делают его строго типизированным языком. Таковым его пытается сделать pydantic. И еще аннотациями очень любят злоупотреблять, добавляя в сигнатуры Any и множественные возможные возвращаемые типы через |.

Но я бы хотел, чтобы весь ML писали на дотнете в Rider 🤡

ri_gilfanov Jan 3 at 15:35

Следствие ли это того, что Питон изначально делался как простой скриптовый язык

Python -- это мультпарадигмальный язык общего назначения. Он не создавался как "скриптовой язык".

или это сознательный выбор с самого начала и он даёт некие преимущества? Тогда какие?

Простота и последовательность реализации. Текущая реализация соответствует простым архитектурным решениям:

Идентификаторы (имена) -- это ссылки на объекты.
Аргумент функции -- это идентификатор.
Все объекты делятся на изменяемые (mutable) и неизменяемые (immutable).
Значения по умолчанию для аргументов функций и методов инициализируются один раз.
Модификация изменяемого (mutable) объекта не требует инициализации нового объекта.

dyadyaSerezha Jan 3 at 17:42

Значения по умолчанию для аргументов функций и методов инициализируются один раз.

Увидел ответы на множество вопросов, кроме моего: зачем/почему они инициализируются один раз, что противоречит практике в других языках? Какие преимущества даёт такой подход?

ri_gilfanov Jan 3 at 19:00

Так Вы ни разу не задали этот вопрос.

К тому же, мне неизвестны языки программирования, где значения по умолчанию пересоздавались бы при каждом вызове функции.

В этом Python не противоречит практике других языков

tenzink Jan 4 at 01:02

Тут далеко ходить не нужно. Тот же C++ ориентирован на value-семантику. Поэтому там значение по умолчанию не привязано к функции, а создаётся при каждом вызове. В примере ниже f1 и f2 - разные объекты.

std::vector<int> foo(std::vector<int> a = {}) {
  a.push_back(1);
  return a;
}

auto f1 = foo();
auto f2 = foo();

Но на C++ никто и не станет писать функции в стиле примера из статьи с передачей списка по значению для его модификации.

Gadd Jan 4 at 07:29

Потому что функция в Python - объект первого класса. Объявление функции с помощью оператора def создаёт этот объект и он начинает существовать в своей области видимости с проинициализированными значениями по-умолчанию.
При дальнейших вызовах этой функции используется этот самый ранее созданный объект функции. Так что тут как раз все очень даже логично.

dyadyaSerezha Jan 4 at 09:55

Нет, не вижу логики в объяснении. С тем же успехом можно было написать не первого, в 18-го класса. Ниоткуда из объяснения не вытекает, почему дефолтные значения создаются 1 раз.

Gadd Jan 4 at 11:23

https://ru.wikipedia.org/wiki/Объект_первого_класса
Вспомните набившую оскомину фразу "В Python все есть объект". Функция - тоже объект. Он создаётся один раз, при этом один раз задаются дефолтные значения.

dyadyaSerezha Jan 4 at 17:19

Нет, все равно нет логики. Из того, что функция создаётся один раз, совершенно не следует, что дефолтное значение параметров тоже должно создаватья один раз, а не при каждом вызове.

Dhwtj Jan 4 at 07:52

Когда появился питон практики многих других языков ещё не было

Tishka17 Jan 3 at 17:17

Скажите, а в каких языках можно сделать так?

x=[]
def foo(a=x): 
   a.append(1)

С точки зрения бытовой логики это ничем не отличается от

def foo(a=[]):
    a.append(1)

В питоне создание функции - такой же стейтмент как любой другой, во многих же языках это не так. Код создания функции выполняется один раз - при её создании. Можно было сделать дефолтны ленивыми, но это сразу вызывает кучу вопросов по тому куда они имеют доступ и что там можно писать. По факту придется вводить отдельную функцию, которая будет вызываться каждый раз когда нужен дефолт (примерно так работают генераторы - создаётся временная функция под выражение). Это усложняет код, сеецификацию и на самом деле не вполне очевидно лучше ли оно на самом деле.

Во многих языках создание функции или класса - отдельный вид инструкций, которые нельзя смешивать с обычными стейтментами. Поэтому и на дефолты там все равно приходится писать отдельные правила вычисления. Потом правда в этих языках появляются замыкания и это разделение рушится, что не делает ситуацию лучше.

dyadyaSerezha Jan 3 at 17:58

С точки зрения бытовой логики это ничем не отличается от

С точки зрения программистской логики это сильно отличается. В первом def мы присваиваем параметру дефолтную ссылку на некий объект. Во втором def мы создаём дефолтный объект и присваиваем его параметру.

Tishka17 Jan 3 at 18:50

В обоих случаях после = стоит выражение. Вопрос в какой момент оно выполняется? Захватывает ли оно переменные? Есть ли у него свой скоуп?

В питоне на эти вопросы ответили просто: выражение вычисляется в момент создания, соответственно захвата переменных не требуется, мы получаем результат вычисления и его используем. Если бы выражение считалось при каждом вызове, ему бы пришлось делать захват переменой x, что тоже не всем бы понравилось, плюс возник бы вопрос, можно ли в дефолте обращаться к другими переменным. Это тоже решение, но более сложное и со своими последствиями

dyadyaSerezha Jan 3 at 19:02

Да, в идеале было бы запрещено писать def abc(a = x), но почему-то был выбран самый неочевидный вариант.

Tishka17 Jan 3 at 19:06

А сможете строго сформулировать что именно мы запрещаем?

alex88django_novice Jan 3 at 19:50

Запретить использование ссылок на мутабельные объекты в качестве дефолтных значений для аргументов функций

Tishka17 Jan 3 at 20:04

В питоне нет деления на мутабельные и иммутабельные объекты. Это известно для нескольких встроенных типов и всё. В отличие от плюсов где есть const типы

К слову, функции и классы - мутабельные объекты

alex88django_novice Jan 3 at 20:55

В питоне есть типы, объекты которых можно модифицировать, а есть типы, объекты которых модифицировать нельзя. Завести доп. флаг и хранить его на уровне PyType_Object - не самое сложное решение, правда?

А const - это не про типы, а про переменные

Tishka17 Jan 3 at 21:12

Вы только что запретили использовать ссылку на функцию как дефолт
Кортеж неизменяемый, а кортеж со списком - уже изменяемый
Это сразу требует введения апи для того чтобы пользовательские классы помечать иммутабельными
const T это буквально тип.
Непонятно что делать есди в дефолте написано x+1, в какой момент его считать, в какой момент делать проверку.

alex88django_novice Jan 3 at 21:42

Согласен, тут определенно есть ряд корнер-кейсов, с другой стороны - запретить использовать в кач-ве дефолтов хотя бы самые базовые кейсы: `[], {}, set()`, а такой кейс например как ([]) - настолько вычурный и около-нереальный, что его имхо можно не учитывать. Что касательно изменяемости функций: возможность навесить на объект функции новый атрибут в рантайме вообще никак не влияет на состояние объекта функции (я про code object). С класс-объектами да, тут сложнее конечно.

Tishka17 Jan 3 at 22:05

А возможность в список добавить элементы никак не влияет на какой-нибудь его другой аспект. Нет, уж, если можно менять, то можно менять.

В целом нет большого смысла запрещать эти примитивные кейсы на уровне языка, линтер справится. Язык должен работать более универсально, особые случаи недостаточно особые чтобы они как-то отдельно влияли на язык.

alex88django_novice Jan 3 at 22:20

нет уж, если можно менять, то можно менять.

И тем не менее, список unhashable, а функция вполне себе hashable. Т.е. разработчики языка когда то явно сделали такое вот разделение в рамках одной группы мутабельных объектов, ну потому что в одном случае мутабельность - это очень высокая гарантия сайд-эффектов, а в другом - просто свойство, которое есть

Tishka17 Jan 4 at 00:58

А при чем тут hashable? Изменяемые типы вполне могут быть хэшируемы. Зависит от того как мы определим равенство и хэш. Для многих типов равенство определено как проверка что этот тот же объект, в этом случае изменяемость ничего не ломает. Для других же типов равенство определяется на основе содержащихся там данных и поэтому хэшируемость невозможна если они меняются.

alex88django_novice Jan 4 at 06:25

изменяемые объекты вполне могут быть хэшируемыми

Я об этом и сказал выше, на примере функций

в этом случае изменяемость ничего не ломает

Изменяемость функций-объектов вообще никогда и ничего не ломает))

поэтому хэшируемость невозможна

Правильнее сказать, что она запрещена. Именно из-за возможных сайд-эффектов которые бы были при отсутствии данного ограничения

alex88django_novice Jan 3 at 21:04

Да и, банально, IDE / линтеры умеют идентифицировать мутабельные дефолты в аргументах

Tishka17 Jan 3 at 21:15

Не умеют. Только некоторые очевидные случаи

alex88django_novice Jan 3 at 21:46

Очевидных случаев достаточно) Раз в пайтоне можно и некоторые «официально» иммутабельные объекты модифицировать (например, экземпляры frozen датаклассов/пайдентик моделей), то говорить о каком-то 100-процентном покрытии не приходится

Driver86 Jan 3 at 15:26

Ппц. А ещё говорят php дно, в отличие от python.

Естественный вопрос

Естественный вопрос тут только один: о чём думал Гвидо ван Россум, создавая настолько контринтуитивное поведение, которое к тому же и с разными типами работает по разному? Наверное, о том же, о чём и Расмус Лердорф, когда добавлял знак доллара к именам переменных и создавал не всегда очевидный порядок аргументов или имён функций.

Разница между php и python только в том, что последний в своё время хорошо так популяризировал Google.

ri_gilfanov Jan 3 at 16:02

Поведение Python отличается от многих языков программирования. Однако, оно логично и последовательно в рамках принятых архитектурных решений.

В этом примере то же самое поведение:

a = []
b = a
a.append(1)
1 in b  # True

И в этом примере:

a = {}
b = a
a['key'] = 'value'
'key' in b  # True
b['key'] == 'value'  # True

ri_gilfanov Jan 3 at 16:52

Иллюстрация этой же "ловушки" Python на примере словаря:

call_counter = {'foo': 0, 'bar': 0}

def foo(x = call_counter):
    x['foo'] += 1

def bar(y = call_counter):
    y['bar'] += 1

foo()
foo()
bar()

call_counter['foo'] == 2  # True
call_counter['bar'] == 1  # True

0Bannon Jan 3 at 18:17

Но ведь питон "простой" язык и многие рекомендуют начинать именно с него. Как же так?

Tishka17 Jan 3 at 18:54

Питон простой язык. Но даже в простом языке есть моменты, которые очевидны не всем. Особенно, имеющим опыт на других языках. Дефолт вычисляется в момент создания функции (выяснения что там в скобках стоит). Это просто правило. Так же и тело класса вычисляется в момент создания класса.

KonstantinTokar Jan 4 at 14:11

Питон НЕ простой язык. Простой это С, Perl. По сравнению с еими питон сложный и нелогичный. Но успешный. Для программ - вызовов библиотек, алгоритмы на нём писать сложно.

Winand Jan 4 at 13:27

Простота состоит в том, что многое скрыто и новичок может не задумываться. Но чем больше ты изучаешь, тем больше узнаешь особенностей.

Armann Jan 3 at 18:58

в сообществе Python выработался стандарт (идиома), который считается единственно верным способом инициализации изменяемых аргументов

Кем выработался? И кем считается? Дайте ссылку на PEP, если возможно.

Вообще вариантов больше, и они зависят от конкретной ситуации.

Самый радикальный - подумать еще раз. Возможно что интерфейс с опциональным параметром-коллекцией, изменяемой внутри функции, не самое лучшее решение.
Чуть менее радикальный - всегда создавать копию списка. Это не всегда рационально, но если данных ожидается немного, то это не самый плохой вариант - в таком случае исключаем побочные эффекты с изменением входного параметра.
```
def add_item(item, storage=[]):
    storage = list(storage)
    storage.append(item)
    return storage
```
Если опциональный параметр не предполагается менять (или он клонируется как в предыдущем примере):
```
def log(message, additional_files=()):
    print(message)
    for f in additional_files:
      print(text, file=f)
```
Если опциональный параметр не предполагается менять и это словарь:
```
def log(message, additional_data=MappingProxyType({})):
    ...
```

Два последних варианта, помимо отсутствия условия на None, выполняют еще декларативную функцию - показывают что аргумент не изменяется внутри функции.

alex88django_novice Jan 3 at 20:22

первый вариант не самый радикальный, а самый разумный, чистые функции - наше все :)

Проблема подхода в 2-х последних примерах VS дефолтного None в том, что в зависимости от типа (мутабельной) коллекции на вход вам нужно подобрать иммутабельный аналог этой коллекции для дефолта: list -> tuple, set -> frozenset, dict -> frozendict.

А для «декларативности» существуют аннотации типов :)

P.S. Никогда не понимал, зачем (даже опытные) разработчики пишут в сигнатуре функции например `x: list[str]`, когда можно написать `х: Sequence[str]` тем самым позволяя стороне, вызывающей функцию, передать в нее не только список, но и кортеж строк, при этом запрещая (формально) совершать в теле функции модифицирующие операции над х.Но да, это уже оффтоп и не про дефолты)

RaptorTV Jan 3 at 19:45

Статья классная, конечно.
Но эту информацию уже постили на Хабре несколько раз (и не только на Хабре).
Поэтому для себя нового ничего не открыл.

alex88django_novice Jan 3 at 20:25

Давеча на Хабре была статья что list в питоне - это, оказывается, динамический массив! А я то всю жизнь думал, что это linked list (сарказм)

jakobz Jan 3 at 20:13

Всегда знал, что питон - всратый, бесполезный язык.

ef_end_y Jan 3 at 20:16

Как повезло, что в питоне есть этот архитектурный баг: [ ]! Теперь эту тему можно мусолить миллион раз на радость "ура, в питоне есть проблема, значит это перекрывает все мои мучения с моим языком". Реально миллионный раз. Каждое второе собеседование включает этот прикол, уже не баг, а прикол

IVA48 Jan 4 at 04:43

Не документированные особенности конкретного компилятора (интерпретатора) для любого языка программирования - источник серьезных ошибок, которых вроде как "по умолчанию" и не должно быть. Все зависит от профессионализма разработчика, который вне зависимости от ЯП должен знать и следовать фундаментальным правилам надёжного программирования.

В данном примере функция добавления элемента в массив может выглядеть примерно так:

Function AddItem (byVal Item, byRef kol_items, byRef Arr(), byRef error) as Boolean

/// Функция возвращает True если операция выполнена успешно, False если не выполнена и в еггог возвращается код ошибки. Добавляемый элемент Item объявлен как входной параметр передающийся значением. Остальные параметры объявлены как ссылки (адреса) на переменные обьявленные в вызывающей процедуре: текущее кол-во элементов в массиве, сам массив элементов и код возвращаемой ошибки. Причём текущее значение кол-ва элементов в массиве kol_items является одновременно и входным и выходным параметром передаваемые в функцию по ссылке. ///

AddItem = False

error = 0

If kol_items < 0 then error=1 Exit Function EndIf ///выход при отрицательном kol_items///

kol_items = kol_items + 1

AddDimention Arr, kol_items ///увеличение размерности массива до kol_items

Arr (kol_items) = Item ///непосредственное добавление нового элемента

AddItem = True ///успешно завершение функции

End Function

Здесь AddDimention есть оператор или функция ЯП который(ая) увеличивает текущую размерность массива до заданного значения при сохранении уже имеющихся в нем элементов. Нумерация элементов массива логично начинается с 1. В принципе можно обойтись и БЕЗ error, но в этом случае вызывающая процедура должна сама убедиться в добавлении элемента, сравнив отправленное значение kol_items с полученным. Если оно увеличилось на 1, то добавление прошло успешно. Но для соблюдения стиля надёжного программирования, любая процедура (функция), помимо обязательной проверки значений входных параметров на корректность, должна возвращать код ошибки (лучше вместе с текстом) возникающей при её выполнении.

vitiok78 Jan 4 at 06:01

Я в очередной раз вспоминаю, почему я не люблю Python, JavaScript и другие подобные языки. Когда указатели скрываются от программиста якобы для какого-то "удобства" и "простоты" - это медвежья услуга. Они настолько стесняются слова "указатель", что даже заменили его на "ссылка". В результате, вместо того, чтобы прямо из кода понять, что происходит, надо изучать кучу неявных правил, рассказывающих тебе о том, когда переменная передается по ссылке, а когда по значению. И именно сама эта концепция привела к тому, что этот "баг" вообще появился. Явное всегда лучше неявного, коллеги!

KonstantinTokar Jan 4 at 14:14

Что самое интересное, указатели скрыты. Но во всех случаях когда надо объяснить неочевидное поведение, приходится эти указатели вытаскивать наружу и без этого объяснить не получается.

ef_end_y Jan 4 at 14:25

О каких кучах неявных правил вы говорите? Пайтон прост как три копейки, за пару дней выучил, потом потренился неделю-две на фреймворке и вперёд. Что там изучать? Числа и строки передаются не по ссылке, все остальное по ссылке. И все. Я ещё не видел людей, которые в этом путались. Поприходили сишники и со своей колокольни "ссылки-указатели это же сложно, как они могут в своем личном языке не замечать разницы". Потому что пару десятков лет жили без этой разницы, писали громадные проекты и даже не задумывались что в терминологии сишников оказывается надо называть указателями. Ещё не хватает жалоб на то как отступами форматировать тяжело, "один неверный пробел и все пропало"

Tishka17 Jan 4 at 17:19

Числа и строки передаются ровно так же как все другие объекты.

ef_end_y Jan 4 at 20:22

А вот про такое занудство я как раз и упоминал сишников. Я описал как "следует" понимать передачу параметров, и так ее понимают большинство пайтон-программистов чтобы не иметь проблем

Tishka17 Jan 4 at 22:03

Да нет никакого деления между передачей строки и других объектов. Они просто передаются. Нет никакой магии. Строки и числа просто не имеют методов изменения их внутреннего состояния.

ef_end_y Jan 5 at 07:31

Потому что в пайтоне все объекты. И людям проще рассматривать неизменяемость-изменяемость типа как раз в парадигме передается по ссылке или по значению. Это упрощение, но иначе будем видеть такие комментарии "как все у вас в пайтоне сложно"

Tishka17 Jan 5 at 08:53

Я не знаю кому это проще. Очень много каши в голове от такого объяснения. Неизменяемость это просто отсутствие способа изменить. Передача по значению важна когда у вас есть изменяемость, просто она не затрагивает оригинальную копию

vitiok78 Jan 4 at 21:43

Да-да. Сначала напишем кучу багов из-за неявных указателей. Потом напишем кучу багов из-за проблемы Mutable Default Arguments, описанной в статье. Потом напишем кучу багов из-за оператора is в сравнении с == и кэширования объектов. И т.д. и т.п. Но так-то всё просто, да. Очень просто написать баг.

Python хорош как точка сбора всех классных датасатанистских библиотек. Но как язык программирования... Увольте...

Tishka17 Jan 4 at 17:19

В питоне всегда объекты передаются по копии указтеля. Нет никаких "когда"

ef_end_y Jan 4 at 20:26

Что значит копия указателя? Указатель это по сути число, копия указателя это копия числа?

vitiok78 Jan 4 at 21:23

Во-во. Объекты... И это надо знать назубок, что скалярные переменные передаются по копии, а всякие разные объекты по "ссылке". И сидит такой начинающий программист и не врубается, почему же tuple, вроде бы не число и не строка, а всё равно передаётся по значению. И таких вот правил из разных разделов в динамических языках накапливается так много, что потом из-за банальной невнимательности появляются баги, которые можно было бы избежать ещё на этапе компиляции в других языках.