Lovesuper21 мая 2013 в 06:38

Советы Google по кодированию на языке Python. Часть первая: советы по программированию

13 мин

117K

Python * Программирование * Качество кода *

Recovery Mode

+96

Комментарии 58

skovorodkin 21 мая 2013 в 06:51

Используйте циклы вместо reduce.

Чем он их не устраивает? Если используются функции из operator или что-нибудь подобное, то код выглядит очень понятно и коротко, как и с map или filter.

Lovesuper 21 мая 2013 в 06:57

Ну, читал, что reduce не стоит использовать т.к. он слишком запутанно работает. И схема его работы не всегда является прозрачной, особенно при использовании лямбда-функций.

skovorodkin 21 мая 2013 в 07:01

При желании и генераторы списков можно писать трёхэтажные — потом в них чёрт ногу сломит. Аккуратный reduce — это красиво, коротко, ясно. Я за reduce :)

Lovesuper 21 мая 2013 в 07:06

Да и я по большому счету тоже:)

G0ran 21 мая 2013 в 08:47

Ключевое слово аккуратный, я тоже стараюсь использовать map, filter, reduce, zip аккуратно, и смотрится достаточно красиво (для меня по крайней мере). А как Вы, например, относитесь к строчке кода, в которой вместе используется reduce, zip, генератор списка и еще что-нибудь — такие участки кода порой встречаются. Мне они не всегда кажутся очевидными.

Gard 21 мая 2013 в 08:29

reduce целенаправленно выдавливают из языка. В 3 версии он уже выкинут в модуль functools. У меня сложилось впечатление, что Гвидо считает использование функциональных возможностей не «питонистическим» подходом.

equand 21 мая 2013 в 10:41

Гвидо же вроде отошел от разработки к консультированию?

G0ran 21 мая 2013 в 10:58

В одном из выпусков radiot говорили, что вроде как консультирует по вопросу: как правильно писать на Python в Dropbox.

Ataraxer 21 мая 2013 в 08:32

Эту идею продвигает и Гвидо ван Россум, потому что считает, что использование reduce'а в целом сложнее для восприятия чем использование цикла. Кроме того он несколько проигрывает по производительности, поэтому в третьей версии Python он был вынесен из стандартной библиотеки в модуль functools.

Почитать про это подробнее можно в этом посте.

Amper 21 мая 2013 в 09:29

Кроме того он несколько проигрывает по производительности

from time import time
from functools import reduce
from operator import add

lst = range(1,10000000)
r1, r2 = 0, 0

t1 = time()
r1 = reduce(add, lst)
t1 = time() - t1

t2 = time()
for i in lst: 
    r2 = add(i, r2)
t2 = time() - t2 

print(t1)
print(t2)

>>> 1.0490000248
>>> 2.14700007439

anjensan 21 мая 2013 в 09:49

Это если вы используете модуль operator. Если нужно создавать свою лямбду, то вариант с циклом быстрее.

Amper 21 мая 2013 в 10:00

Вы имеете ввиду такой вариант:

from time import time
from functools import reduce

lst = xrange(1,10000000)
r1, r2 = 0, 0

t1 = time()
r1 = reduce(lambda x, y: x + y, lst)
t1 = time() - t1

t2 = time()
for i in lst: 
	r2 = i + r2
t2 = time() - t2 

print(t1)
print(t2)

Но такой вариант очень часто не применим, т.к. нужно использовать уже готовую функцию, а не писать лямбду (или выносить логику в цикл). К тому же, получается, не сильно быстрее:

>qqq.py
1.83299994469
1.74499988556

>qqq.py
1.79699993134
1.79299998283

>qqq.py
1.75500011444
1.81399989128

Но в целом я согласен, код с reduce тяжелее читается.

anjensan 21 мая 2013 в 10:05

Да, такой вариант. Ниже ответил habrahabr.ru/post/179271/#comment_6264423
Вообще reduce замечательная вещь, но только в ФП языках. А Python, как ни крути, таковым не является.

ffriend 21 мая 2013 в 14:27

Но в целом я согласен, код с reduce тяжелее читается

Reduce — это, в первую очередь, идея: вы берёте список и аккумулируете его элементы, получая на выходе одно значение.

For loop — это тоже идея, но другая. For позволяет итерировать по списку, т.е. последовательно получать доступ к каждому элементу.

For можно заменить на reduce, равно как и reduce на for, но по сути это будет реализацией одной фичи через другую — концептуально они останутся разными и предназначенными для разных задач. Сравниете два сценария:

1. В 3Б классе 25 учеников, нужно вывести на экран их имена и рост в сантиметрах.
2. В 3Б классе 25 учеников, нужно найти самого высокого из них.

В первом случае напрашивается цикл:

for p in pupils: 
    print p.name, p.height

Давайте попробуем прочитать «вслух» этот кусок кода: «для каждого ученика в списке: распечатать его имя и рост». Как раз то, что мы хотели сделать, практически дословное соответсвие условию. Т.е. код читабелен, а readability, как мы помним, counts.

Второй сценарий тоже можно записать в виде цикла:

highest_pupil = None 
max_height = 0
for p in pupils: 
    if p.height > max_height: 
        highest_pupil = p
        max_height = p.height
return highest_pupil

Но давайте и его попробуем прочитать: «присвоить самому высокому ученику значение None; установить максимальную высоту в 0; для каждого ученика в списке: если его высота больше максимальной: присвоить переменной самого выского ученика значение текущего ученика, присвоить максимальной высоте значение высоты текущего ученика». Чёрт, получилось как-то побольше и посложнее, чем было в условии. Но главное, что это описание не отражает идею, а лишь последовательность действий, которые нужно совершить.

Теперь попробуем реализовать второй сценарий через reduce:

reduce(lambda p1, p2: p1 if p1.height > p2.height else p2, pupils)

Или, если лямбды воспринимаются плохо, то так:

def higher_pupil(p1, p2): 
    if p1.height > p2:
        return p1
    else:
        return p2

reduce(higher_pupil, pupils)

Что можно прочитать как: «Свернуть список учеников, выбирая между двумя из них того, у которого рост выше». Не сказать, что это дословное выражение условия, но уже гораздо, гораздо ближе. И это далеко не предел читабельности. Вот ещё несколько примеров:

1. Имея список инвесторов, найти общую сумму полученных инвестиций:

reduce(lambda s, inv: s + inv.investment, investors)

«Аккумулировать (в возвращаемую переменную s) инвестиции от каждого инвестора».

2. Объединить (т.е., опять же, аккумулировать) строки (или списки):

reduce(lambda result, s: result + s, strings)

и т.д. Другое дело, что ни питоновские лямбды, ни стандартные коллекции, ни общая философия не могут похвастаться хорошей совместимостью с reduce-ом. Возьмём, например, простую задачу подсчёта слов в списке. С точки зрения reduce-а, задача элементарна: нужно всего лишь аккумулировать слова в списке в словарь, добавляя или инкрементируя счётчик для каждого слова. Что-то вроде:

reduce(add_or_inc, words, {})

Проблема возникает именно в этой функции add_or_inc. Однострочные лямбды не позволяют толком использовать if-ы, а defaultdict, почти идеально подходящий для этого случая, работает исключительно императивно. В итоге приходится делать add_or_inc отдельной функцией, что значительно увеличивает размер кода. С другой стороны, for loop, хотя и не выражает идею, но позволяет решить задачу в 3 строчки:

d = defaultdict(int)
for w in words: 
    d[w] += 1

Так что я бы сказал, что reduce малочитабелен не сам по себе, а именно в контексте существующей инфраструктуры языка. В других языках или в контексте отдельных библиотек он может помогать писать очень и очень читабельный код.

newpavlov 21 мая 2013 в 21:18

Думаю речь о нечитабельности reduce шла именно в контексте питона, для всех упомянутых вами задач есть решения более «питонистские».

Имея список инвесторов, найти общую сумму полученных инвестиций

sum([inv.investment for inv in investors])

Объединить (т.е., опять же, аккумулировать) строки (или списки)

''.join(strings)

В 3Б классе 25 учеников, нужно найти самого высокого из них.

Менее покладистая задача, если хочется написать красиво выполняется лишняя работа:

pupils.sort(key=lambda pupil: pupil.height)
pupils[0]

Либо можно выводить максимальный рост, при необходимости находя такого ученика (хотя конечно получается два прохода вместо одного):

max_height = max([pupil.height for pupil in pupils])
highest_pupil = [for pupil in pupils if pupil.height==max_height][0]

И кстати, ваш цикл можно сократить на две строчки получив «читабельное» выражение:

highest_pupil = pupils[0]
for pupil in pupils: 
    if pupil.height > highest_pupil.height: 
        highest_pupil = pupil
return highest_pupil

Т.е. «берём первого попавшегося и сравниваем по высоте с остальными».

Иначе говоря, сам язык и его инструментарий не очень располагает к reduce'ам и другим функциональным приёмам, посему мне кажется вполне логично что их убирают в закрома библиотек.

ffriend 21 мая 2013 в 22:28

Я ещё раз повторюсь: в reduce-е важна идея — взять все элементы и собрать по ним некую «статистику». Это как с for (сишным) и foreach — любой foreach можно элементарно развернуть в for, но если вам нужно обработать каждый элемент списка, то вы используете foreach. Так вы явно декларируете своё намерение, тем самым повышая читабельность.

Что касается примеров, то попробуйте чуть-чуть усложнить задачу и более «питоновские» решения сломаются. Например, что делать, если нам нужна не сумма инвестиций, а имя самого активного инвестора? Встроенные функции типа sum уже на сработают. Или вернуть не просто сумму, а объект InvestmentStats, который собирает сразу несколько статистик (учтите, что список инвесторов большой и читается с диска, так что делать несколько проходов — не comme il faut). Или нужно объединить списки/словари, а не строки. Или объединить список векторов в матрицу. Я могу приводить примеры бесконечно.

Что касается самого высокого ученика, то ваше решение некорректно: если список учеников пуст, то `highest_pupil = pupils[0]` выдаст ошибку. А значит надо проверять два кейса — список пусть или не пуст, а значит код ещё больше расширяется и становится ещё менее понятным (эй, мне нужно было просто найти самого высокого ученика! какие ещё дополнительные условия?). reduce прекрасно обрабатывает и этот случай (правда, в мой код нужно добавить начальное значение, но кейс так или иначе покрыт).

Ну и да, проходить по списку несколько раз или, тем более, сортировать его только для того, чтобы найти самый большой элемент — это ну совсем-совсем нехорошо.

Насчёт того, что стандартный инструментарий не располагает к использованию reduce-а — согласен, примерно это я и писал в предыдущем комментарии. Другой вопрос, стоило ли выкидывать reduce или следовало ещё раз подумать над инструментарием. Всё-таки reduce описывает довольно распространённый паттерн, а Гвидо вместо него предлагает ввести набор частных решений, таких как sum(), product(), any(), all() и другие.

Flammar 22 мая 2013 в 10:33

Для меня лично, основное преимущество foreach относительно for — отсутствие необходимости в изменяемой «вручную» индексной переменной: меньше «менеджимых» програмимстом операторов — меньше потенциальных мест для ошибки.

Что касается самого высокого ученика, то ваше решение некорректно: если список учеников пуст, то `highest_pupil =pupils[0]` выдаст ошибку.

Тогда корректность самой задачи сомнительна. SQL, насколько я помню, max() в этом случае выдаст null — когда впервые увидел, был удивлён. Корректность применения фрагмента

max_height = 0

перед циклом в этом случае тоже дискуссионна.

Flammar 22 мая 2013 в 10:53

«Ручное» аккумулирование и «ручное» задание первоначального значения — тоже потенциальные места для ошибки, если совсем строго подходить.

ffriend 22 мая 2013 в 12:47

Для меня лично, основное преимущество foreach относительно for — отсутствие необходимости в изменяемой «вручную» индексной переменной: меньше «менеджимых» програмимстом операторов — меньше потенциальных мест для ошибки.

Дело не только в ошибках — они происходят на этапе написания кода. Дело в понимании кода на этапе перечитывания, и Python делает на этом очень большой упор. Из PEP8:

One of Guido's key insights is that code is read much more often than it is written. The guidelines provided here are intended to improve the readability of code and make it consistent across the wide spectrum of Python code.

Тогда корректность самой задачи сомнительна. SQL, насколько я помню, max() в этом случае выдаст null — когда впервые увидел, был удивлён.

А в чём сомнительность задачи? Вы сомневаетесь, следует ли обрабатывать списки нулевой длины? А что вы тогда предлагаете делать с такими списками, на примере того же SQL — что, по вашему мнению, должна возвращать функция max, если селект вернул пустой result set?

Flammar 22 мая 2013 в 14:23

Вы сомневаетесь, следует ли обрабатывать списки нулевой длины?

Уже до и за меня решено, что придётся это как-то делать. Сомнительна не задача, а корректность её постановки: что делать в случае пустого списка, не ясно.

А что вы тогда предлагаете делать с такими списками, на примере того же SQL — что, по вашему мнению, должна возвращать функция max, если селект вернул пустой result set?

Тогда я ожидал ноль. Но потом понял, что null — корректнее: положительность, в общем случае, никем не гарантирована. Ну тут пути три — 1) вернуть ноль (имеет смысл, если тип данных явно задан как положительный) 2) вернуть null или другое спец.значение 3) кинуть исключение. Выбор за разработчиком исходя из уточнённого смысла задачи.

ffriend 22 мая 2013 в 15:24

Пардон, но я вообще не понял, что вы хотели сказать. Вы говорите, что корректность постановки задачи про максимальный элемент в (возможно пустом) списке сомнительна, но тут же приводите пример из SQL, где она сформулирована именно так. Так вас устраивает постановка задачи и её решение в SQL или нет? Если да, то в чём тогда проблема с моей формулировкой? Если нет, то какую вы предлагаете альтернативу, на примере того же SQL?

Flammar 22 мая 2013 в 15:49

Сомнительна в случае, если список может быть пустой, и не указано, что в этом случае если список пустой. В исходном варианте в вышележащих комментариях было «В 3Б классе 25 учеников», так что явно указано, что можно не закладываться на возможность пустого списка.

ffriend 22 мая 2013 в 17:25

Вы опять противоречите себе: сначала вы говорите, что до и за вас решено, что пустой список тоже придётся как-то обрабатывать, а теперь ссылаетесь на конкретный пример про 25 (что явно не 0) учеников. Давайте так: если вам действительно интересна эта тема, то скажите, что конкретно в моих примерах вас не устраивает и как бы вы их реализовали; иначе я считаю это троллингом и выхожу из дискуссии.

Flammar 23 мая 2013 в 15:43

Всё устраивает, это были мелкие перфекционистские придирки из серии «а вот тут, как видно, разработчик решил за проектировщика», тут вроде дискуссия не о проектировании ПО, так что тоже не вижу смысла дальше углубляться ;-)

anjensan 21 мая 2013 в 10:02

Дабы не быть голословным (python 3.3)

Скрытый текст

from functools import reduce
from timeit import timeit
import operator

def t0():
     return sum(lst)

def t1():
     return reduce(operator.add, lst)
     
def t2():
     a = 0
     for b in lst:
         a += b
     return b
     
 def t3():
     return reduce(lambda x, y: x + y, lst)

timeit(t0, number=100)
# 0.7890550769952824

timeit(t1, number=100)
# 3.882541635997768

timeit(t2, number=100)
# 3.9364478749994305

timeit(t3, number=100)
# 7.679830512999615

В общем быстрее тот код, где меньше вызовов pyhon-функций. Reduce+operator хорошо, свои лямбды — не очень.

anjensan 21 мая 2013 в 10:07

Упс, в коде пропущено lst = list(range(1000000)), запускал в интерактивном интерпретаторе, и не все скопировал.

Neutral 21 мая 2013 в 08:38

Ошибок и опечаток в тексте многовато.

Lovesuper 21 мая 2013 в 08:51

Вы уж приведите примеры, пожалуйста. Можно в личку. Я обязательно всё поправлю!

Neutral 21 мая 2013 в 08:56

Если бы их было две-три — я бы так и поступил, но вычитывать за Вас Вашу же статью, извините, не стану.

Lovesuper 21 мая 2013 в 08:59

Ну на нет и суда нет. Я еще раз по ней пройдусь.

G0ran 21 мая 2013 в 08:40

Неплохая подборка, спасибо. Хотел бы высказаться по поводу использования map() filter(). Слышал в некоторых источниках, что не следует их мешать с циклом for. Т.е. например, если есть метод/функция и в нём используется цикл for, то если существует еще какая-то логика в данном методе, то её тоже следует писать с циклом for, а не использовать map, который вполне может заменить использование цикла. Данные идеи исключельно для некоторой цельности и выдерживания кода некоторой единой нотации. Соответственно и обратное замечание, что если уж используется map в логике метода/функции, то и остальную логику следует писать с использованием map, filter и т.д… Весьма спорно, но всё же. Согласны?

Lovesuper 21 мая 2013 в 10:59

Согласен. Но я вот стою на том, что функциональности нужно использовать там, где им пристало быть исконно. Например, отсев каких-то значений в списке, преобразование каждого элемента в списке и т.д. А уж for хорошо испльзовать для сложной логики, тем более, что функциональщина в Python быстрее отрабатывает.

ffriend 21 мая 2013 в 14:34

map() и filter() в Python можно полностью заменить на list comprehension, и это будет смотреться вполне прилично — в обоих случаях используется for, но в list comprehension ещё дополнительно показывается, что на выходе должен получится список.

Flammar 22 мая 2013 в 15:52

В отличие от LISP, в Python есть синтаксис;-) (в смысле, кроме деревьев), в том числе и специальные идиомы языка, являющиеся аналогами этих функций.

G0ran 23 мая 2013 в 06:22

Я ведь немного другое имел ввиду. Я не об аналогах, а о применении рядом в коде (звучит нехорошо, пусть например в одном методе) функциональщины и циклов for.

lebowski 21 мая 2013 в 10:05

Картинка по запросу «кодирование»

Lovesuper 23 мая 2013 в 06:32

Да, в ВК на эту тему меня уже троллили:)

lightsgoout 21 мая 2013 в 11:17

> Используйте PyChecker для проверки своего кода.
PyChecker компилирует и выполняет код, на мой взгляд лучше pylint использовать.

G0ran 21 мая 2013 в 11:23

В PyCharm последней версии идёт проверка на лету на pep8, очень так удобно.

icoz 21 мая 2013 в 20:26

sublime text 2 тоже проверяет на PEP8 с модулем «Python PEP8 Autoformat».

Bytamine 21 мая 2013 в 13:24

pylint разве не компилирует?

lightsgoout 21 мая 2013 в 13:34

Нет, он использует AST для анализа.

Dair_Targ 21 мая 2013 в 22:22

Если я правильно помню, то по-умолчанию (в стандартных проверках) даже АСД не использует — только токенайзер.

theoden 22 мая 2013 в 09:18

На текущем проекте используем flake8. Он тоже опрятности способствует, особенно будучи вписанным в предкоммитном хуке.

FINTER 21 мая 2013 в 12:09

В опросе не хватает пункта: «Не согласен с положениями GSG частично или полностью»

Lovesuper 21 мая 2013 в 12:15

Ну вопрос состоял не в том, что пользуетесь ли вы гугловским стайлгайдом или нет, а вообще про стайлгайды:)

datacompboy 21 мая 2013 в 13:46

def ToFloat(Arg, Len=4):
return "".join([To2Hex(ord(X)) for X in (struct.pack(">f", Arg)[0:Len])][::-1])

гы гы гы. pychecker на этом упал

Lovesuper 21 мая 2013 в 13:55

Для Вас будет вторая часть статьи скоро!

Lol4t0 21 мая 2013 в 16:22

  result = []
  for x in range(10):
     for y in range(5):
         if x * y > 10:
             result.append((x, y))

result = [(x, y) for x in range(10) for y in range(5) if x * y > 10]

По-моему, второй вариант читается на порядок проще и быстрее. А когда я встречаю 4хэтажную конструкцию, то я сразу хочу ее развидеть.

Lovesuper 21 мая 2013 в 16:30

Для такого линейного случая — прекрасная альтернатива! Но если логика сложнее, то лучше воздержаться от инлайновых вычислений.

Lol4t0 21 мая 2013 в 16:35

Просто первое выражение не было записано в примеры хорошего, а второе — плохого кода. В итоге, мне все меньше наравится Google Code Guides.

Lovesuper 21 мая 2013 в 16:38

В итоге нам не судить:) Вот пойдете работать в гугл — придется жить по их законам. А пока это только взгляд со стороны на правила гиганта индустрии.

icoz 21 мая 2013 в 20:27

Статья — гуд. Реквестирую PDF.

Lovesuper 22 мая 2013 в 05:19

Спасибо, как только выйдет вторая часть перевода. Я сразу же закатаю всё в PDF и добавлю ссылку.

eiyawii 23 мая 2013 в 19:59

будем ждать, материал действительно хороший

Lovesuper 23 мая 2013 в 20:02

недолго осталось) Может пара-тройка дней. Я еще этот материал выпиливаю, чтобы ошибок не было. Главное — качество.

timestamp 22 мая 2013 в 01:35

Было интересно, спасибо за перевод. Жду продолжения!

AlekSandrDr 5 авг 2019 в 05:08

6 лет прошло в оригинальной статье есть изменения

Зарегистрируйтесь на Хабре, чтобы оставить комментарий