rinciabjelar18 мар в 05:15

Как я ускорил Python-скрипт в 42 раза, убрав один незаметный цикл

Средний

3 мин

Программирование * Python * Алгоритмы * Качество кода *

Кейс

Из песочницы

Комментарии 19

Z55 18 мар в 05:31

2. Код выглядит правильным

вернее, он правильный с точки зрения результата. Но опытному взгляду, подобная реализация сразу бросается в глаза.

Alex-Freeman 18 мар в 14:36

Даже не очень опытному должен бросаться в глаза. Это очевидная проблема исходного кода, даже после онлайн курсов такое должно резать глаз

ohrenet 18 мар в 05:33

Скрипт работал почти 9 минут,

А времени на все оптимизации потратили гораздо больше.

kAIST 18 мар в 05:50

Да, но если у тебя этот скрипт запускается периодически в каком нибудь celery и его выполнения ждут остальные задачи...

ohrenet 18 мар в 06:33

Если.
Даже в таких случаях, зачастую это бывает некритично чтобы лезть заморачиваться. А то и вовсе необходимость в самом скрипте отпадает через пару дней.

Перфекционизм обыкновенный, МКБ-11 MB28.C

Alex-Freeman 18 мар в 14:41

А потом удивляемся откуда столько говнокода

Скрытый текст

ohrenet 18 мар в 18:07

"Premature optimization is the root of all evil" is a famous maxim by Donald Knuth (1960s), advising developers to focus on clarity and correctness over micro-optimizations. It argues that spending time on performance improvements before identifying true bottlenecks wastes resources, increases complexity, and yields harder-to-maintain code.

Alex-Freeman 18 мар в 20:38

Если мы говорим о коде выше, то это высказывание не применимо, во первых это не микро оптимизация, если разница в 42 раза, во вторых она повышает читаемость и лаконичность. Ваши комментарии можно использовать как иллюстрацию эффекта Даннинга-Крюгера

ohrenet 19 мар в 17:05

если разница в 42 раза

Да хоть в 142 раза. Скрипт выполняется всего 9 минут. И возможно больше не будет выполнятся никогда. Либо посмотрев первичный результат, у автора появятся какие-то ещё идеи и вводные, которые вообще выкинут оптимизируемую строчку. Но всё это познаётся только с годами опыта, да.

tenzink 18 мар в 07:04

Что менее важно, такая оптимизация делается быстрее 9 минут. Важнее - научиться видеть подобные пессимизации на пустом месте. Так что автор молодец - это окупится десятки раз

ohrenet 18 мар в 07:47

Чисто в качестве образовательного процесса - согласен, сгодится.

А понимание "можно, но зачем" - оно уже потом, с опытом придёт.

koreec 18 мар в 05:41

Оптимизацию делал ИИ, он же и пост писал. Да?

ABATAPA 18 мар в 06:02

Отличный вопрос! Давайте разберём всё по порядку. Во-первых, ...
:)

censor2005 18 мар в 06:04

"Придумай неоптимальный код на Python, который медленно работает, и который можно легко ускорить за счёт оптимизации. Напиши статью по этой теме для Хабра"

vldmrmlkv 18 мар в 07:33

Это делал человек с помощью ИИ, что ещё забавнее т.к. улучшать код ещё есть куда, но этого не сделано. Можно же было просто закинуть статью в ллм и попросить улучшить, проверить на ошибки, etc.

vldmrmlkv 18 мар в 07:59

from collections import defaultdict

def count_actions(file_path):
    users = defaultdict(int)

    with open(file_path) as f:
        for line in f:
            user_id = line.split()[1]
            users[user_id] += 1

    return users

А если уникальных юзеров будут миллионы, то словарь users может занять много памяти.
А если строка не соответствует паттерну и user_id не будет нужным id, вместо id будет текст ошибки или пробелы или второго элемента вообще не будет, или это пустая строка? Ещё может быть проблема с кодировкой при чтении файла. И ещё если бы user_id был числом, то должно быть быстрее и словарь users будет занимать меньше места, т.е. нужно перед users[user_id] += 1 переводить user_id в int.

axion-1 18 мар в 12:38

Изначальная реализация не только медленная, но ещё и менее читабельна. Выглядит как написанная студентом ещё не освоившим словари.

SaX_KT 19 мар в 04:02

А если загрузить в pandas dataframe, быстрее не будет?

sunnyfox 19 мар в 07:30

Квадратичная сложность прямо бросается в глаза тем, кто хоть чуть-чуть щупал алгоритмы и структуры данных. И до профайлинга не дошло бы. Использовать Counter было бы ещё проще.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий