tbd Sep 10 2012 at 10:01

Неочевидная оптимизация по скорости при решении конкретной задачи на Python

2 min

9.8K

Python *

From sandbox

Comments 25

vaxXxa Sep 10 2012 at 10:31

А можно вопрос, зачем здесь ООП? Вы показали, что встроенный namedtuple работает лучше самодельного класса. А зачем тут вообще нужны классы?

tbd Sep 10 2012 at 10:52

Класс в общем то не нужен. Нужна возможность обратиться к колонке по имени.
value = getattr(rowObject, «ColumnName»)
логичным видится замапить результат query на class

В реальной задаче правила проверки лежали в базе в виде (упрощённо)
таблица | имя колонки | операция | значение

vaxXxa Sep 10 2012 at 10:58

Нет, я конечно понимаю, что с классами удобнее и нагляднее, но если уж говорить про оптимизацию, то лучше наверное здесь просто использовать словарь. И читаемо будет, и быстро. Хотя надо проверить)

tbd Sep 10 2012 at 11:59

быстрее как раз не получилось

def test4(self):
    return tuple(dict(zip(Columns, row)) for row in self.cursor.execute(self.query))

Результат:
Sample 1: 4.27413250617
Sample 2: 15.0353127761
Sample 3: 4.66455941441
Sample 4: 6.84044835724

vaxXxa Sep 10 2012 at 12:01

А вроде по цифрам — так получилось. :)

tbd Sep 10 2012 at 12:03

Внимательнее! 4) быстрее чем 2) но медленнее чем 3)

vittore Sep 10 2012 at 11:06

А зачем тут вообще нужен питон если проверки простейшие и напрашивается реализация непосредственно средствами sql?

tbd Sep 10 2012 at 11:17

Это было требование к задаче. Само собой решение на stored procedure предлагалось… Пришлось крутиться.

hamst Sep 10 2012 at 10:48

Python программисту оптимизация должна показаться слишком очевидной.

tbd Sep 10 2012 at 11:37

Фраза в заголовке " для не Python программиста" показалась лишней информацией. Кто разбирается в теме просмотрит и быстро пролистнёт дальше.

hamst Sep 10 2012 at 12:53

Следуя этой логике все статьи стоит начинать со слова «неочевидный», ты ничего не теряешь, просто будет больше тех, кто зайдет и пролистнет дальше.

soider Sep 10 2012 at 11:03

Со __slots__ не пробовали замерить?

hamst Sep 10 2012 at 11:43

Named tuple реализован с помощью них, смысла в замерах нет.

soider Sep 10 2012 at 11:56

Судя по выводу исходника сгенеренного класса, не совсем — кода там нагенерировано существенно больше чем просто

class Test(object):
__slots__ = ['field1','field2']

и работа с полями ведется через property, что тоже может повлиять на время создания инстансов

soider Sep 10 2012 at 12:05

Вобщем, потестил слегка — размер созданных классов получается одинаковый, размер объектов слегка разный.
pastebin.com/dfdaxfMe

spanasik Sep 10 2012 at 12:54

Интересно, почему размер объектов разный, и тем более интересно почему у класса меньше

Хотя, следуя логике — в named tuple кроме этих двух полей есть ещё и что-то, относящееся к самому named tuple, так что всё ОК.

qrazydraqon Sep 10 2012 at 11:13

На создание инстансов класса тратится > 10сек

setattr(self, "Col{0}".format(x), values[x + 1])

То есть всё, что предлагается — хранить имена столбцов в описании класса (как делает namedtuple), а не в экземпляре. Ну ок, и что здесь неочевидного?

tbd Sep 10 2012 at 11:50

Для НЕ python программиста очень даже неочевидно. Наверное зря я не указал это в тексте.

qrazydraqon Sep 10 2012 at 11:17

Кстати, внезапно всё на том же хабре по тэгу namedtuple: Именованные кортежи из выборок.

tbd Sep 10 2012 at 11:41

А по запросу python namedtuple не выдаёт эту статью.

leventov Sep 10 2012 at 18:13

Почему у вас времена Sample 1/2 в 1-м «подходе» и 2-м существенно отличаются?

tbd Sep 10 2012 at 19:52

писал в два подхода, возможно в фоне что то работало(тот же антивирус например)

MuLLtiQ Sep 10 2012 at 19:05

А кстати, интересно, насколько в этом случае будут производительны ORM-ки. Полагаю что результат будет на уровне Sample 2 и даже выше, поскольку этот тот же маппинг результатов на атрибуты объекта, но всё же интересно узнать насколько хуже.

tbd Sep 10 2012 at 22:06

на эту тему есть уже например тут
ради интереса сделал тест используя django

from django.db import models

def buildDjangoObject():
    class DjangoObject(models.Model):
        class Meta:
            app_label = ''
    DjangoObject.Id = models.IntegerField()
    for x in xrange(ColsCount):
        setattr(DjangoObject, "Col{0}".format(x), models.TextField())
    return DjangoObject

DjangoObject = buildDjangoObject()

def test5(self):
    return tuple(row for row in DjangoObject.objects.raw(self.query))

результаты:
Sample 1(tuple): 5.4720143202
Sample 2(RowWrapper): 19.0111270981
Sample 3(TupleClass): 5.80622400633
Sample 4(dict): 8.65782098053
Sample 5(django.model + raw()): 13.5116426081

обновлённый пример целиком тут

MuLLtiQ Sep 11 2012 at 06:24

Спасибо.