el777 Nov 3 2008 at 14:08

Интервально-ассоциативный массив

2 min

4.9K

Python *

+89

Comments 80

UFO landed and left these words here

el777 Nov 3 2008 at 14:23

Всегда пожалуйста. На следующей неделе хочу еще одну мелкую заметку про питон опубликовать.

UFO landed and left these words here

Slach Nov 3 2008 at 14:42

хорошая статья

agl666 Nov 3 2008 at 15:01

не имею дело непосредственно с Python, но идея отличная :) плюс

1st1 Nov 3 2008 at 15:26

www.python.org/dev/peps/pep-0008/

el777 Nov 3 2008 at 15:55

Полезная ссылка :)
Да уж код вышел весьма некрасивый после Source Code Highlighter-а. Жаль, что он не поддерживает питон корректно. Все остальные подсвечивалки, которые я нашел, используют CSS, который, как понимаю, хабрапарсер не пропустит по соображениям безопасности. Можете порекомендовать хороший онлайн-хайлайтер с поддержкой python на чистом html?

av0000 Nov 3 2008 at 16:20

Именно онлайн?
Хотя и их есть :) — тот же pygments, который используется на приведённой ссылке с сорцами. Где-то у них на сайте есть ссылка на онлайн-демо с возможностью получить html или rtf.

el777 Nov 3 2008 at 17:07

Пигменты смотрел, но там опять на стилях.

av0000 Nov 5 2008 at 06:36

а если так:

pygmentize.py -O style=native,encoding=utf-8,full=true,outencoding=cp1251,noclasses=true -o manage.py.html manage.py

… попробовал. стили и из тэгов вырезаются…

тогда — после этого простенький regexp натравить для замены стиля из span на <font folor="">, <i>, <b>?

el777 Nov 5 2008 at 10:51

Ну конечно все это можно, но точно так же можно раскрасить в ворде :)
Поэтому хочется какой-то максимально простой инструмент. Чтобы закинул и получил результат.

mocksoul Nov 4 2008 at 10:25

нихрена се «полезная»…

«пеп-восемь» наизусть вообще каждый разработчик должен знать =).

el777 Nov 4 2008 at 10:33

:)
Оформлено-то оно нормально, проблема в другом — взрывоопасная сместь Source Code Highliter + HabraParser взорвали код, особенно 8-ю строку.
Поэтому я убираю отсюда код и переношу все на гугл:
code.google.com/p/intervalmap/source/browse/trunk/intervalmap.py

mocksoul Nov 4 2008 at 12:01

не…

там строки есть по 100+ символов. в тесте так вообще больше 200 =). Название всего класса спорное. Assert лучше не использовать — ведь при -OO у вас все перестанет работать =) Там где пользовательские каяки проверяются — эксепшн простой нужен. Докстринги не по пеп-8. Pylint вообще переплевался весь)

До кучи — на 2.4 не работает, а об этом ни слова нет. Ко всему прочему — это изза «else» в try — только и всего.

Паблик вещи надо ж очень хорошо прилизывать…

el777 Nov 4 2008 at 13:54

А какое название предложили бы вы? Если будет лучше, интуитивнее, то давайте переимунуем.
Мне assert-ы в тексте тоже не очень понравились, надо будет отрефакторить.

На 2.4 не тестировал, работаю с 2.5, но даже странно, что не работает — т.к. основная часть кода была написана 2 года назад.

mocksoul Nov 4 2008 at 14:42

название? класс же — ТакойДолженБыть =).

el777 Nov 4 2008 at 16:10

Если бы вы смогли подключиться, то было бы просто замечательно! :)

mocksoul Nov 4 2008 at 19:54

кууда?

el777 Nov 4 2008 at 19:58

К разработке.
МОжно непосредственно — сделаем svn-доступ на гуглокод, либо идейно.

n1tra Nov 3 2008 at 15:40

Интересно, большое спасибо!

n1tra Nov 5 2008 at 13:41

Дожились… дорогой минусующий, ты бы хоть не позорился :)

el777 Nov 5 2008 at 15:13

пардон?
не очень вас понял

oowl Nov 3 2008 at 15:43

Спасибо, только что за взрыв на 8-й строке?

el777 Nov 3 2008 at 16:13

Visual Code Highligher + HabraParser :)
Можно посмотреть в нормальном виде здесь: paste.pocoo.org/show/90012/

snnwolf Nov 3 2008 at 15:53

неплохо бы комменты выравнять, а то проблемы при выполнении тестов

el777 Nov 3 2008 at 16:14

paste.pocoo.org/show/90012/

UFO landed and left these words here

el777 Nov 3 2008 at 16:42

Как вы заметили, я не претендую на открытие Америки :)
Я описал принцип использования интервального хеша. Пример добавлен для большей наглядности — на самом деле я решал совсем другую задачу :)
Здесь реализованы базовые вещи, и само собой, всегда есть, что можно добавить.

Реализовать поиск по фамилии не сложно: нужно сделать поиск по массиву _items и взять соответствующее значение из _bounds. С русскими буквами работало бы без проблем:

>>> ['аб', 'вг'].index('вг')
1

Поиск без учета регистра: самое простое — последовательное сравнение с .upper(). Конечно, для больших списков это неэффективно, но это уже другая задача.

UFO landed and left these words here

el777 Nov 3 2008 at 17:01

А в чем проблема? Если с самого начала использовать юникод, тогда все обработается корректно:

>>> print u'Вася Пупкин'.upper()
ВАСЯ ПУПКИН

$ python -V
Python 2.5.2

glader Nov 3 2008 at 17:08

А что там не так с русскими буквами?

Python 2.5.2
>>> print u«час».upper()
ЧАС

UFO landed and left these words here

glader Nov 3 2008 at 20:10

print unicode(a).upper()

Так что, все таки работает «upper с русскими буквами и utf-8»? :)

UFO landed and left these words here

glader Nov 3 2008 at 20:28

Потерпи еще немножко :)

P.S. Кстати, расскажи, что еще ты ждешь от 3-го питона, кроме кодировок?

UFO landed and left these words here

mocksoul Nov 4 2008 at 10:28

питон должен быть горд, что в арсенале его разработчиков присутсвуют дети +))

el777 Nov 3 2008 at 20:32

Что-то из него я уже использую :)
Например, модуль processing для управления процессами как потоками. С 3-ей версии он будет числе базовых.

el777 Nov 3 2008 at 20:23

Вопрос: что возвращает raw_input в такой ситуации?

>>> a=raw_input()
абв
>>> a
'\xd0\xb0\xd0\xb1\xd0\xb2'

a — это не строка, это какое-то фуфло напоминающее utf-8. Вернее, по последовательности байтов это и есть «абв» в utf-8, но питон-то об этом не знает. Еще больше с толку сбивает, что на печати вы видите то, что ожидаете:

>>> print a
абв

Но только питон не знает, что это строка в utf-8. Поэтому он ее обрабатывает некорректно. Это то же самое, что пытаться вывести int как последовательность байтов — выйдет не совсем то, что ожидалось.
Поэтому эту строку нужно сконвертировать в unicode:

>>> a8 = unicode(a, 'utf-8')
>>> a8
u'\u0430\u0431\u0432'

Можете проверить: с точки зрения байтов это одно и тоже, только теперь питон правильно воспринимает эту строку.

>>> print a8.upper()
АБВ
>>> print a.upper()
абв

UFO landed and left these words here

el777 Nov 3 2008 at 20:40

Я ждал этот вопрос :)
На самом деле в консоли, просто чтобы не грузить и не отвлекать людей на несущественные детали, я подправил вывод.

Если нужно чтобы в консоли строки не экранировались, можно переопределить представление строки:

>>> class Str(str):
...   def __repr__(self):
...     return "'" + self +  "'" 
...
>>>
>>> s=Str("фбв")
>>> s
'фбв'

Впрочем это довольно коряво и кроме как «пощупать» в консоли лучше нигде не использовать.

UFO landed and left these words here

el777 Nov 3 2008 at 21:56

Здесь самое главное — внимательно проследить путь объектов, с которыми вы имеете дело. Нужно убедиться, что везде используются unicode-объекты, а не строки с псевдо-unicode содержимым, про которые я писал чуть выше. Если их просто печатать, но их легко спутать по содержимому. Используйте проверку типа вместе с содержимым:

>>> type(u'абв')
<type 'unicode'>
>>> type('абв')
<type 'str'>

Давайте рассмотрим «чистый» пример.

>>> import re >>> reg = re.compile(u'АБВ') >>> print reg.match(u'АБВ') <_sre.SRE_Match object at 0xb7df0218> >>> print reg.match(u'абв') None # вроде бы работает, но на самом деле - нет. # получается примерно та же проблема как с цепочкой байт >>> reg = re.compile(u'АБВ', re.IGNORECASE) >>> print reg.match(u'АБВ') <_sre.SRE_Match object at 0xb7df01e0> >>> print reg.match(u'абв') None # Дело в том, что нужно везде указать, что вы используете unicode-объекты: >>> reg = re.compile(u'АБВ', re.UNICODE | re.IGNORECASE) >>> print reg.match(u'абв') <_sre.SRE_Match object at 0xb7df0250> >>> print reg.match(u'АБВ') <_sre.SRE_Match object at 0xb7df0250> * This source code was highlighted with Source Code Highlighter.

UFO landed and left these words here

el777 Nov 4 2008 at 09:38

UFO landed and left these words here

allter Nov 4 2008 at 11:26

А откуда python узнает, что в переменной a — юникод строка? Или, может, в культуре запускающего программу нет понятия букв в верхнем регистре — он использует только нижний регистр, или, наоборот только ВЕРХНИЙ? разве в питоне нет возможности обрабатывать вводимые строки в соответствии с явно прописанной локалью пользователя или программиста (что-то типа setlocale)?

К примеру, несмотря на юникод, в какой-то из культур (то ли шведской, то ли норвежской) принятый порядок лексикографического сравнения латинских букв с диакритическими знаками отличается от общепринятого в остальных странах Европы и попытка лексикографической сортировки «по умолчанию» у таких пользователей пройдёт не так, как они хотят.

Интернационализация — слишком сложная вещь, что бы её можно было решить заменой литералов вида u'юникод' на 'юникод'…

el777 Nov 4 2008 at 11:47

> А откуда python узнает, что в переменной a — юникод строка?
Вы ему об этом сообщите, создав именно unicode объект, а не обычную строку str.
> Интернационализация — слишком сложная вещь, что бы её можно было решить заменой литералов вида u'юникод' на 'юникод'…
Никто не спорит. Только в комментариях я говорил не про локали, а про корректную работу с юникодом.
А поддержка локалей, это отдельная тема: www.python.org/doc/2.5.2/lib/module-locale.html

allter Nov 4 2008 at 14:36

Собственно, я и сообщал автору исходника, что комп не знает, что в raw_input вводится юникод. Пример, как надо работать с вводом (хотя там сложнее немного):

x@y:~$ echo $LANG
ru_RU.UTF-8
x@y:~$ python
Python 2.5.2 (r252:60911, May 7 2008, 15:19:09)
>>> print raw_input( 'превед ' ).upper()
превед медвед
медвед
# ^-- python не телепат
>>> import locale
>>> print raw_input( 'превед ' ).decode(locale.getdefaultlocale()[1]).upper()
превед медвед
МЕДВЕД
# ^-- как надо было

el777 Nov 4 2008 at 16:07

Ну да, строку байт надо превратить в юникодную строчку, тогда все заработает.
С другой стороны, хорошо бы чтобы это делалось автоматом после ввода. Тем более все данные есть.
Пусть будет метод advanced_raw_input, который все и обработает. Я так понимаю, примерно этого хочет товарищ.

allter Nov 4 2008 at 17:05

А если на системе кривая локаль, а приложение должно работать?.. Я, если честно, вышеприведённый мной пример сначала попробовал на cygwin — там ничего не заработало, т.к. там криво реализованы POSIX-локали. В Перле автоматический ввод/вывод в юникоде реализуется с помощью переменной окружения PERL_UNICODE, но это тоже не универсально, т.к. там много пограничных случаев. В частности, только автор может решить в какой кодировке ему работать с нестандартными потоками ввода/вывода (они ведь могут вообще быть бинарными).

el777 Nov 4 2008 at 17:22

> В частности, только автор может решить в какой кодировке ему работать с нестандартными потоками ввода/вывода (они ведь могут вообще быть бинарными).
Я считаю, что это в большей степени зависит от самих потоков, чем от автора программы.
А вот ввод и вывод через стандартные потоки (которые даже называются stdin, stdout, stderr) должен быть максимально стандартным на всех платформах. Собственно ради этого и придуман POSIX.
Если в системе локаль кривая, то надо брать админа за гопy и заставлять настраивать. Увы, пока такое встречается, но, надеюсь, что скоро уйдет в прошлое.

allter Nov 4 2008 at 17:41

Через потоки POSIX передаются не только текстовые, но и бинарные данные. Так что я согласен с доводом максимальной стандартности, но при этом надо чётко отрецензировать большое количество библиотек, многие из которых, особенно на win32 уже не поддерживаются и даже не имеют исходников. Это — малореально…

Ибо тогда, к примеру, возникает вопрос: а что делать по умолчанию с потоками, где встречаются utf-суррогаты и отсутствующие символы (например, дуализм unicode 0x0 и java 0x0). Это нетривиально, поэтому в Перле в конце концов (5.8.x) остановились на варианте максимальной совместимости со старым кодом (не придумывать ничего за программиста). Вставить же в начале программы прагмы (слои) потоков (PerlIO layers) — способен программист любого уровня (но с этим постоянные проблемы, т.к. люди просто не понимают разницу между семантикой данных и сериализацией этих данных).

P.S. Прежде чем делать стандартизованный ввод/вывод, надо хотя бы от последнего американского программиста добиться замены char * на unsigned char*, а ещё лучше — на безопасные unicode-контейнеры.

P.P.S. проверил на Asus wl700ge (optware) — там raw_input вообще не запрашивает ввод. ;-) А вы говорите, админа… Понятно, что в linux, freebsd (и macosx) всё нормально с локалями, но этими системами хосты не ограничиваются. Поэтому о стандартизации ввода/вывода можно будет говорить не ранее, как отрапортуют об успешном решении «проблемы 2038K» :)

el777 Nov 4 2008 at 19:05

Да, есть такая проблема: очень много старого кода написано из рассчета на ascii, latin-1 или даже на 7-bit кодировку.
Поэтому пока не произойдет перенос всего на юникод, будут проблемы «переходного возраста». Поэтому в питоне сейчас есть два типа строк — 8-битные и юникодные. Так же есть два типа классов: старые и новые. Представляю, сколько проблем совместимости пришлось решить ребятам, чтобы хотя бы это работало нормально.
Что делать с конкретными потоками — трудно сказать, видимо придется каждый раз делать что-то привязанное к задаче.

Какая система на асустике? И какой питон? Может он вообще встроенный?

allter Nov 4 2008 at 19:14

Верно. Я в связи с этим избегаю вообще использовать понятия строк таких-то, строк сяких-то. Есть два типа объекта: вектор/массив байтов и вектор символов (собственно, строка). Они просто имеют похожий интерфейс.

Кстати, проблем не так много, если рассматривать данные сущности, как полиморфные классы с похожим интерфейсом.

Asus — Asus 1.0.7.8-kc + optware oleg/cross

el777 Nov 4 2008 at 19:18

Я стараюсь все делать в юникоде. Хотя с выводом этого добра на консоль в свое время намучался.

Интерфейс общий, а внутри различия могут быть очень серьезные.

На базе чего эта сделана эта система — linux?

allter Nov 4 2008 at 19:35

Главное не ставить обработку юникода в библиотеки (кроме application-specific модулей).

Различия непринципиальны, если помнить всегда, что на выходе любых методов получается всегда такой же объект. А вот в случае операторов (во всяком случае, в перле), это не так. В перле обычно, в результате оператора, с одной из сторон которого стоит символьные строки, получаются символьные строки с неявным преобразованием байтовых в символьные.

$ uname -a
Linux WL700gE 2.4.20 #44 Sat Jan 26 20:07:26 EST 2008 mips unknown

Плюс в стандартной прошивке: uClibc, busybox. Плюс optware-порты под эту платформу. В общем, кривизна на кривизне, если говорить про архитектуру — содержимое / менять очень геморройно.

el777 Nov 4 2008 at 19:53

Либо везде проверять тип, либо ждать выхода 3000.
на мой взгляд работать с последовательностью байт без вникания что это такое, не есть гуд. Если результат и получится правильный, то только случайно. Вот примерно как с регулярными выражениями выше.

Jekel Nov 3 2008 at 17:56

ну и для кучи:
Python 2.6
>>> print u«час».upper()
ЧАС

el777 Nov 3 2008 at 18:45

У меня самый большой вопрос сейчас вызывает копирование объектов.
Как быть уверенным, что при любом содержании хеша, объект будет скопирован корректно?
Использовать deepcopy? Это вроде как из пушки по воробьям. Можете что-нибудь порекомендовать?

DarkPhoenix Nov 3 2008 at 17:33

Это очень круто. Всё больше и больше скатываюсь в Питон…

el777 Nov 3 2008 at 17:45

Да, Питон это уникальное сочетание мощи, красоты и удобства работы.
Так что не согласен насчет «скатываюсь» — скорее «поднимаюсь» :~)

DarkPhoenix Nov 5 2008 at 04:34

Ну, это как скатываюсь в Темную Сторону Силы :)

Temp1ar Nov 3 2008 at 18:50

Интересно и красиво выглядит, решая на PHP подобную задачу заставил бы базу делать эти операции.

el777 Nov 3 2008 at 19:05

Можно и с базой. Мое текущее решение задачи активно использует базу, но в моей ситуации это не эффективно: объем хранимых данных небольшой, а запросов получается много. Эта разработка как раз для снижения нагрузки.

Кроме того, думаю будет не так просто обрабатывать пересечения интервалов. Ведь здесь возможны самые разные случаи:
— нет пересечения — все просто, оставляем как есть
— полное пересечение — стираем перекрытый ключ
— частичное перекрытие — нужно сократить старый ключ, или же наборот удлинить при равенстве значений
— фрагментация — из одного старого ключа получается два
— комбинация выше перечисленных случаев.
Если это все обрабатывать, то в базе придется держать довольно сложную логику.

Temp1ar Nov 5 2008 at 09:18

Недавно сталкивался с пересечениями временных отрезков, запрос конечно получается большой, с BETWEEN'ами и IF'ами, но рабочий. Конечно зависит от задачи и необходимой скорости.

el777 Nov 5 2008 at 10:45

Само собой, что все выходит из постановки задачи.
Я описал случай непересекающихся отрезков, причем задача поддержания этого ограничения возложена на сам класс.

ilvar Nov 3 2008 at 19:01

Сделал field для Django с такой функциональностью. Авось пригодится.

el777 Nov 3 2008 at 19:11

Класс!
А в каком виде оно будет записываться в базу?

ilvar Nov 3 2008 at 23:14

{[1:2] => 3, [2:4] => ...}, текстом. Не лучший вариант — при чтении оно вообще через eval гоняется, но это надо еще подумать, как хорошо сделать.

el777 Nov 4 2008 at 09:37

Eval? Но пока нормальный конструктор не написан. Чтобы можно было вызывать примерно так:

tt = intervalmap( slice('08:00', '12:00'), 'Иванов')

Надо будет придумать наиболее удобный синтаксис создания.

ilvar Nov 4 2008 at 09:48

Вот сегодня и займусь :)

el777 Nov 4 2008 at 10:29

:)
Да синтаксис-то ладно, это полировка.
Я вот над работоспособностью самой штуки думаю.
Я выложил ее на гугль — code.google.com/p/intervalmap/source/browse/trunk/intervalmap.py
Предлагаю ядро этой штуки разрабатывать отдельно, а прикладные вещи тоже отдельно. Тогда мы получил гораздо большую гибкость.

ilvar Nov 4 2008 at 10:51

code.google.com/p/django-interval-field/source/browse/trunk/interval.py
Возьмите тогда отсюда еще __eq__ — строка 148 :)

el777 Nov 4 2008 at 11:16

Отлично. Спасибо! :)
Меня смущает такой момент: как сделать качественное копирование объектов — чтобы независимо от того, что у нас в массиве и верхнем элементе, они честно и полностью скопировались. У вас есть какие-нибудь идеи на этот счет?

ilvar Nov 4 2008 at 11:56

пока нет :(

naething Nov 3 2008 at 22:45

Кстати, en.wikipedia.org/wiki/Interval_tree

el777 Nov 3 2008 at 23:07

Интересная вещь.
Но у нас есть одно серьезное упрощение: интервалы не пересекаются. Иначе сама идея хеша как однозначного сопоставления значения ключу перестает работать.
Что касается производительности, то ожидается, что bisect работает со скоростью порядка O(log2(N)).
Правда, другие операции существенно медленнее — порядка O(N).

Yankovsky Nov 4 2008 at 02:50

А кто-нибудь знает, есть ли что-нибудь на подобие топика в Ruby?(только не бейте)
ассоциативные массивы — это волшебно)

el777 Nov 4 2008 at 09:40

Не встречал. Пока мне только в питоне попалась такая вещь.