@spe27 июл 2009 в 14:44

Сортировка миллиона 32-битных int'ов в 2 мегабайтах памяти на Питоне

4 мин

8.7K

Python *

+74

Комментарии 60

@santeri 27 июл 2009 в 14:54

спасибо. интересно было почитать.

@Dolphin_Daniel 27 июл 2009 в 15:43

проникся) тяжеловато, конечно, для кропотливого анализа… особенно в понедельник вечером)

@D3D 27 июл 2009 в 17:00

использовать фаил как-то не кошерно, интересно сжать массив в памяти в питоне можно?

@happybyte 27 июл 2009 в 22:39

Сжимать не нужно. В данном случае можно еще ускориться используя bin/bucket/postman алгоритмы — тогда в конце слияние фактически не нужно будет делать в том виде, как это делает merge — достаточно будет просто склеить файлы. Если быть особенным извращенцем, то большой файл можно склеить из кусочков минуя чтение и запись — тупо объединив иноды, кластеры (или еще че в зависимости от FS) в один файл напрямую редактируя FS :)

Собственно гря в этом случае, как я понял до алгоритмов не дошло. Просто использовался трюк с (относительно неэффективным) разбиением на более мелкие куски.

А если вникнуть глубже в задачу, то можно специализировать алгоритм на тип данных, что может привести к тому, что в кусках, которые получаются после предварительной псевдо-сортировки, уже можно сравнивать даже не все 32 бита, а только половину, поскольку, например, старшие два байта в куске у всех чисел могут быть одинаковы :) +SMP, GPGPU и т.п. Пространства для оптимизации весьма и весьма много.

@D3D 28 июл 2009 в 12:31

В переводе написано «2 мегабайтах памяти на Питон» и получается что автор просто из оперативной памяти перекинул на жесткий диск, что кажется нарушением условий задачи, в оригинале же же неоднозначности нет «in 2 megabytes of RAM».

@Goodkat 28 июл 2009 в 15:47

ну где-то же должны лежать эти числа до сортировки и после сортировки
можно было бы усложнить решение условием, что суммарный объём оперативной памяти и создаваемых файлов не должен превышать двух мегабайт, но это тоже решаемо

@pcmaniac 27 июл 2009 в 17:58

Н. Вирт «Алгоритмы + Структуры данных = Программы» ;)

@pcmaniac 27 июл 2009 в 18:02

Вот интересно тут сделать раздел, в котором классические алгоритмы будут реализовываться энтузиастами на разных языках программирования. Это был-бы отличный (от холивара :) ) способ ~~померяться~~ сравнить элегантность реализации того или иного алгоритма на разных языках.

@winger 27 июл 2009 в 20:31

Идея очень неплохая, было бы интересно почитать грамотный код на разных языках. Глядишь и выучить что-то новое захочется)

Думаю стоит написать статью для затравки, например про реализации каких-нибудь сбалансированных деревьев

НЛО прилетело и опубликовало эту надпись здесь

@Beholder 28 июл 2009 в 06:27

Только тяжело будет Хаскелю в даже 4 мегабайтах

НЛО прилетело и опубликовало эту надпись здесь

@Kudja 27 июл 2009 в 18:02

Сорри, я не знаю питон, но по описанию алгоритма видится мне что сортируются отдельные файлы (куски исходного) в адресном пространстве оного (т.е по 10 000 интов), и выплевываются в временный файл, но записи уже хранящиеся в временных файла никак не увязанны между собой… ну и какая же это сортировка тогда?
поправьте если я не прав…

@BlademoR 27 июл 2009 в 18:13

В данном случае heapq.merge возвращает итератор, который позволит читать из потоков отсортированных файлов в нужном порядке, сбрасывая по 1000 штук в конечный файл.

@Kudja 27 июл 2009 в 18:27

ну так это тогда имхо совсем не решение задачи, т.к. система все равно даст один из вариантов:
1. Подгрузит эти данные в память от имени другого процесса и объем памяти при выполнении далеко привысит поставленный в задаче
2. она будет делать кучу операций чтения/записи, что сильно замедлит работу процесса…
или я не понял исходной задачи?
сорри — просто самому интересно стало каким образом тут все происходит… может быть если в вышесказанном я не прав, то опишите подробнее алгоритм?

@pcmaniac 27 июл 2009 в 18:31

Кэширование дисковых операций — это необязательное выделение памяти. т.е. она выделится только если есть свободная, но в принципе будет работать и без неё (чего не скажешь о выделении памяти под буфер для сортировки самой программой). А производительность алгоритма в условиях задачи не озвучена ;)

@cblp 27 июл 2009 в 18:32

В Питоне есть такая штука, как генератор. В общих чертах, это такая последовательность, члены которой вычисляются тогда, когда к ним обращаются. Обратите внимание на оператор yield.

НЛО прилетело и опубликовало эту надпись здесь

@BlademoR 27 июл 2009 в 18:35

Это функция не подгружает все значения в память сразу, а будет грузить поочереди. В том и задача, чтоб не забить 2 мегабайта памяти сразу. Да, операций чтения будет достаточно много, но задача минимальной работы с диском и не требует.

@cblp 27 июл 2009 в 18:18

В 23 строке данные из временных файлов загружаются в iters, а в 26 происходит слияние.

@mocksoul 27 июл 2009 в 18:07

зачем каверкать русский язык?
~~int'ов~~ — чисел

@rayevg 27 июл 2009 в 18:11

Я думаю, тут имелся ввиду типа данных.

@pcmaniac 27 июл 2009 в 18:12

«число» — понятие растяжимое. Оно может быть и 8 и 128 битным. Вот например я не вижу ничего сложного в сортировке миллиона 8-ми битных чисел в оперативной памяти т.к. они будут занимать 1Mb а по условию задачи нам выделяется 2.
Автор же имел ввиду тип int — 32-х битное целое. Миллион таких чесел «весит» 4Mb и без дополнительных ухищрений их в оперативной памяти не отсортировать ибо не влезут)

@mocksoul 27 июл 2009 в 18:25

в заголовке и названии статьи — норм. В середине везде — не норм.

— it reads up to 1000 integers at a time
— он считывает до 1000 int'ов за раз

чуете чем попахивает?

@pcmaniac 27 июл 2009 в 18:28

Думаю что писать «до 1000 32-битных int'ов» слишком громоздко. По названию и вступлению и так уже все поняли что эти int'ы 32-х битные.

@mocksoul 27 июл 2009 в 18:34

тьфу да это-то тут при чём.

прекратите смотреть на все что видите с точки зрения разработчика — это переводится просто «он считывает до 1000 чисел за раз». Всё. Никаких тут 32-битных int'ов и прочих вещей.

@Mezomish 28 июл 2009 в 02:56

А с какой точки зрения нужно смотреть? Химика-генетика?
Статья имеет явно выраженный программистский контекст. А в этом контексте перевод «1000 чисел за раз» — некорректен.

@chiaroscuro 28 июл 2009 в 03:07

Эхехе. int — не число что ли? LOL

@Mezomish 28 июл 2009 в 03:13

Боюсь, я сейчас сломаю Вашу картину мира, но числа бывают не только целые. Более того: целые числа бывают не только int. Надеюсь, это было не очень больно…

Возвращаясь к вопросу: разумеется, int — это число. Но переводить «1000 integers» как «1000 чисел» — неверно. Вот такой, панимашь, парадокс.

@chiaroscuro 28 июл 2009 в 03:31

> но числа бывают не только целые. Более того: целые числа бывают не только int.

Ба! А мужики-то не знают!

«1000 integers» — тысяча целых чисел (учел ошибку), ну никак не 1000 int'ов (фффуу. кстати, раз уж занудствуем, int'ы бывают не только 32-х битные)

@Mezomish 28 июл 2009 в 13:07

Ну вот, уже лучше. Не просто «1000 чисел», а «1000 целых чисел».
А если быть ещё точнее, то «1000 целых 32-битных чисел» (о чём и идёт речь в статье). Автором подразумевалось именно это (ибо статья как раз об этом).
А т.к. статья написана программистом для программистов, то «программизм» «1000 int'ов» там более чем уместен, т.к. не оставляет двусмысленностей и лаконично доносит смысл. В отличие от «1000 чисел», которое вызывает кучу вопросов: «каких чисел?», «какой точности?» и т.д.

@highw 27 июл 2009 в 19:36

зануда

@Dolphin_Daniel 27 июл 2009 в 18:15

я думаю просто Василий поленился переводить) имелись ввиду целые числа…

@YasonBy 27 июл 2009 в 21:16

Действительно, незачем — лучше уж писать англицизмы, чем коверкать русский язык.

@BlademoR 27 июл 2009 в 18:13

@BlademoR 27 июл 2009 в 18:14

Извините, не туда написал.

НЛО прилетело и опубликовало эту надпись здесь

@muslimov 27 июл 2009 в 19:48

«100 жемчужин программирования»- первая задача, о сортировки при условии что в объем данных превышает объем доступной памяти.

НЛО прилетело и опубликовало эту надпись здесь

@david_mz 27 июл 2009 в 21:47

Ничего что второй файл будет размером… я даже не назову сходу такой приставки, для 10^15 байт:)

@Mezomish 28 июл 2009 в 02:59

Петабайт.

НЛО прилетело и опубликовало эту надпись здесь

@winger 28 июл 2009 в 13:03

Так вы же предлагаете во втором файле для каждого возможного значения иметь по соответствующему сдвигу количество таких чисел. Возможных значений 2^32, на количество надо по крайней мере 3 байта, итого имеем размер 12 гигабайт. Для такой задачи многовато, да и затраты по времени чтения/записи такого файла будут гигантскими

НЛО прилетело и опубликовало эту надпись здесь

@david_mz 28 июл 2009 в 13:04

«Тоже» — это как Вы? Надеюсь, что нет:)

Расскажите-ка про свой алгоритм. Посмотрим, сколько Вам места понадобится…

НЛО прилетело и опубликовало эту надпись здесь

@david_mz 28 июл 2009 в 14:07

Ага, уже 12 гигабайт:) Несколько больше 4 Мб, не так ли?

С петабайтом я ошибся, признаю. Но и 12 гигабайт приемлемыми назвать никак нельзя. И да, _в таком случае_ лучше «городить сотню файлов».

НЛО прилетело и опубликовало эту надпись здесь

@david_mz 28 июл 2009 в 14:20

Вы тоже ненормальный? Я с самого начала говорил про Ваш второй файл. Перечитайте хистори.

НЛО прилетело и опубликовало эту надпись здесь

@david_mz 28 июл 2009 в 14:32

habrahabr.ru/blogs/python/65503/#comment_1836028 — на мой вопрос о втором файле Вы начали гнать про 4 мегабайта _в первом_.

Идите уже, почитайте что-нибудь другое. Всё с Вами понятно.