Как стать автором
Обновить

Как обработать большие датасеты в pandas. Работаем с базой ФИАС, используя python и 8Гб памяти

Время на прочтение6 мин
Количество просмотров15K
Особо представлять базу ФИАС нет необходимости:



Скачать ее можно перейдя по ссылке, данная база является открытой и содержит все адреса объектов по России (адресный реестр). Интерес к этой базе вызван тем, что файлы, которые в ней содержатся достаточно объемны. Так, например, самый маленький составляет 2,9 Гб. Предлагается остановиться на нем и посмотреть, справится ли с ним pandas, если работать на машине, располагая только 8 Гб оперативной памяти. А если не справится, какие есть опции, для того, чтобы скормить pandas данный файл.
Читать дальше →
Всего голосов 14: ↑8 и ↓6+2
Комментарии30

SAX-парсер python vs DOM-парсер python. Парсим ФИАС-houses

Время на прочтение3 мин
Количество просмотров6.1K
В предыдущей статье был рассмотрен подход к созданию csv из xml на базе данных, которые публикует ФИАС. В основу парсинга был положен DOM-парсер, загружающий в память весь файл целиком перед обработкой, что приводило к необходимости дробления файлов большого размера в виду ограниченного объема оперативной памяти. В этот раз предлагается посмотреть насколько хорош SAX-парсер и сравнить его скорость работы c DOM-парсером. В качестве подопытного будет использоваться наибольший из файлов базы ФИАС — houses, размером 27,5 ГБ.
Читать дальше →
Всего голосов 8: ↑5 и ↓3+2
Комментарии29