Pull to refresh
  • by relevance
  • by date
  • by rating

Как обработать большие датасеты в pandas. Работаем с базой ФИАС, используя python и 8Гб памяти

Python *
Tutorial
Особо представлять базу ФИАС нет необходимости:



Скачать ее можно перейдя по ссылке, данная база является открытой и содержит все адреса объектов по России (адресный реестр). Интерес к этой базе вызван тем, что файлы, которые в ней содержатся достаточно объемны. Так, например, самый маленький составляет 2,9 Гб. Предлагается остановиться на нем и посмотреть, справится ли с ним pandas, если работать на машине, располагая только 8 Гб оперативной памяти. А если не справится, какие есть опции, для того, чтобы скормить pandas данный файл.
Читать дальше →
Total votes 14: ↑8 and ↓6 +2
Views 8.8K
Comments 30

SAX-парсер python vs DOM-парсер python. Парсим ФИАС-houses

Python *
В предыдущей статье был рассмотрен подход к созданию csv из xml на базе данных, которые публикует ФИАС. В основу парсинга был положен DOM-парсер, загружающий в память весь файл целиком перед обработкой, что приводило к необходимости дробления файлов большого размера в виду ограниченного объема оперативной памяти. В этот раз предлагается посмотреть насколько хорош SAX-парсер и сравнить его скорость работы c DOM-парсером. В качестве подопытного будет использоваться наибольший из файлов базы ФИАС — houses, размером 27,5 ГБ.
Читать дальше →
Total votes 8: ↑5 and ↓3 +2
Views 3.7K
Comments 29

Как завести pet project и не получить выгоды

PHP *
Sandbox

Как завести pet project и не получить выгоды


TL;DR

Статья описывает использование pet project как способ поддержания и улучшения навыков. Автор создал PHP библиотеку для установки ФИАС из XML файлов.


Цель


Я редко меняю места работы, поэтому, учитывая естественное стремление каждой организации к фиксированным процессам, любая задача превращается в рутину. С одной стороны для бизнеса выгодно поддерживать такое состояние, с другой для меня это означает либо полную потерю, либо устаревание навыков. PHP развивается стремительными темпами, а, следовательно, и потенциальное отставание тоже растёт стремительно. Наконец, все мы знаем, что сегодня программисту сложно найти хорошую работу без знания Elasticsearch, RabbitMQ, Kafka и других технологий, которые в моей повседневной работе появляются не часто.

Читать дальше →
Total votes 36: ↑35 and ↓1 +34
Views 16K
Comments 11

Как мы создавали адресный справочник Ростелекома

Ростелеком corporate blog System Analysis and Design *Geoinformation services *Big Data *
🔥 Technotext 2020
Зачем Ростелекому знать про адреса все и даже немного больше?

Интернет, при всем своем цифровом имидже, штука, созданная в аналоговом мире. И до сих пор для того, чтобы в доме был высокоскоростной интернет, к дому должен быть физически подведён кабель.

Именно адрес дома является ключевым объектом идентификации в многоступенчатом процессе предоставления услуг Интернета.

Адрес возникает в момент, когда клиент звонит к нам в Ростелеком с вопросом, можно ли подключить интернет. Оператору нужно знать адрес клиента, чтобы проверить, проведён ли к дому кабель с интернетом. Адрес используется вплоть до этапа сопровождения и обслуживания действующего клиента. При обращении в службу технической поддержки по адресу клиента проверяется, является ли проблема локальной, или авария массовая и проблема затронула целый квартал.

И конечно, на каждом шаге процесса важна скорость ответа клиенту.

В этом посте мы расскажем о том, насколько важен для наших внутренних систем адрес клиента, почему ФИАС — не панацея, и для чего был создан Единый паспорт дома.
Читать дальше →
Total votes 19: ↑16 and ↓3 +13
Views 7.1K
Comments 9

ФИАС с человеческим лицом

SQL **nix *
Recovery mode

Всем привет. Некоторое время назад пришлось разбираться в ФИАСе, хочу поделиться своими наработками. Эта статья расскажет о том как базу развернуть, как её обновлять и как ей пользоваться.

К счастью мне не пришлось во всём разбираться самому, потому что на Хабре есть хорошая серия статей о ФИАС (Адреса ФИАС в среде PostgreSQL), и у этих статей не менее ценные коменты. На их основе у меня получилось написать скрипты и написать Докер образ, всё опубликовано на ГитХабе.

Как работать с образом описано в README.md, здесь я распишу всё тоже самое но более подробно.

Читать далее
Total votes 9: ↑7 and ↓2 +5
Views 2.2K
Comments 5

ГАР БД ФИАС или очень полная БД ФИАС

PHP *Geoinformation services *

01.06.2020 ИФНС опубликовала новый формат выгрузки данных
17.12.2020 Мягко намекнула, что в 2021 будет использоваться только он
01.09.2021 Это свершилось: теперь просто "полная БД ФИАС" перестала обновляться и требуется использовать ГАР БД ФИАС

Частично импортируем ГАР БД ФИАС в MySQL на PHP.

Читать далее
Total votes 6: ↑6 and ↓0 +6
Views 5.7K
Comments 21

Сделали «ФИАС» на основе ГАР. Пока он открыт для всех. Подойдет вместо почившего справочника ФНС

HFLabs corporate blog System Analysis and Design *Geoinformation services *Open data *

Если у вас есть учетные системы, которые работают на ФИАСе и не понимают ГАР, вы можете бесплатно получать обновления у нас. Ссылка внутри поста.

Читать дальше →
Total votes 9: ↑9 and ↓0 +9
Views 2.2K
Comments 7
2