torgeek31 янв 2019 в 12:23

Мой адрес не дом и не улица, мой адрес – Советский Союз?

13 мин

4.3K

XML * NoSQL * Big Data * Открытые данные * Хранение данных *

Комментарии 7

sshikov 31 янв 2019 в 12:58

>Надо отдать должное, русская налоговая служба своё цифровое производство делает хорошо.
Это вы про ФИАС? Надеюсь это шутка была? Там косяков полно. Причем описанных прямо тут на хабре.

И да, зачем вы парсите xml, мучаетесь, когда есть выгрузка в DBF, намного меньшего размера, и уже в виде таблиц базы? Уж если вам нужен ADDROBJ, то тем более — он разбит по регионам, и самый большой из них меньше 100 мегабайт.

torgeek 31 янв 2019 в 13:06

Почему шутка? Чистая правда. Сравните с тем, что в других российских ведомствах имеется по части цифровизации.

Про ошибки написал прямо по тексту статьи. И оставил как спецзадачку для внимательных))

Мучаются-то как раз с DBF и прочими SQL-образными. XML — прекрасен!
Хотя, честно признать, в наших проектах пока что используем DBF ;)

sshikov 31 янв 2019 в 13:20

>Почему шутка?
Потому что ФИАС широко известен своими косяками. Поищите тут посты от hflabs, там много чего интересного написано.

>Мучаются-то как раз с DBF
Кто? Я недавно лично сначала втащил оный ФИАС в постгрес, а потом в хадуп, оба раза через DBF — и никаких проблем вообще не выловил.

XML имеет смысл, если вы уж совсем никак не можете DBF, в остальных случаях размер все решает на мой взгляд.

torgeek 31 янв 2019 в 16:20

Ошибки надо исправлять. Разлив интересного это только предлог засучить рукава и поработать. Всем нам встречно к ведомству. А переход с КЛАДРа на ФИАС — это прогресс, я считаю.

Втащить то можно всё что угодно. Вопрос с чем это передадим дальше? Насколько легко будет сопровождать? Развивать вверх по уровням?

Так то и в ассемблере с прямым доступом в диск можно. Будет даже быстро. Толко долго и дорого.

Я люблю таблички, но это всё ассемблер для данных. Мы уже в другом веке живём.

sshikov 31 янв 2019 в 16:50

>Вопрос с чем это передадим дальше?
Ну как с чем? Для начала мы это геокодируем, чтобы все дома в ФИАС имели широту и долготу (насколько это возможно). Для чего свяжем по-возможности с OpenStreetMap, который у нас в хадупе тоже уже давно есть. В итоге те дома, что свяжутся, будут иметь еще возможно и геометрию.

>Мы уже в другом веке живём.
Естественно. У нас Hadoop, Spark и HBase с этим работает.

В моем понимании импорт XML имеет смысл, но только в одном случае — если вы дельты импортируете, потому что дельты в DBF вроде как не поставлялись. Но раз вы говорили про объемы порядка 5 гигабайт — а это точно не дельта, потому что она всего мегабайты занимает. Вы же все равно XML потом выбрасываете, очевидно? Ну так зачем больше ресурсов тратить?

У меня полный импорт ФИАС занимает какие-то смешные минуты, причем DBF я конвертирую в CVS, который грузится напрямую в Hive. И его объем всего примерно 1.2 гигабайта для ADDROBJ несжатых. А другие таблицы либо вообще не нужны, либо уже сильно меньше (следующая по размеру вроде дома, и она нужна, а дальше идет вообще мелочевка типа SOCRBASE).

То есть это вообще копейки, примерно пара сотен файлов, самый большой из которых меньше 100 мегабайт. Я это просто раскидываю по кластеру, и весь импорт — какие-то минуты.

torgeek 1 фев 2019 в 10:21

>свяжем по-возможности с OpenStreetMap
Очень круто! Даже возразить нечего) Точно так же думаю сделать у себя в проектах, особенно нацеленных на англоязычных пользователей. Напишу об этом большой материал здесь.

Тут надо заметить, что в ФИАС уже есть опосредованное и, при этом, очень точное и выверенное геокодирование. Только добраться до него сложнее. Раньше это были полностью открытые даные. Сейчас прикрыли. Надо добиваться, что бы вернули народу))

>У нас Hadoop, Spark и HBase с этим работает.
Супер!
Только, по-моему, это шаг назад в примитивные данные. Как и JSON после XML. Но если много свободного времени и мало места, то можно.
Видимо не очень точно донёс свою мысль про большие данные. Места для хранения сейчас и перспективе — завались. Каналы связи тоже позволяют разгуляться. А вот качество и скорость разработки так бысто не растут. Ими надо заниматься интенсивнее.

torgeek 31 янв 2019 в 14:48

Ошибки надо исправлять. Разлив интересного это только предлог засучить рукава и поработать. Всем нам встречно к ведомству. А переход с КЛАДРа на ФИАС — это прогресс, я считаю.

Втащить то можно всё что угодно. Вопрос с чем это передадим дальше? Насколько легко будет сопровождать? Развивать вверх по уровням?

Так то и в ассемблере с прямым доступом в диск можно. Будет даже быстро. Толко долго и дорого.

Я люблю таблички, но это всё ассемблер для данных. Мы уже в другом веке живём.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий