Комментарии 7
>Надо отдать должное, русская налоговая служба своё цифровое производство делает хорошо.
Это вы про ФИАС? Надеюсь это шутка была? Там косяков полно. Причем описанных прямо тут на хабре.
И да, зачем вы парсите xml, мучаетесь, когда есть выгрузка в DBF, намного меньшего размера, и уже в виде таблиц базы? Уж если вам нужен ADDROBJ, то тем более — он разбит по регионам, и самый большой из них меньше 100 мегабайт.
Это вы про ФИАС? Надеюсь это шутка была? Там косяков полно. Причем описанных прямо тут на хабре.
И да, зачем вы парсите xml, мучаетесь, когда есть выгрузка в DBF, намного меньшего размера, и уже в виде таблиц базы? Уж если вам нужен ADDROBJ, то тем более — он разбит по регионам, и самый большой из них меньше 100 мегабайт.
+1
Почему шутка? Чистая правда. Сравните с тем, что в других российских ведомствах имеется по части цифровизации.
Про ошибки написал прямо по тексту статьи. И оставил как спецзадачку для внимательных))
Мучаются-то как раз с DBF и прочими SQL-образными. XML — прекрасен!
Хотя, честно признать, в наших проектах пока что используем DBF ;)
Про ошибки написал прямо по тексту статьи. И оставил как спецзадачку для внимательных))
Мучаются-то как раз с DBF и прочими SQL-образными. XML — прекрасен!
Хотя, честно признать, в наших проектах пока что используем DBF ;)
+1
>Почему шутка?
Потому что ФИАС широко известен своими косяками. Поищите тут посты от hflabs, там много чего интересного написано.
>Мучаются-то как раз с DBF
Кто? Я недавно лично сначала втащил оный ФИАС в постгрес, а потом в хадуп, оба раза через DBF — и никаких проблем вообще не выловил.
XML имеет смысл, если вы уж совсем никак не можете DBF, в остальных случаях размер все решает на мой взгляд.
Потому что ФИАС широко известен своими косяками. Поищите тут посты от hflabs, там много чего интересного написано.
>Мучаются-то как раз с DBF
Кто? Я недавно лично сначала втащил оный ФИАС в постгрес, а потом в хадуп, оба раза через DBF — и никаких проблем вообще не выловил.
XML имеет смысл, если вы уж совсем никак не можете DBF, в остальных случаях размер все решает на мой взгляд.
0
Ошибки надо исправлять. Разлив интересного это только предлог засучить рукава и поработать. Всем нам встречно к ведомству. А переход с КЛАДРа на ФИАС — это прогресс, я считаю.
Втащить то можно всё что угодно. Вопрос с чем это передадим дальше? Насколько легко будет сопровождать? Развивать вверх по уровням?
Так то и в ассемблере с прямым доступом в диск можно. Будет даже быстро. Толко долго и дорого.
Я люблю таблички, но это всё ассемблер для данных. Мы уже в другом веке живём.
Втащить то можно всё что угодно. Вопрос с чем это передадим дальше? Насколько легко будет сопровождать? Развивать вверх по уровням?
Так то и в ассемблере с прямым доступом в диск можно. Будет даже быстро. Толко долго и дорого.
Я люблю таблички, но это всё ассемблер для данных. Мы уже в другом веке живём.
0
>Вопрос с чем это передадим дальше?
Ну как с чем? Для начала мы это геокодируем, чтобы все дома в ФИАС имели широту и долготу (насколько это возможно). Для чего свяжем по-возможности с OpenStreetMap, который у нас в хадупе тоже уже давно есть. В итоге те дома, что свяжутся, будут иметь еще возможно и геометрию.
>Мы уже в другом веке живём.
Естественно. У нас Hadoop, Spark и HBase с этим работает.
В моем понимании импорт XML имеет смысл, но только в одном случае — если вы дельты импортируете, потому что дельты в DBF вроде как не поставлялись. Но раз вы говорили про объемы порядка 5 гигабайт — а это точно не дельта, потому что она всего мегабайты занимает. Вы же все равно XML потом выбрасываете, очевидно? Ну так зачем больше ресурсов тратить?
У меня полный импорт ФИАС занимает какие-то смешные минуты, причем DBF я конвертирую в CVS, который грузится напрямую в Hive. И его объем всего примерно 1.2 гигабайта для ADDROBJ несжатых. А другие таблицы либо вообще не нужны, либо уже сильно меньше (следующая по размеру вроде дома, и она нужна, а дальше идет вообще мелочевка типа SOCRBASE).
То есть это вообще копейки, примерно пара сотен файлов, самый большой из которых меньше 100 мегабайт. Я это просто раскидываю по кластеру, и весь импорт — какие-то минуты.
Ну как с чем? Для начала мы это геокодируем, чтобы все дома в ФИАС имели широту и долготу (насколько это возможно). Для чего свяжем по-возможности с OpenStreetMap, который у нас в хадупе тоже уже давно есть. В итоге те дома, что свяжутся, будут иметь еще возможно и геометрию.
>Мы уже в другом веке живём.
Естественно. У нас Hadoop, Spark и HBase с этим работает.
В моем понимании импорт XML имеет смысл, но только в одном случае — если вы дельты импортируете, потому что дельты в DBF вроде как не поставлялись. Но раз вы говорили про объемы порядка 5 гигабайт — а это точно не дельта, потому что она всего мегабайты занимает. Вы же все равно XML потом выбрасываете, очевидно? Ну так зачем больше ресурсов тратить?
У меня полный импорт ФИАС занимает какие-то смешные минуты, причем DBF я конвертирую в CVS, который грузится напрямую в Hive. И его объем всего примерно 1.2 гигабайта для ADDROBJ несжатых. А другие таблицы либо вообще не нужны, либо уже сильно меньше (следующая по размеру вроде дома, и она нужна, а дальше идет вообще мелочевка типа SOCRBASE).
То есть это вообще копейки, примерно пара сотен файлов, самый большой из которых меньше 100 мегабайт. Я это просто раскидываю по кластеру, и весь импорт — какие-то минуты.
+1
>свяжем по-возможности с OpenStreetMap
Очень круто! Даже возразить нечего) Точно так же думаю сделать у себя в проектах, особенно нацеленных на англоязычных пользователей. Напишу об этом большой материал здесь.
Тут надо заметить, что в ФИАС уже есть опосредованное и, при этом, очень точное и выверенное геокодирование. Только добраться до него сложнее. Раньше это были полностью открытые даные. Сейчас прикрыли. Надо добиваться, что бы вернули народу))
>У нас Hadoop, Spark и HBase с этим работает.
Супер!
Только, по-моему, это шаг назад в примитивные данные. Как и JSON после XML. Но если много свободного времени и мало места, то можно.
Видимо не очень точно донёс свою мысль про большие данные. Места для хранения сейчас и перспективе — завались. Каналы связи тоже позволяют разгуляться. А вот качество и скорость разработки так бысто не растут. Ими надо заниматься интенсивнее.
Очень круто! Даже возразить нечего) Точно так же думаю сделать у себя в проектах, особенно нацеленных на англоязычных пользователей. Напишу об этом большой материал здесь.
Тут надо заметить, что в ФИАС уже есть опосредованное и, при этом, очень точное и выверенное геокодирование. Только добраться до него сложнее. Раньше это были полностью открытые даные. Сейчас прикрыли. Надо добиваться, что бы вернули народу))
>У нас Hadoop, Spark и HBase с этим работает.
Супер!
Только, по-моему, это шаг назад в примитивные данные. Как и JSON после XML. Но если много свободного времени и мало места, то можно.
Видимо не очень точно донёс свою мысль про большие данные. Места для хранения сейчас и перспективе — завались. Каналы связи тоже позволяют разгуляться. А вот качество и скорость разработки так бысто не растут. Ими надо заниматься интенсивнее.
-1
Ошибки надо исправлять. Разлив интересного это только предлог засучить рукава и поработать. Всем нам встречно к ведомству. А переход с КЛАДРа на ФИАС — это прогресс, я считаю.
Втащить то можно всё что угодно. Вопрос с чем это передадим дальше? Насколько легко будет сопровождать? Развивать вверх по уровням?
Так то и в ассемблере с прямым доступом в диск можно. Будет даже быстро. Толко долго и дорого.
Я люблю таблички, но это всё ассемблер для данных. Мы уже в другом веке живём.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Мой адрес не дом и не улица, мой адрес – Советский Союз?