Комментарии / Профиль ICherepov / Хабр

Илья Черепов @ICherepov

Пользователь

Профиль Публикации 1Комментарии 8Закладки 3

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 26 фев 2015 в 13:35

SuperSTAR – инструмент прежде всего для Росстата. Наружу выдаются только данные, прошедшие через алгоритм защиты конфиденциальных данных – т.е. человек со стороны уже не сможет найти конкретного верблюда.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 26 фев 2015 в 13:32

Артем, тебе тоже привет от всей команды! Такое действительно не забывается! Спасибо за теплые слова.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 26 фев 2015 в 13:27

— OLAP базы у нас разные, но всегда MOLAP. Большими измерениями в принципе не пользуемся – слишком медленно. Денормализуем.
Измерений много, сельхозперепись-2006 – 150, население-2010 – 250. По населению измерений больше, т.к. много расчетных показателей, как раз тех, которые невозможно собрать никак иначе. Например, число детей до 3х лет в домохозяйстве/семейной ячейке, число домохозяйств в помещении.

— Территориальные измерения ОКАТО и ОКТМО (которые по закону должны применяться для подведения итогов) довольно «рыхлой» структуры. ОКАТО содержит огромное количество нерегулярностей, ОКТМО более регулярный, но и в нем есть исключения. Самое яркое исключение — после субъекта РФ в большинстве случаев идут городские округа и муниципальные районы, но может быть и самостоятельный субъект — автономный округ. Получается на одном уровне элементы разных типов, разный уровень расположения листов. В общем, про все красивые книжные примеры «страна-штат-почтовый код», приходится забыть и использовать parent-child.

— Из-за большого числа измерений не получается сделать хороших агрегатов. Это (а еще денормализация) приводит к неожиданному эффекту – куб сильно меньше исходной реляционки.
Помимо общей базы в Москве, делаем отдельные кубы для регионов, чтобы каждый мог получить данные по своей территории.

— Показатели в сельхозке в основном такие: число хозяйств, площади, поголовье, число единиц техники, и т.п. В населении соответственно: число лиц, семейных ячеек, и т.п.

—Железо и версии софта обычно предоставляются Росстатом. На переписи населения, например, был MS SQL 2008 R2.

— Фул процессинг: сельхозка — несколько часов, население — в разы меньше, скорость выполнения запросов зависит от запросов. От 1 мс.
Максимальное число строк: чуть меньше 300млн по населению, несколько больше 300млн по сельхозке.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 19 фев 2015 в 16:43

Вопросы о родстве задаются членам одного домохозяйства. В пределах домохозяйства выделяются семейные ячейки. На основе построенных связей строится тип домохозяйства, включая, например, такой «Домохозяйства, состоящие из супружеской пары без детей и с детьми, обоих родителей одного из супругов без детей и с детьми, прочих родственников (или без них) и не родственников»

Более точно так: все связи между лицами выстраиваются, большая часть используется при определении типа семейной ячейки и типа домохозяйства.

Т.к. все ответы в ходе переписи анонимизированы, то естественно, выстроить связи между лицами разных помещений нельзя. По той же причине нельзя найти конкретного человека.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 19 фев 2015 в 16:35

Основное отличие нормальной штатной работы от переписи в том, что перепись – это почти DoS-атака. Данные пришли, и результат должен быть даже не «немедленно», а «внезапно».

Размер данных = размеру активной партиции, исторической нет (точнее она не нужна).
Очень широкие таблицы фактов. В ходе обработки уткнулись, сначала в то что, максимальное число ключей на таблицу – 253, потом, что максимальное число колонок 1024.

Вот еще занятное ограничение 2005-го аналайзиса: если сделать бэкап со сжатием, а потом бэкап восстановить, то партиции больше 4х гиг корраптятся без сообщений об ошибках. А у 2008R2 после установки SP2 при запросе всех значений через DrillThrow начинается хронический OutOfMemory.
И из всего этого извлекаются десятки миллионов отчетов Excel с довольно жесткими требованиями к оформлению, т.к. в регионах так удобнее работать.

Еще одна «вкусняшка» — отчеты почти всегда нерегулярной структуры (это сделано для удобства использования заинтересованными лицами), часть отчетов содержит measures по обеим осям.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 19 фев 2015 в 13:37

Это штатная ситуация по Москве, где люди редко открывают. Решается статистическими методами. То же слово «импутация» тоже не для красоты существует. Но это специфика именно Москвы. В регионах люди дрались за оклад переписчика, который для Москвы был мизерным. Насколько я понимаю, эту ситуацию хотят в дальнейшем по возможности исправлять.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 19 фев 2015 в 12:27

По сельхозке данные точно использует Минсельхоз. Как конкретно не скажу, мы же айтишники, а не государство. По ВПН — это данные — основа для всех социальных программ государства, они как раз базируются на численности, национальности населения и т.п.

Посмотреть

Всероссийская перепись населения: как тоссятся ваши данные

ICherepov 19 фев 2015 в 12:20

В базах госорганов содержится только информация, нужная им. При этом данные там могут быть заполнены формально или устареть.
Во время переписи собираем информацию:
— в том числе о домохозяйствах и взаимоотношениях между членами домохозяйств, чего нельзя получить из других источников (например, гражданский брак);
— респондент отвечает более открыто и по самоопределению — во время переписи не требуется подтверждать сведения;
— в сжатый промежуток времени — т.е. получаем практически слепок текущего состояния
Безусловно, сведения из других органов можно использовать как дополнительную информацию (и это делается в ряде стран), процесс можно развивать.

Посмотреть