Как стать автором
Обновить
10
0
Илья Черепов @ICherepov

Пользователь

Отправить сообщение
SuperSTAR – инструмент прежде всего для Росстата. Наружу выдаются только данные, прошедшие через алгоритм защиты конфиденциальных данных – т.е. человек со стороны уже не сможет найти конкретного верблюда.
Артем, тебе тоже привет от всей команды! Такое действительно не забывается! Спасибо за теплые слова.
— OLAP базы у нас разные, но всегда MOLAP. Большими измерениями в принципе не пользуемся – слишком медленно. Денормализуем.
Измерений много, сельхозперепись-2006 – 150, население-2010 – 250. По населению измерений больше, т.к. много расчетных показателей, как раз тех, которые невозможно собрать никак иначе. Например, число детей до 3х лет в домохозяйстве/семейной ячейке, число домохозяйств в помещении.

— Территориальные измерения ОКАТО и ОКТМО (которые по закону должны применяться для подведения итогов) довольно «рыхлой» структуры. ОКАТО содержит огромное количество нерегулярностей, ОКТМО более регулярный, но и в нем есть исключения. Самое яркое исключение — после субъекта РФ в большинстве случаев идут городские округа и муниципальные районы, но может быть и самостоятельный субъект — автономный округ. Получается на одном уровне элементы разных типов, разный уровень расположения листов. В общем, про все красивые книжные примеры «страна-штат-почтовый код», приходится забыть и использовать parent-child.

— Из-за большого числа измерений не получается сделать хороших агрегатов. Это (а еще денормализация) приводит к неожиданному эффекту – куб сильно меньше исходной реляционки.
Помимо общей базы в Москве, делаем отдельные кубы для регионов, чтобы каждый мог получить данные по своей территории.

— Показатели в сельхозке в основном такие: число хозяйств, площади, поголовье, число единиц техники, и т.п. В населении соответственно: число лиц, семейных ячеек, и т.п.

—Железо и версии софта обычно предоставляются Росстатом. На переписи населения, например, был MS SQL 2008 R2.

— Фул процессинг: сельхозка — несколько часов, население — в разы меньше, скорость выполнения запросов зависит от запросов. От 1 мс.
Максимальное число строк: чуть меньше 300млн по населению, несколько больше 300млн по сельхозке.
Вопросы о родстве задаются членам одного домохозяйства. В пределах домохозяйства выделяются семейные ячейки. На основе построенных связей строится тип домохозяйства, включая, например, такой «Домохозяйства, состоящие из супружеской пары без детей и с детьми, обоих родителей одного из супругов без детей и с детьми, прочих родственников (или без них) и не родственников»

Более точно так: все связи между лицами выстраиваются, большая часть используется при определении типа семейной ячейки и типа домохозяйства.

Т.к. все ответы в ходе переписи анонимизированы, то естественно, выстроить связи между лицами разных помещений нельзя. По той же причине нельзя найти конкретного человека.
Основное отличие нормальной штатной работы от переписи в том, что перепись – это почти DoS-атака. Данные пришли, и результат должен быть даже не «немедленно», а «внезапно».

Размер данных = размеру активной партиции, исторической нет (точнее она не нужна).
Очень широкие таблицы фактов. В ходе обработки уткнулись, сначала в то что, максимальное число ключей на таблицу – 253, потом, что максимальное число колонок 1024.

Вот еще занятное ограничение 2005-го аналайзиса: если сделать бэкап со сжатием, а потом бэкап восстановить, то партиции больше 4х гиг корраптятся без сообщений об ошибках. А у 2008R2 после установки SP2 при запросе всех значений через DrillThrow начинается хронический OutOfMemory.
И из всего этого извлекаются десятки миллионов отчетов Excel с довольно жесткими требованиями к оформлению, т.к. в регионах так удобнее работать.

Еще одна «вкусняшка» — отчеты почти всегда нерегулярной структуры (это сделано для удобства использования заинтересованными лицами), часть отчетов содержит measures по обеим осям.
Это штатная ситуация по Москве, где люди редко открывают. Решается статистическими методами. То же слово «импутация» тоже не для красоты существует. Но это специфика именно Москвы. В регионах люди дрались за оклад переписчика, который для Москвы был мизерным. Насколько я понимаю, эту ситуацию хотят в дальнейшем по возможности исправлять.
По сельхозке данные точно использует Минсельхоз. Как конкретно не скажу, мы же айтишники, а не государство. По ВПН — это данные — основа для всех социальных программ государства, они как раз базируются на численности, национальности населения и т.п.
В базах госорганов содержится только информация, нужная им. При этом данные там могут быть заполнены формально или устареть.
Во время переписи собираем информацию:
— в том числе о домохозяйствах и взаимоотношениях между членами домохозяйств, чего нельзя получить из других источников (например, гражданский брак);
— респондент отвечает более открыто и по самоопределению — во время переписи не требуется подтверждать сведения;
— в сжатый промежуток времени — т.е. получаем практически слепок текущего состояния
Безусловно, сведения из других органов можно использовать как дополнительную информацию (и это делается в ряде стран), процесс можно развивать.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность