company_banner

Всероссийская перепись населения: как тоссятся ваши данные



    Я работаю с распознаванием и обработкой данных переписей населения и сельскохозяйственных переписей с двухтысячного года. Это тот самый случай, когда ты больше года пишешь софт, который должен отработать один раз, но зато без ошибок.

    Почему? Во всероссийской переписи населения в 2010 году участвовало 500 тысяч человек и ещё 10 тысяч IT-пользователей во всех субъектах РФ. Сканер забирает 150 листов в минуту. Распознавание в реальном времени с примерно такой же скоростью. Умножайте на количество сканеров по стране – и получите поток данных, где любой баг сразу рушит работу огромного количества людей.

    И второй момент – вместе с НИИ Статистики мы ведём научно-исследовательскую работу по алгоритмам восстановления данных.

    Как происходит перепись


    Если это всероссийская перепись населения – примерно полмиллиона человек (чаще всего – студенты) обходят всех людей в стране. Задача — дойти до каждого и задать ряд вопросов, ответы фиксируются на бумаге на специальном машиночитаемом бланке. Если сельхозперепись – людей ходит меньше, но все же. Вот, например, стандартный портфель переписчика сельскохозяйственной переписи, с которым он ходит по своей земле:





    Дальше – получить из этих бланков десятки миллионов таблиц, в каждой из которых есть конкретные данные по районам, важные для служб разного уровня.

    То есть процедура такая:
    • Подготовить списки обследуемых объектов и разбить их на участки для переписчиков;
    • Собрать данные физически, «ногами».
    • Загрузить машиночитаемые документы в потоковый сканер, который быстро и нежно их перелистает.
    • Распознать то, что распознаётся (а у нас тут, на секундочку, рукописный почерк).
    • Сделать несколько коррекций по тому, что не было распознано, чтобы оператор мог добить данные с бланков руками.
    • Ещё раз проверить данные на соответствие друг другу по логике (дед не может быть моложе сына и так далее).
    • Собрать общую базу данных со всей страны.
    • При необходимости – загрузить эту базу в систему аналитики, чтобы заказчик мог сам делать нетипичные отчёты и нарезать из неё нереальное море отчётов.
    • Защищённой почтой доставить сканы бумажных бланков на хранение;
    • Организовать хранение бумажных бланков на местах.

    Многие участники-операторы переписи видят компьютер первый раз в жизни (я не преувеличиваю, у нас и мышь двумя руками двигали с непривычки, и ещё много чего в посёлках случалось). Плюс не всем до конца понятна процедура переписи, там много нетривиальных операций. Естественно, это вызывает резкий рост нагрузки на поддержку, что в пиковые дни крайне нежелательно. Поэтому (хоть нас об этом и не просили), мы записали 40-минутное обучающее видео, разъясняющее все аспекты того, как правильно по шагам делать перепись. Вот короткая выдержка из 2004 года (как раньше писали на пиратских дисках – «озвучено профессиональными программистами»):



    С другой стороны, на сельхозпереписях опрашивают бывшие агрономы и председатели кооперативов. Они живо разбираются в теме, и заинтересованы в результате, потому что сами не раз пользовались собранными данными в своей работе. С этими людьми очень приятно работать. Они часто также не понимают, куда подавать корм в компьютер, но зато не боятся задавать вопросы и учиться. А ещё у них есть чертовски важное свойство для целостности данных – они по бабке на глаз могут определить, сколько у неё поросят, и не сховала ли она одного от переписчика. Кстати, насчёт глубокого знания темы – не все тестеры знали, что в одной из областей выращивают несколько гектаров конопли. Потому что это ценнейшее стратегическое сырьё. Для медицины и легкой промышленности.

    На следующие такие переписи по с/х теме заказчик вообще хочет избавиться от бумаги: раздать представителям планшеты, чтобы данные забивались сразу в них. Там, конечно, есть особенности с персональными данными, — нужно придумать решение, предотвращающее утечку даже при рутинге, но это всё решаемо.

    Реализация


    Начну немного с конца. Учитывая объём базы данных, подходящее решение – это Microsoft SQL + Microsoft OLAP. Когда мы начали работать с MS OLAP для генерации, у нас было крайне мало опыта, зато была вера в себя и воля к победе. Но потом ни разу не пожалели. Такого масштаба проектов в Microsoft OLAP в мире считанные единицы. Естественно, мы шли по граблям и натыкались на ошибки, которые нельзя было выявить в тестах – у разработчиков просто не было живой базы такого объёма и пары мощных ЦОДов под боком, перемалывающих данные. Кстати, дата-центр Росстата.

    Вся первичка обрабатывается на местах, данные проверяются на полноту и консистентность. Затем данные попадают в ЦОД в Москву двумя путями:
    1. Обработанные в цифровом виде – по VPN от рабочих мест операторов.
    2. Сканы бумажных оригиналов – фельдъегерской почтой. С дисков всё загружается в базу уже здесь. Физически всё это лежит в защищённых помещениях, сама почтовая система такого класса предназначена даже для отправки совершенно секретных документов.

    Итак, мы получаем примерно 6 Тб сырых данных для обработки, из которых получается база данных размером под 500 Гб. На этом уровне требуется восстановление данных до репрезентативных. Например, в округе было около 2 тысяч человек, участвовавших в переписи и 15 «отказников», которых не застали или до которых не дошли по иным причинам. Логично предположить, что статистически (а нас интересуют только большие числа) они будут в среднем соответствовать остальным жителям региона. Это очень упрощённый пример того, как восстанавливаются данные. На практике мы вместе с НИИ подтвердили серией экспериментов следующую гипотезу: если взять достаточно большой массив ответов, где всё заполнено (реальные переписные данные прошлых лет), затем случайным образом удалить до 10% ответов, а после восстановить данные, то результаты в итоговых нарезках должны различаться не более чем на десятые доли процентов.

    Используется множество решений – от поиска по базе похожих профилей (например, мы знаем половозрастную структуру семьи фермеров, которая не была опрошена – алгоритм будет искать похожие семьи в регионах с похожими условиями и опираться на них и т.п.). На практике только у нас в стране есть готовый механизм работы с такими алгоритмами. Тот же НИИ, работающий со статистикой, не может – у него нет достаточной мощности ЦОДов, чтобы парсить огромные базы.

    Ещё один важный компонент обработки отчётов – это специальный BI наших австралийских коллег, работающих с Big Data. Важная особенность – защита конфиденциальности информации. Первый слой – невозможность выгрузить отчёты, где есть возможность добраться до конкретных чисел на человека. Как бы вы ни старались, внутренняя единица обработки – 3 человека. Ещё одна специальная аналитика следит за тем, чтобы нельзя было выгрузить отчёт, содержащий матрицу, соответствующую другой матрице с похожими данными. Потому что ушлые пентестеры на обсуждении защиты научились вычитать одни матрицы из других, чтобы получать конкретику по людям. Теперь за этим следит специальный механизм. BI называется SuperStar.

    Данные в регионе


    В отличие от выборов, когда жители сами приходят на участки (и если кто-то не придёт, ничего страшного) на переписи нужно дойти до каждого и получить максимально полные данные. Ок, студент собрал бумаги, по возможности правильно их заполнил, проверил и принёс в райцентр. Затем они попадают под охраной милиции (полиции) в территориальные органы статистики, где стоит сканер машиночитаемых документов. Из сканера бумаги уходят под охрану.

    Бумаги приходят увязанные по участкам. Например, «вот пакет, тут 400 человек, это деревня такая-то». Система деления на учётные единицы отстраивалась ещё в СССР, работает как часы.

    Дальше сопоставление полноты данных – сложная работа, позволяющая понять, например, по данным анкеты деда с тремя внуками, что где-то должны быть эти внуки, и если их нет – значит, что-то пошло не так. На такой процедуре, например, у нас нашёлся единичный верблюд в Челябинской области. Чуть с ума не сошли, думали, баг, попросили проверить – там реально кто-то держит верблюда. Чаще бывают ситуации вроде ошибок заполнения – коров две, из них молочных – пять. С планшетами будет проще, там на уровне UI будет множество проверок.



    Комплекс ввода – одна из интересных частей. Сначала стояли наши российские промсканеры, как на фото, но на последней переписи использовались уже иностранные. 150 листов в минуту. Мировая практика – отдавать дальше на распознающую машину, потом на верифицирующую. Три машины – дикая роскошь, поэтому мы собираем один ПАК, где прямо во время сканирования оператор может на экране видеть данные и править то, что не смогла «разжевать» система.

    Естественно, самую большую сложность на этой стадии вызывают разные почерки. У нас, к счастью, есть много опорных данных – на машиночитаемых документах предостаточно меток, позволяющих точно определить направление текста, где он на странице и так далее. Где должны быть числа, где название села и так далее, что сокращает количество гипотез. Поэтому мы смогли загнать в распознавание не только более-менее печатные цифры, но и множество образцов почерка. На первых переписях мы собрали базу самых распространённых почерковых особенностей и смогли успешно распознавать подавляющее большинство рукописных текстов на наших бланках.


    Экран обучения «помогите роботам»: поменьше петель, линии по возможности без разрыва, не обводить цифры второй раз, стараться не выходить за поле. Всё равно встречаются плохие варианты, но после обучения их куда меньше.

    В итоге совсем немного, существенно менее процента, нужно править руками. Собирается специальная база плохо распознанных документов, которую добивают операторы.

    Затем – ещё одна проверка, на этот раз физическая. Должен быть килограмм документов, судя по массе – не хватает 20 бумажек. Под столом не забыли?

    Потом формально-логический контроль, установление связей данных.

    И только потом отправка.

    Результат


    Численность необходимого персонала за счёт автоматизации почти каждого шага мы уменьшили очень существенно. Для примера – даже тот же маршрутный лист составляется автоматически, что оптимизирует время обхода участка.

    Персонал в таких мероприятиях – самое дорогое удовольствие, и даже 5-7 дней работы ЦОДа TierIII в сравнении с этим – копейки.

    Постановка задач на таких проектах очень и очень необычная. Заказчик отлично понимает свою специфику, готов объяснять – но не мыслит категориями разработки. Первый раз мы получили 700-страничный кирпич – почти художественный текст в качестве ТЗ, который аналитик превращал в требования. Второй раз и дальше заказчик уже начал понимать, как объяснять это нам, а мы начали глубоко разбираться в теме и понимать их жаргон. Практика показывает, что стоит взять, например, ведущего тестировщика после получения задачи, а не до, и всё, где-нибудь он наколется на незнании специфики. За глубокие знания темы нас очень ценят – это ключевое в разработке таких решений.

    В короткий срок мы перелопачиваем кучу данных. Повторить процедуру нет шанса, поэтому огромные бюджеты уходят на тестирование. Набираем даже специально обученных колхозников-пенсионеров, задача которых – максимально вредничать. Справляемся. Мы понимаем, что участники переписи – профессионалы в своей теме, и совершенно нормально не работать с IT. Делаем очень простые интерфейсы. Думаем о юзабилити решений на распознавании-проверке. Экономим время и нервы многим. Это сложно, и очень интересно.

    Следующая перепись ВСХП будет уже в 2016 году. Всероссийская перепись населения — запланирована на 2020. По профессиональным вопросам можно писать мне на ICherepov@croc.ru или прямо здесь в комментарии.
    КРОК
    IT-компания

    Comments 109

      +17
      Вы молодцы. Но у меня есть риторический вопрос: зачем вообще нужна перепись населения? А если она нужна, зачем нужны ФМС, ФСБ, МВД и прочие структуру, которые все равно всегда знают мои данные (но почему-то запрашивают, ага)?
        +2
        Проект Электронная Россия был успешно распилен, и поделен еще до своего запуска. Ввиду отсутствия налаженного электронного документооборота нельзя узнать кто родился, кто умер или кто сменил гражданство/пол/фамилию/имя. Поэтому все по старинке. Ну и к тому же любой госинститут отличная кормушка для кого-то.
          +3
          Выскажу свое мнение, т.к. немного занимался переписями тоже.
          В переписи спрашиваются не только учетные данные, но и данные, которых в базе данных нет.
          Например:
          1. Время на работу
          2. Кто фактически входит в домохозяйство (не путать с семьей).
          3. Планируют ли еще рождение детей.
          4. Другие вопросы о планах людей на будущее.
            +2
            + национальность и вероисповедание, что тоже особо в госбазах не сыщишь.
              –5
              И зачем нужна статистика по национальностям и вероисповеданиям?
              Чтобы знать сколько хиджабов шить и сколько ножниц для обрезания точить?
                +2
                В прошлой переписи чуть не появилась национальность «Сибиряк» из-за того, что многие так ответили(там какие-то законы есть). Так что это очень давно важные вопросы! ;)
                  –1
                  Я правда недоумеваю — зачем нужна статистика по национальностям и вероисповеданиям (теперь еще к этому недоумению прибавилось недоумение почему мой вопрос вызывает негативную реакцию).
                  Вам так важно знать, сколько в стране татар, чукчей и казахов? Зачем вам это?
                  Чтобы гордо ощущать себя частью «многонационального народа» и вписать достижение в книгу рекордов Гиннесса?
                  Или чтобы гордиться принадлежностью к «титульной нации» (тьфу, какое противное словосочетание)?
                  Или чтобы было на кого сваливать вину за то что в кране нет воды?

                  Если уж у нас по законам страны все равны, то какая пофиг разница *для статистики* кто к какой национальности себя причисляет? Статистика по размеру черепа и то на мой взгляд больше значения имеет — чтобы знать какого размера противогазы делать для армии.

                  С вероисповеданием та же петрушка. Вам количество мусульман надо знать чтобы коврики для намаза были бы не в дефиците? Их шьют по приказу царя что ли? Или чтобы церквей на душу православного населения было бы больше чем у соседей и можно было бы блеснуть на международной арене с цифрой, что у нас самое лояльное к религии государство?

                  Или может быть кто-то проводит селекцию населения и как Мичурин записывал в блокнотик о том что он получил скрещивая яблоню с помидором этот «кто-то» должен знать что будет, если на ограниченной территории поселить украинцев и белоруссов по национальности? Типа через сто лет они ассимилируются, дадут потомство, которое будет всё поголовно голосовать за правящую партию?
                    +4
                    Всё проще, на программы поддержки малых народов и редких языков тратится нехило денег, и перепись — один из немногих инструментов контроля результативности этих программ.
                      –2
                      А, ну значит про Мичурина я не так уж далёк от истины. Он тоже записывал насколько будет больше яблок, если прививать грушу на рябину и удобрять сие навозом. Назоз-то денег стоит! Надо обязательно следить и контролировать.
                      +1
                      «Зачем вам это?» совершенно не по адресу вопрос. Они исполнители, а не заказчики переписи.

                      А вот руководству страны или области, такие данные могут быть полезны.
                        0
                        «Зачем вам это?» — это вопрос читателям этих строк, а не сотрудникам компании, обеспечивающим техническую часть переписи.

                        Насчет же «руководства страны или области» — они у нас из другой касты что ли? Они имеют какое-то сокровенное знание, что если в области узбеков больше чем киргизов, то надо в следующем году на полях сажать рожь, а не овёс? Если существуют программы поддержки малых народностей — неужели это нельзя и решать на региональном уровне региональными средствами? Райотдел полиции и городской ЗАГС вам хоть каждый день оперативную сводку по своему району может давать. Родился тофалар — добавляем к числу тофаларов единичку. Умер калмык — вычитаем из числа калмыков единичку.
                          0
                          Дело не в касте а в практическом применении.

                          Знать сколько в определенном регионе принадлежит той или иной религии — полезно, если вдруг приходят и просят выделить место под еще одну церковь/мечеть/синагогу. А ты уже оперируешь конкретными цифрами.
                          Знать сколько крымских татар в крыму, также полезно именно руководству страны.

                          Кроме того, такие данные и продать можно.

                          А в данной статье вообще не про это а про решение сложной технической задачи со своими нюансами.
                            –2
                            > Знать сколько крымских татар в крыму, также полезно именно руководству страны.

                            Вы хотите сказать, что у меня нет шансов стать у руля страны, потому что я не вижу пользы в знании сколько татар в Крыму? Я вот и хочу узнать что-то для себя новое, научиться мыслить в государственном масштабе и поэтому задаю вопрос — какое-такое сокровенное знание в нынешней реальности дает точное число татар в Крыму пятилетней давности собранное студентами-переписчиками? Блеснуть эрудицией в телевизоре назвав цифру?

                            > Кроме того, такие данные и продать можно

                            Кому продать? Турции? Чтобы те знали потенциальное число предателей в случае нападения на Россию? Или может быть Майкрософт заплатит за статистику сколько людей знают башкирский язык для того чтобы включить еще одну локаль? Не кажется ли вам, что потенциальные доходы от подобной статистики не отбивают вполне реальные расходы на расчеты?
                              0
                              Мы слишком далеко отошли от темы поста, поэтому это мой последний комментарий на ваш.

                              Насчет расходов — перепись и так УЖЕ оплачена и регулярно проводится. Добавить в нее лишний пункт для опроса — практически незначительно меняет стоимость всего процесса.

                              Но, чтобы научиться мыслить в государственном масштабе, IMHO нужно иметь хотя бы какое-то подобие полномочий в государственном масштабе (власть, деньги). Шансы стать у руля страны есть у каждого, но много вы знаете выдающихся рулевых?

                              Знание количества татар в крыму, украинцев в крыму и русских в крыму дало весьма точную оценку риска, и после некоторых событий мы видим чей теперь Крым.

                              В качестве продажи данных, да например банальный распил — я знаю, что представителей религии1 в городе 5000, представителей религии2 в городе 15000.
                              Исходя из этого, я могу предположить, что доходы религии2 гораздо выше, и если у меня есть выбор строить храм\мечать для религии1 или религии2, я могу договориться с главой религии2 о гораздо бОльшем откате.

                              И все вышеперечисленное это мои жалкие, почти студенческие взгляды на то, как можно использовать эту информацию. Что уж говорить про зубров политики.

                                –2
                                Ну, раз вы закончили, я оставлю свое мнение. Простите. Вы своими аргументами только подтверждаете мою уверенность в том, что перепись населения нужна власти ровно постольку поскольку пастуху нужен учет баранов. Чтобы не разбегались и чтобы знать сколько нужно ножниц для стрижки шерсти.

                                > после некоторых событий мы видим чей теперь Крым

                                Благодарю вас за то, что мы можем на страницах уважаемого ресурса вести разговор не впадая в политические споры. Ну а что делать, если «руководство страны» вдруг видит слишком большую концентрацию определенной нации/веры в регионе? Выселять немцев в Поволжье, а крымских татар за Урал? Или загонять евреев в концентрационные лагеря? Жесть. На словах-то мы вроде осуждаем, а в реальности контролируем, учитываем и недопущаем?

                                > В качестве продажи данных, да например банальный распил

                                Я к этому и сводил. Что это кому-то выгодно — знать сколько в стаде черных, а сколько белых баранов. Чтобы знать кого на шашлык, кого на шерсть, а кого можно как производителя использовать.
                                  +2
                                  Давайте не втягивать сюда политику, а?

                                  Если кратко, то:
                                  1. Любая власть, которая не знает с достаточной точностью сколько где людей обладающих определёнными предпочтениями в еде, одежде и отношению к мечетям и церквям достаточно быстро получает приставку «бывшая». Это проверенный временем факт.
                                  2. Ваше отношение к пункту один и любовь к словам «баран», «стрижка», «пастух» и прочему истинности пункта №1 не меняет.
                                  Всё.

                                  Разговоры же про ЗАГСы, которые там что-то куда-то прибавляют — это такой детский лепет, что дальше уже просто разговаривать ни о чём не хочется.

                                  P.S. Вам вообще такое понятие как инвентаризация знакомо? Или вы считаете, что её тоже какие-то недоумки придумали?
                                    0
                                    > Давайте не втягивать сюда политику, а?
                                    Я очень стараюсь. Просто хочу разобраться в процессах.

                                    > [...]Любая власть, которая не знает[...]
                                    Зачем это власти — я понимаю. Зачем это государству, в смысле обществу, в смысле населению? Аргумент, что обществу выгодно иметь власть, которая не хочет стать бывшей я не считаю бесспорным.

                                    > Вам вообще такое понятие как инвентаризация знакомо?
                                    Да, но есть существенное отличие. Инвентаризацию ведет человек и инвентаризует он имущество. У имущества как-то не принято спрашивать «хочешь ли ты чтобы тебя пересчитывали?». Если же старшина строит взвод на плацу и командует «голубоглазые — направо, русоволосые — налево» — неужели нельзя поинтересоваться, просто спросить: «а зачем?»
                                      0
                                      Аргумент, что обществу выгодно иметь власть, которая не хочет стать бывшей я не считаю бесспорным.
                                      Если вы хотите жить в Сомали — вы можете уехать в Сомали, какие проблемы. Поживёте там немного, может смените своё мнение.
                                        0
                                        Ох, ну зачем доказывать примерами и аналогиями? Вы мне еще Зимбабве предложите рассмотреть для эмиграции. Про то, что там проводилась всеобщая перепись населения я, честно говоря, не слышал. В вики данные переписи за 1926 год, остальные данные оценочные. Может быть они так плохо живут, потому что не проводят перепись? Но если они не проводят перепись — почему Мугабе не становится «бывшей властью» уже лет сорок?

                                        Чуть выше приводился пример, что статистика о вероисповедании помогает решить вопрос о предоставлении места под богослужение. Расмотрим вариант — к мэру приходят представители различных конфессий. Аргумент православных: «нас больше, поэтому надо строить церковь». Аргумент мусульман: «нас меньше, но в городе нет мечети — строим мечеть». Представитель атеистов скажет: «религия — опиум для народа, надо строить дом культуры». А представитель какой-нибудь местной языческой религии попросит какой-нибудь тотем и будет аргументировать это, что малые народности и самобытность надо поддерживать. В результате, получается, что статистика вроде как есть, но вроде как и не является критерием для совершения действий.
                                        0
                                        > Зачем это государству, в смысле обществу

                                        Прошу прощения если был не понят, но под словом «государство» я подразумевал именно власть. IMHO это очевидно.
                                        Заказчик же не рядовой гражданин.

                                        > Если же старшина строит взвод на плацу и командует «голубоглазые — направо, русоволосые — налево» — неужели нельзя поинтересоваться, просто спросить: «а зачем?»

                                        Если вы будете в армии, я настойчиво рекомендую не задавать старшине лишние вопросы.
                                          0
                                          > Если вы будете в армии

                                          Я уже был в армии. И задавал старшинам вопросы, если видел что они занимаются фигней непонятной для меня. Как ни странно, иногда получал на это внятные ответы. В других случаях получалось убедить человека не заниматься глупостями. То ли потому что я был старлеем, то ли потому что иногда заданный вопрос приводит человека к ответу, о котором тот даже не подозревал до этого.
                                        0
                                        Всё таки термин «инвентаризация» по отношению к людям звучит как то цинично.

                                        Хотя в принципе, насколько я знаю, никто не мешает ответить на опросе что по национальности ты минматарин, по религии джедай а зарплата у тебя 200 000 рублей :)
                                          0
                                          Так и представляю:
                                          — Скажите что у вас зарплата 200,000 и получить пиво в подарок.
                                          А потом местные власти отчитываются красиво.
                            0
                            Предполагаю, что негатив из-за
                            сколько хиджабов шить… ножниц для обрезания точить
                              0
                              что в этом негативного?
                              что естественно (популярно в более-менее крупных социальных группах) — то не зазорно.
                        0
                        Про вероисповедание последний раз спрашивали в переписи 1937г. вроде =)
                          0
                          Да, вы правы, в последнее время при переписи в России вопрос о вероисповедании не ставится в опросных листах.
                          Хотя я говорил не только России. В Казахстане, например в 2009 году при переписи этот вопрос звучал
                            0
                            В РФ же членов конфесий считают по опросам с выборками 1600 человек.
                            Поразительно просто, как можно тысячу опрошенных экстраполировать на сотню миллионов человек.
                            0
                            Так вроде бы в России в это время было официально введен атеизм и масштабно «попов гоняли», я думаю что задавать вопрос о вероисповедании в официальной переписи в то время было несколько некорректно даже для НКВДшников )
                          0
                          Существуют всякие «центры изучения общественного мнения» — ВЦИОМ, Левада и т.п.
                          По любому вопросу они собирают статистику, и обычно добавляют «погрешность составляет не более 3%».
                          Непонятно, почему бы не применить этот подход и для альтернативы «всероссийской переписи».
                          Вряд ли так уж необходима государству 100% точность, зато можно упростить процесс, сэкономить и делать «переписи» не раз в 10 лет, а гораздо чаще.
                            +3
                            ВЦИОМ, Левада и другие, чтобы установить квоты на представленность в выборке отдельных страт населения — городского, сельского, по регионам — используют данные Росстата. Если вы не знаете, какую долю в населении РФ составляют 35-летние жительницы сёл Мордовии, откуда вам знать, сколько их заложить в выборку?

                            Конечно, если бы каждый житель РФ был бы пронумерован подряд, и ВЦИОМ, когда взбредёт в голову, мог бы rand() ом выбрать из этого списка номеров пару тысяч и на все эти номера «позвонить», то перепись была бы не нужна.

                            Но беда в том, что шанс попасть в случайную выборку у московской пенсионерки и уральского лесоруба в реальной жизни — весьма разный. Поэтому раз в 10 лет надо абсолютно всех-всех пересчитать.
                              0
                              >Конечно, если бы каждый житель РФ был бы пронумерован подряд,
                              СНИЛС, не?
                                0
                                перепись же собирает не только граждан РФ, а реально проживающих
                                  0
                                  СНИЛС не выдаётся, к примеру, белорусам, работающим в РФ.

                                  Если вы работаете за зарплату в конверте, как это делает четверть населения страны, ваш СНИЛС вообще нигде не светится.

                                  У несовершеннолетних в основной массе СНИЛС нету.

                                  Мне продолжить, или достаточно?
                            0
                            Это общемировая практика, вообще-то.
                              0
                              Кроме аргумента «все так делают» — что-то еще?
                              0
                              В США, например, перепись была прописана прямо в конституции, несмотря на всё либертарианство отцов-основателей:

                              Representatives and direct Taxes shall be apportioned among the several States which may be included within this Union, according to their respective Numbers, which shall be determined by adding to the whole Number of free Persons, including those bound to Service for a Term of Years, and excluding Indians not taxed, three fifths of all other Persons. The actual Enumeration shall be made within three Years after the first Meeting of the Congress of the United States, and within every subsequent Term of ten Years, in such Manner as they shall by Law direct.


                              Что же до «ФМС, ФСБ, МВД» — радоваться надо, что вас считают не бюрократы, а отдельная структура, которой от того, сколько насчитали, ни тепло, ни холодно. Вот статистику преступлений считает МВД по числу заявлений в полицию. Потому так и тяжело подать заявление на кражу мобильника — «статистику портит».
                                0
                                Конституция США была написана 250 лет назад. У меня есть все основания предполагать, что тогда не было централизованных электронных баз данных по населению.
                                  0
                                  Если какой-то из американских президентов вдруг задумает заменить переписи «централизованной электронной базой», то ему, боюсь, скоро-скоро напомнят про «it is the Right of the People to alter or to abolish it, and to institute new Government»

                                  И будут правы.
                                +3
                                Это вы просто с людями не работали. Периодическая инвентаризация необходима всегда и везде, будь то склад или страна. Потому как по отчётам компетентных органов всё зашибись и показатели растут в космос, а по факту давно ничего нет.
                                Местные власти, например, очень любят не выписывать людей, когда те куда-то переезжают. Потому что очень много где копеечка из бюджета капает за каждую единицу населения. Кроме того, и сами люди часто не спешат/не могут перепрописываться на новом месте, потому что, допустим, снимают квартиру без официального договора.
                                Собственно говоря, проводимая независимой от всех этих фмс, мвд, фсб структурой, не заинтересованной в подтасовки результатов, является единственным хоть сколько-то надёжным показателем эффективности работы властей. Как региональных, так и федеральных в целом. Потому что если в регионе за 10-12 лет с прошлой переписи народу резко убыло, то это говорит о ситуации не только лишь всё.
                                К сожалению, власти фишку давно прохавали, и в особо упоротых муниципалитетах студенты переписывают не реальных людей, а сведения из ментовской картотеки. Но это всё же шаг вперёд по сравнению с совком, где, бывалоча, приказ нарисовать нужные данные приходил лично от генсека, а настаивающих на своём статистиков расстреливали.
                                  0
                                  Про студентов мы очень верно заметили, потому как все известные мне люди, кто участвовал в переписи, вписывали в анкеты рандомные имена, чтобы населения было «по плану».

                                  А вот с инвентаризацией — Вы путаете понятия. За шкафом никто не следит, а вот как раз инвентаризация — тот самый надзорный орган.

                                  С другой стороны, человек. Все знают о его рождении (свидетельство о рождении), достижение 14-летия (1 паспорт), 20-летия (2 паспорт), 45-летия (3 паспорт), выхода на пенсию (пенсионные карты) и смерти (свидетельство о смерти). Плюс сюда попадают всякие промежуточные варианты типа загранпаспорта, смена паспорта (новая фамилия, утеря документа и т.д.), получение водительского удостоверения и т.д.

                                  В итоге мы имеем, что государство все о вас знает, но зачем-то считает. Вы скажите, что не везде все это есть, и в селе Кукуево хрен знает, кто вообще живет. ОК, давайте их и посчитаем, но зачем это делать в Москве, Питере, Великих и Нижних Новгородах и т.д.?
                                    0
                                    ОК, давайте их и посчитаем, но зачем это делать в Москве, Питере, Великих и Нижних Новгородах и т.д.?
                                    Вот как раз в Москве или Питере без переписи узнать сколько и где живёт народу без регистрации непросто. Другое дело что и с переписью всё не совсем шоколадно, но лучше что-то, чем совсем ничего.
                                      +1
                                      и смерти (свидетельство о смерти)


                                      Вот тут над вами ржут все демографы, в голос.

                                      Давайте не будем про «кавказское долголетие», возьмём пример понейтральнее. Вот Греция — в 2011 её жёстко накрыл кризис, и греки стали вынуждены считать гос. деньги. Какая-то светлая голова в греческом «пенсионном фонде» («IKA») вдруг сказала «а чего это у нас дофига граждан по сто двадцать лет? А давайте их навестим?»

                                      В результате в стране с 11 миллионами человек было выявлено сто двадцать тысяч случаев, когда бабушку/дедушку тихо похоронили, а вот пенсию за них продолжили получать. Самый дикий случай — это 130-летний пенсионер, который фактически умер 30 лет назад.
                                  +1
                                  Было бы круто, если можно было бы поучаствовать в переписи онлайн, например, запросив по почте заранее ключ для регистрации для исключения троллинга.
                                    +3
                                    Как вы думаете зачем это было нужно? Неужели не проще было собрать и свести базы всех госорганов?
                                      +9
                                      Интереса ради посчитал сколько бумажек у меня от государства: 1 — свидетельсво о рождении, 2 — паспорт, 3 — снилс, 4 — инн, 5 — полис омс, 6 — военный билет, 7 — водительское удостоверение, 8 — загран. Не говоря всяких птс, дипломе и т.д.
                                        +1
                                        Без создания единой базы (с которой работали бы все госорганы) это нереально. Слишком разношёрстная информация, нет уникального идентификатора, по которому их можно было бы сгруппировать. Не по ФИО же.

                                        Приведу утрированный пример: есть база льготников соцзащиты. Уникальным там является номер дела, паспортные данные и всё остальное — от балды. Номер дела повторяется в соседних районах, не говоря уже про область, и страну в целом. Наверх передаются только общие сведения с районов, в разрезе по отдельному человеку данные нужны только на местах. Состыкуйте её с чем нибудь ещё?
                                        Такая же ситуация и с остальными ведомствами, предполагаю.
                                          +3
                                          Все довольно просто или ИНН или СНИЛС эти два номера не меняются при изменении параметров человека то как ФИО, дата рождения, а номер паспорт меняется.
                                          И проблема совсем не в количестве бумажек, а в ом что за каждой «государственной» структурой стоят свои лоббисты-распильщики.
                                          Для примера СНИЛС еще в 1997 году предлагалось сделать на платик, но лоббисты победили здравый смысл.
                                            –2
                                            Угу. И дать поручения всем ведомствам модернизировать свои базы + собрать недостающие сведения (те же СНИЛС), т.е. выделить на попил ещё больше, чем на перепись.
                                            Плюс есть много индивидуумов, не имеющих этих документов.
                                            0
                                            А с какого это черта паспортные данные — от балды?
                                            Вот по номеру паспорта пусть стыкуются.
                                              +1
                                              Он меняется. Замена паспорта -> новый выдан -> новые сведения только в паспортном столе, до других учреждений они доползут через годы.
                                                0
                                                Я в принципе не вижу никаких проблем.
                                                Запись о смене паспорта есть? Есть.
                                                Сопоставить два номера паспорта и одного человека можно? Можно.
                                                До других учреждений новые сведения в единой БД доползут мгновенно.
                                                  +2
                                                  Есть дофига учреждений, где номер паспорта вообще не нужен. Как с такими быть?
                                                  Говорю же — связать все базы, без перевода на единую, нереально.
                                                    –4
                                                    Всегда есть какой-то ID, который используется не только этим учреждением.
                                                      0
                                                      Нет. В этом и проблема.
                                                      Он появляется, если возникает необходимость электронного обмена данными, а она возникает очень редко, не зря все бегают с бумажками. Нужно что-то от нас? Принеси справку от них — внесём.
                                                        +1
                                                        Не встречал ни единого госучреждения, где что-либо производилось без запроса хотя бы одного документа.
                                                +2
                                                Учёт по паспорту не позволит выявить миграцию.

                                                Например, государство знает, что выдало вам паспорт, скажем, в Уфе. А переписчик застанет вас в общежитии ВУЗа в Питере.

                                                Основываясь на этом знании Минфин накинет Питеру денег по статье «высшее образование», а башкирский региональный бюджет будет знать, что ему на вас рассчитывать не стоит в плане будущих налогов.

                                                Ключевой момент переписи в том, что все вопросы задаются на определённый момент. Если ребёнок родился на утро после часа X, его не засчитают. Если вы были в командировке в соседнем городе — вас посчитают туда. Такой типа snapshot, ага.
                                                +1
                                                как человек, который работал над созданием единого реестра всех физиков клиентов одного банка (входит в ТОП), всевозможные данные выгруженные разными людьми по всей стране из их локальных баз разнообразных банковских софтин, не согласен с нереальностью.
                                                С задачей справилась небольшая ит комманда, поэтому я не вижу проблем для государства сделать тоже самое, с точки зрения ИТ.
                                                Со всех ведомств выгружаются данные, загружаются в единый центр гос.данных (понятно, что кластеризованно по стране).
                                                Все персональные данные о человеке полиция, гаи, фмс, пенсионный, налоговая, закс и тд и тп прочие зеркалируют с гос. базой данных. (те фактически в существующую базу данных условной фмс добавляем ключ ссылку на ту базу данных) и любые изменения данных синхронизируются.
                                                Далее в головной базе данных начинается долгий и нудный процесс мерджа пользователей по единым документам, по снилсам, инн и тд

                                                имхо это будет стоить дешевле переписи, где полмиллиона человека ходит ногами, а им никто не открывает.

                                                А картинка в базе данных будет вырисовывать очень даже интересная.

                                                С точки зрения ИТ не вижу ничего сложного.
                                                С точки зрения слежки, так они и так за нами как могут, уже следят.
                                                  0
                                                  Собственно вы сейчас и описали «единую базу», и процесс её наполнения. Да, всё это решаемо, но я не знаю, на сколько качественна будет информация по сравнению с переписью. Хоть тут и привели много примеров вбросов, но все они касаются крупных городов, в провинции перепись была проведена очень неплохо.
                                                +4
                                                В базах госорганов содержится только информация, нужная им. При этом данные там могут быть заполнены формально или устареть.
                                                Во время переписи собираем информацию:
                                                — в том числе о домохозяйствах и взаимоотношениях между членами домохозяйств, чего нельзя получить из других источников (например, гражданский брак);
                                                — респондент отвечает более открыто и по самоопределению — во время переписи не требуется подтверждать сведения;
                                                — в сжатый промежуток времени — т.е. получаем практически слепок текущего состояния
                                                Безусловно, сведения из других органов можно использовать как дополнительную информацию (и это делается в ряде стран), процесс можно развивать.
                                                0
                                                Используются ли эти данные для практического прогнозирования? К примеру, начали осваивать новые сх территории => прогноз+рекомендации установления оптимального дорожного сообщения в регионе
                                                  0
                                                  По сельхозке данные точно использует Минсельхоз. Как конкретно не скажу, мы же айтишники, а не государство. По ВПН — это данные — основа для всех социальных программ государства, они как раз базируются на численности, национальности населения и т.п.
                                                    0
                                                    Результаты переписи — это основа с которой начинается любое прогнозирование обстановки в стране. Дальше на неё навешиваются всякие опросы, оценки и т.д. и т.п., но это всё «бантики».

                                                    Просто потому что все остальные данные требуют экстраполяции/корректировок/etc, что автоматически делает их менее надёжными. Перепись точнее даже несмотря на то, что кто-то от неё бегает, а кто искажает свои данные.
                                                    +8
                                                    Очень интересная тема. Приятно что у нас хоть что-то выполняется как нужно.
                                                    А вот это улыбнуло:
                                                    Чаще бывают ситуации вроде ошибок заполнения – коров две, из них молочных – пять.

                                                    Напомнило:
                                                    — Вкусное молоко ваша корова даёт!
                                                    — Вообще-то у нас бык.
                                                      +6
                                                      Участвовал в обходе при прошлой переписи в Москве, в р. Перово, т.к. заставили в универе. 50% людей не открывали квартиры или н еподавали признаки жизни, еще 30-40% удавуалось переписать. Делалось это днем в рабочее время в будние дни, что является идиотизмом. Все участники — студенты 1-3 курсов… Большая часть — раздолбаи (каким и я был). Суть в том что то, что дойдет до электронной обработки уже будет неактуально как минимум.
                                                        +1
                                                        Делалось это днем в рабочее время в будние дни, что является идиотизмом.

                                                        Тоже этого не понимал. Не проще ли связаться с организациями и переписать днём всех сотрудников кучей?
                                                          –1
                                                          Все на чем можно заработать много денег никогда не будут делать проще, причем я не говорю что это только у нас в стране. Например авторам поста проще заминусовать мой коммент :)
                                                          +2
                                                          Это штатная ситуация по Москве, где люди редко открывают. Решается статистическими методами. То же слово «импутация» тоже не для красоты существует. Но это специфика именно Москвы. В регионах люди дрались за оклад переписчика, который для Москвы был мизерным. Насколько я понимаю, эту ситуацию хотят в дальнейшем по возможности исправлять.
                                                          +1
                                                          Где можно посмотреть какую-нибудь статистику и инфографику по результатам вашей работы?
                                                          +3
                                                          Ммм, не слышал слово «тоссятся» со времен Fido…
                                                            0
                                                            Почему «MS SQL»?
                                                              0
                                                              Потому, что привыкли. Несколько терабайт можно засунуть хоть куда, даже в тот же MySQL или Postgres.
                                                                0
                                                                Видимо потому что MySQL с большими объемами данных работает ну очень неповоротливо (я про сотни миллионов). В InnoDB это не засунешь, эффективно работать не будет, если таблица в память не влезет. Так что терабайтами нормально ворочить она вряд ли когда будет. Ну а репликация таких объемов это некий ад в mysql. Postgres конечно уже получше, но ведь помимо тупого написания запроса нужно знать еще и тонкости оптимизации этих самых запросов, знать внутренние механизмы БД. Нужно правильно администрировать, иначе любая БД может слиться до скоростей ниже плинтуса.
                                                                  0
                                                                  Ну во-первых, говорим MySQL, подразумеваем MariaDB. Во-вторых, для единиц терабайт данных и сотен миллионов строк есть замечательный ENGINE, называется TokuDB. Он включен в поставку MariaDB 10. У него несколько алгоритмов сжатия данных и хитроумные индексы. Я на практике с помощью TokuDB ужимал терабайт данных до 100 гигабайт на диске, так что всё влезало на один SSD. Довольно сложные OLAP запросы на этой базе у меня выполнялись за минуты.

                                                                  Что касается репликации, то на таких объёмах данных её зачастую нет смысла делать. Проще держать отдельно исходные данные на файловой системе и пополнять из них одновременно несколько баз данных.

                                                                  Про Postgres говорить не буду, как любитель-сисадмин я его для себя похоронил. Его пользовательский интерфейс и идеология интеграции с ОС не менялись с тех пор, как Майкл Стоунбрейкер написал код Ingres.
                                                              +1
                                                              Такого масштаба проектов в OLAP в мире считанные единицы.

                                                              Обосновать можете?
                                                                0
                                                                Основное отличие нормальной штатной работы от переписи в том, что перепись – это почти DoS-атака. Данные пришли, и результат должен быть даже не «немедленно», а «внезапно».

                                                                Размер данных = размеру активной партиции, исторической нет (точнее она не нужна).
                                                                Очень широкие таблицы фактов. В ходе обработки уткнулись, сначала в то что, максимальное число ключей на таблицу – 253, потом, что максимальное число колонок 1024.

                                                                Вот еще занятное ограничение 2005-го аналайзиса: если сделать бэкап со сжатием, а потом бэкап восстановить, то партиции больше 4х гиг корраптятся без сообщений об ошибках. А у 2008R2 после установки SP2 при запросе всех значений через DrillThrow начинается хронический OutOfMemory.
                                                                И из всего этого извлекаются десятки миллионов отчетов Excel с довольно жесткими требованиями к оформлению, т.к. в регионах так удобнее работать.

                                                                Еще одна «вкусняшка» — отчеты почти всегда нерегулярной структуры (это сделано для удобства использования заинтересованными лицами), часть отчетов содержит measures по обеим осям.
                                                                  0
                                                                  > больше 4х гиг корраптятся без сообщений об ошибках

                                                                  MSOLAP версии 2008 (включая СП2) не поддерживает MOLAP дайменшены размером больше 4х гиг.
                                                                  Это ограничение снято в версии 2012.
                                                                    0
                                                                    * это можно обойти переключив дайменшен в ролап, но тогда запросы становятся сильно медленней
                                                                    ** возможно мы говорим о разных проблемах и я Вас не так понял
                                                                +3
                                                                В РФ реально нет какого-то единого идентификатора для человека, и каждый документ связан только через ФИО и дату рождения?
                                                                Я гражданин Молдовы, и у нас единая база уже лет 10, если не больше. На внутреннем паспорте есть персональный код из 13 цифр, и даже если тебя остановил полицай, и у тебя других документов нет кроме паспорта, он по этому номеру сразу найдет и права твои, и техпаспорт на машину, и техосмотр. Так же куча государственных смс служб по проверке на наличие штрафов и нарушений, по этому коду даже можешь получать уведомления о нарушениях, снятых камерами по городу, сразу смс на телефон приходит.
                                                                В прошлом году была перепись, и если показываешь документ чтоб женщина записала твой код, то фио и остальные данные можно было не называть вообще, задавали только вопросы на общие темы, о состоянии семьи, о планах, и тд.
                                                                  +2
                                                                  В РФ реально нет какого-то единого идентификатора для человека, и каждый документ связан только через ФИО и дату рождения?

                                                                  Как выше говорил — реально нет. И каждый документ, по сути, ни с чем не связан, он варится в каше своего ведомства, которому на остальные ведомства глубоко плевать.
                                                                    0
                                                                    В последнее время, в качестве такого номера пытаются использовать номер СНИЛС, со своими сложностями. Это примерно как естественный ключ в БД, хотя правильнее было бы создать суррогатный.
                                                                      0
                                                                      У нас в Казахстане в 12 цифр уложились.
                                                                        0
                                                                        Всего на Земле сейчас 7 миллиардов. В 32 бита индекс не поместится.
                                                                        За все время цивилизации 107 миллиардов (число кажется неправдоподобно маленьким, да?)
                                                                        В общем, 64 битов на идентификатор каждого индивидуума должно хватить с избытком.
                                                                        В «избытке» можно дополнительно хранить дату и географическую координату места рождения, пол и еще что-нибудь типа бита чётности :)
                                                                        Но наша православная церковь почему-то яростно протестует против нумерации граждан.

                                                                          0
                                                                          Дата рождения (8 цифр) + 3-6 цифр в зависимости от страны
                                                                            0
                                                                            В Казахстанском ИИН первые 6 цифр = дата рождения.
                                                                            В оставшихся 6 что-то еще кодируется.
                                                                            Плюс вроде еще есть привязка к ЗАГС-ам.
                                                                        –1
                                                                        Верно! В Германии, Франции, Швейцарии, Англии и Америке испульзуют номер мед страховки как основной.
                                                                        А вот собственно и Киргизия в списке, откуда я родом: www.news-asia.ru/view/7096
                                                                        То есть это не зависит от населения, или богатсва страны. Так почему же нельзя такое и в России предпринять?
                                                                        0
                                                                        Графы родства строите? Т.е. можете ли вы теоретически рассчитать количество ребер (степень родства) между двумя произвольными людьми? По аналогии с найденным верблюдом сможете найти конкретного человека?
                                                                          0
                                                                          Вопросы о родстве задаются членам одного домохозяйства. В пределах домохозяйства выделяются семейные ячейки. На основе построенных связей строится тип домохозяйства, включая, например, такой «Домохозяйства, состоящие из супружеской пары без детей и с детьми, обоих родителей одного из супругов без детей и с детьми, прочих родственников (или без них) и не родственников»

                                                                          Более точно так: все связи между лицами выстраиваются, большая часть используется при определении типа семейной ячейки и типа домохозяйства.

                                                                          Т.к. все ответы в ходе переписи анонимизированы, то естественно, выстроить связи между лицами разных помещений нельзя. По той же причине нельзя найти конкретного человека.
                                                                          +5
                                                                          Немного удивил экран «помогите роботам написать цифры».
                                                                          Еще в древних конвертах для обычных писем, были промаркированы точки, которые просто следует обвести, чтобы написать числа. У вас же просто пустое поле и куча примеров с ошибками.

                                                                          Но ведь вот так гораздо лучше:

                                                                          habrastorage.org/files/1d9/8d7/7e5/1d98d77e5d924753bcf7d3829996ce1d.jpg
                                                                            0
                                                                            Переписчик заполняет документы на коленке, на морозе, десятки листов в день. Выводить машиночитаемые фигуры он не станет в любом случае, это просто нереально. Либо нужно вводить премиальные и штрафные за кол-во плохо заполненных бланков, что привносит еще один — имхо ненужный — слой сложности в систему (идентификация и учет переписчиков и заполненных ими бланков).
                                                                            +1
                                                                            Только хотел задать вопрос про планшеты/смартфоны и, перечитав, увидел небольшое упоминание о том, что планируется. И давно уже пора. Никаких проблем с распознаванием и бумажной рутины. Всё сразу в электронном виде отправляется на сервера. Не вижу ни одного выдающегося преимущества бумажной переписи перед электронной.
                                                                              0
                                                                              Во всероссийской переписи населения в 2010 году участвовало 500 тысяч человек и ещё 10 тысяч IT-пользователей во всех субъектах РФ.

                                                                              А в АНБ работает приблизительно от 30000 до 40000, из которых примерно 1000 сисадминов.
                                                                                +1
                                                                                Спасибо за статью, очень интересно и познавательно
                                                                                НО
                                                                                На момент переписи я учился в вузе, столичном, довольно таки хорошем, инженерном вузе, с бюстом Ленина и тд.
                                                                                И вместо практики нас заставили переписывать население.
                                                                                Привели нас в арендованное для этого дела помещение, пришла женщина, из администрации района, которая объяснила как заполнять бланки и переписывать население… это самая не интересная часть рассказа
                                                                                Далее зашел паренек, оттуда же, но занимающий более высокую должность. С папкой-архив, в которой была стопка экселевских таблиц.
                                                                                «Вот вам: люди, адреса, переписывайте в бланки»… ну посмеялись, окей стали заполнять
                                                                                -а придумывать можно?
                                                                                -да, только чтобы правдоподобно было
                                                                                Окей, нет проблем.
                                                                                Так прошел первый день, сдали бюллетени в конце дня этому пареньку…
                                                                                Опуская глупые ситуации с людьми, которые серьезно относились к переписи и сами приходили переписаться, как выбрасывались их бланки сразу после того как они уходили, и еще многое переходим к самому соку.
                                                                                На третий день переписи вернулись бюллетени, заполненные в первый день. Что ж не так с ними? а жильцов мало в квартирах. Если в однокомнатной квартире было написано, что живет 1 чел, исправили на 7, а 2 на 8.
                                                                                В общем, в этот день было расселено большое количество Гитлеров с Пушкинами, Медведевых с Лениными по однокомнатным квартирам переписываемого района москвы…
                                                                                  +1
                                                                                  Вот и я ни разу в жизни не встречался с переписчиками, кого из знакомых ни спрашивал — тоже пожимают плечами. Временами мне кажется, что в Москве все переписи вообще проходят по вашему сценарию.
                                                                                  0
                                                                                  Мы тоже работаем с кубами, не могли бы Вы уточнить технические детали:

                                                                                  — Какого у вас размера сами OLAP базы?
                                                                                  — Разбиваете ли вы базы на независимые кубы, если да то сколько их?
                                                                                  — Сколько у вас дайменшенов?
                                                                                  — Какая кардиналити у дайменшенов (число уникальных значение и размер в байтах)?
                                                                                  — Какой тип дайменшенов Вы используете: ролап или молап?
                                                                                  — Сколько фактов заливается в кубы (в штуках)?
                                                                                  — Какая версия SQL Server, какая редакция?
                                                                                  — Какое железо используется, сколько памяти?
                                                                                  — Сколько времени занимает фул процессинг?
                                                                                  — Насколько быстро выполняются запросы к кубам?
                                                                                    0
                                                                                    — Сколько и какие у вас меры?
                                                                                      0
                                                                                      — OLAP базы у нас разные, но всегда MOLAP. Большими измерениями в принципе не пользуемся – слишком медленно. Денормализуем.
                                                                                      Измерений много, сельхозперепись-2006 – 150, население-2010 – 250. По населению измерений больше, т.к. много расчетных показателей, как раз тех, которые невозможно собрать никак иначе. Например, число детей до 3х лет в домохозяйстве/семейной ячейке, число домохозяйств в помещении.

                                                                                      — Территориальные измерения ОКАТО и ОКТМО (которые по закону должны применяться для подведения итогов) довольно «рыхлой» структуры. ОКАТО содержит огромное количество нерегулярностей, ОКТМО более регулярный, но и в нем есть исключения. Самое яркое исключение — после субъекта РФ в большинстве случаев идут городские округа и муниципальные районы, но может быть и самостоятельный субъект — автономный округ. Получается на одном уровне элементы разных типов, разный уровень расположения листов. В общем, про все красивые книжные примеры «страна-штат-почтовый код», приходится забыть и использовать parent-child.

                                                                                      — Из-за большого числа измерений не получается сделать хороших агрегатов. Это (а еще денормализация) приводит к неожиданному эффекту – куб сильно меньше исходной реляционки.
                                                                                      Помимо общей базы в Москве, делаем отдельные кубы для регионов, чтобы каждый мог получить данные по своей территории.

                                                                                      — Показатели в сельхозке в основном такие: число хозяйств, площади, поголовье, число единиц техники, и т.п. В населении соответственно: число лиц, семейных ячеек, и т.п.

                                                                                      —Железо и версии софта обычно предоставляются Росстатом. На переписи населения, например, был MS SQL 2008 R2.

                                                                                      — Фул процессинг: сельхозка — несколько часов, население — в разы меньше, скорость выполнения запросов зависит от запросов. От 1 мс.
                                                                                      Максимальное число строк: чуть меньше 300млн по населению, несколько больше 300млн по сельхозке.
                                                                                      +5
                                                                                      Почти 10 лет прошло, сменилось несколько работ и вообще направление деятельности, страна проживания и так далее, но ВСХП-2006 до сих пор снится. Кубы и пачки, импутация, сервер Осло и мифическая Пряхина, ночь перед сдачей первой партии отчетов, Костик из ГМЦ — такое не забывается.

                                                                                      Вот, нашел недавно в старых вещах медаль за взятие Берлина заслуги в переписи:



                                                                                      Большой привет всей команде!

                                                                                      Поименное спасибо каждому, кого вспомню: Илья, Сережа С., Саша Б., Сережа Ж., Оксана Р., Игорь М., Данил Б., Игорь Е., Миша Щ., Лена Щ., Алексей З., Миша А., Алексей Я., Лида Ф., Наталья С., Оля М., Дима Е., еще инженеры, кажется еще внедренцы, может еще разработчики (уже не помню) — простите если кого забыл, все же немало лет прошло.

                                                                                      Вечно ваш, ведущий разработчик/программ менеджер ВСХП-2006.
                                                                                        0
                                                                                        Артем, тебе тоже привет от всей команды! Такое действительно не забывается! Спасибо за теплые слова.
                                                                                        +1
                                                                                        Чуть с ума не сошли, думали, баг, попросили проверить – там реально кто-то держит верблюда. Чаще бывают ситуации вроде ошибок заполнения – коров две, из них молочных – пять. С планшетами будет проще, там на уровне UI будет множество проверок.

                                                                                        Жизнь — штука непредсказуемая, поэтому с проверками главное не перестараться, а то в следующую перепись ничего про верблюдов не узнаете, т.к. их тупо не удастся вести.
                                                                                          +1
                                                                                          DarkTemplar работал переписчиком в Москве и рассказывал, что они и половины людей не обошли. Переписывали с домовой книги.
                                                                                          Ко мне тоже никто не приходил.
                                                                                            0
                                                                                            а как сочетается SuperStar и то что вы смогли найти верблюда в Челябинской области — это же данные по конкретному человеку/хозяйству? Или SuperStar именно для заказчика но не вас?

                                                                                            Как решается проблема с тем что по закону же нужно же тендеры организовывать а вы одни. Требованиями вида «опыт проведения прошлой переписи»?
                                                                                              0
                                                                                              Как решается проблема с тем что по закону же нужно же тендеры организовывать а вы одни.

                                                                                              Был бы тендер, а исполнители всегда найдутся.
                                                                                                0
                                                                                                SuperSTAR – инструмент прежде всего для Росстата. Наружу выдаются только данные, прошедшие через алгоритм защиты конфиденциальных данных – т.е. человек со стороны уже не сможет найти конкретного верблюда.
                                                                                                0
                                                                                                Спасибо, очень интересная статья и хорошо написана.
                                                                                                  –1
                                                                                                  А можно пару вопросов:

                                                                                                  1) Чем были плохи наши сканеры?
                                                                                                  2) Что в заголовке делает неведомая фигня — «тоссятся» (судя по комментариям, о ней помнят только фидошники)?
                                                                                                    0
                                                                                                    Toss out (англ) — выбрасывать, избавляться. :)

                                                                                                  Only users with full accounts can post comments. Log in, please.