Pull to refresh

Comments 109

Вы молодцы. Но у меня есть риторический вопрос: зачем вообще нужна перепись населения? А если она нужна, зачем нужны ФМС, ФСБ, МВД и прочие структуру, которые все равно всегда знают мои данные (но почему-то запрашивают, ага)?
Проект Электронная Россия был успешно распилен, и поделен еще до своего запуска. Ввиду отсутствия налаженного электронного документооборота нельзя узнать кто родился, кто умер или кто сменил гражданство/пол/фамилию/имя. Поэтому все по старинке. Ну и к тому же любой госинститут отличная кормушка для кого-то.
Выскажу свое мнение, т.к. немного занимался переписями тоже.
В переписи спрашиваются не только учетные данные, но и данные, которых в базе данных нет.
Например:
1. Время на работу
2. Кто фактически входит в домохозяйство (не путать с семьей).
3. Планируют ли еще рождение детей.
4. Другие вопросы о планах людей на будущее.
+ национальность и вероисповедание, что тоже особо в госбазах не сыщишь.
И зачем нужна статистика по национальностям и вероисповеданиям?
Чтобы знать сколько хиджабов шить и сколько ножниц для обрезания точить?
В прошлой переписи чуть не появилась национальность «Сибиряк» из-за того, что многие так ответили(там какие-то законы есть). Так что это очень давно важные вопросы! ;)
Я правда недоумеваю — зачем нужна статистика по национальностям и вероисповеданиям (теперь еще к этому недоумению прибавилось недоумение почему мой вопрос вызывает негативную реакцию).
Вам так важно знать, сколько в стране татар, чукчей и казахов? Зачем вам это?
Чтобы гордо ощущать себя частью «многонационального народа» и вписать достижение в книгу рекордов Гиннесса?
Или чтобы гордиться принадлежностью к «титульной нации» (тьфу, какое противное словосочетание)?
Или чтобы было на кого сваливать вину за то что в кране нет воды?

Если уж у нас по законам страны все равны, то какая пофиг разница *для статистики* кто к какой национальности себя причисляет? Статистика по размеру черепа и то на мой взгляд больше значения имеет — чтобы знать какого размера противогазы делать для армии.

С вероисповеданием та же петрушка. Вам количество мусульман надо знать чтобы коврики для намаза были бы не в дефиците? Их шьют по приказу царя что ли? Или чтобы церквей на душу православного населения было бы больше чем у соседей и можно было бы блеснуть на международной арене с цифрой, что у нас самое лояльное к религии государство?

Или может быть кто-то проводит селекцию населения и как Мичурин записывал в блокнотик о том что он получил скрещивая яблоню с помидором этот «кто-то» должен знать что будет, если на ограниченной территории поселить украинцев и белоруссов по национальности? Типа через сто лет они ассимилируются, дадут потомство, которое будет всё поголовно голосовать за правящую партию?
Всё проще, на программы поддержки малых народов и редких языков тратится нехило денег, и перепись — один из немногих инструментов контроля результативности этих программ.
А, ну значит про Мичурина я не так уж далёк от истины. Он тоже записывал насколько будет больше яблок, если прививать грушу на рябину и удобрять сие навозом. Назоз-то денег стоит! Надо обязательно следить и контролировать.
«Зачем вам это?» совершенно не по адресу вопрос. Они исполнители, а не заказчики переписи.

А вот руководству страны или области, такие данные могут быть полезны.
«Зачем вам это?» — это вопрос читателям этих строк, а не сотрудникам компании, обеспечивающим техническую часть переписи.

Насчет же «руководства страны или области» — они у нас из другой касты что ли? Они имеют какое-то сокровенное знание, что если в области узбеков больше чем киргизов, то надо в следующем году на полях сажать рожь, а не овёс? Если существуют программы поддержки малых народностей — неужели это нельзя и решать на региональном уровне региональными средствами? Райотдел полиции и городской ЗАГС вам хоть каждый день оперативную сводку по своему району может давать. Родился тофалар — добавляем к числу тофаларов единичку. Умер калмык — вычитаем из числа калмыков единичку.
Дело не в касте а в практическом применении.

Знать сколько в определенном регионе принадлежит той или иной религии — полезно, если вдруг приходят и просят выделить место под еще одну церковь/мечеть/синагогу. А ты уже оперируешь конкретными цифрами.
Знать сколько крымских татар в крыму, также полезно именно руководству страны.

Кроме того, такие данные и продать можно.

А в данной статье вообще не про это а про решение сложной технической задачи со своими нюансами.
> Знать сколько крымских татар в крыму, также полезно именно руководству страны.

Вы хотите сказать, что у меня нет шансов стать у руля страны, потому что я не вижу пользы в знании сколько татар в Крыму? Я вот и хочу узнать что-то для себя новое, научиться мыслить в государственном масштабе и поэтому задаю вопрос — какое-такое сокровенное знание в нынешней реальности дает точное число татар в Крыму пятилетней давности собранное студентами-переписчиками? Блеснуть эрудицией в телевизоре назвав цифру?

> Кроме того, такие данные и продать можно

Кому продать? Турции? Чтобы те знали потенциальное число предателей в случае нападения на Россию? Или может быть Майкрософт заплатит за статистику сколько людей знают башкирский язык для того чтобы включить еще одну локаль? Не кажется ли вам, что потенциальные доходы от подобной статистики не отбивают вполне реальные расходы на расчеты?
Мы слишком далеко отошли от темы поста, поэтому это мой последний комментарий на ваш.

Насчет расходов — перепись и так УЖЕ оплачена и регулярно проводится. Добавить в нее лишний пункт для опроса — практически незначительно меняет стоимость всего процесса.

Но, чтобы научиться мыслить в государственном масштабе, IMHO нужно иметь хотя бы какое-то подобие полномочий в государственном масштабе (власть, деньги). Шансы стать у руля страны есть у каждого, но много вы знаете выдающихся рулевых?

Знание количества татар в крыму, украинцев в крыму и русских в крыму дало весьма точную оценку риска, и после некоторых событий мы видим чей теперь Крым.

В качестве продажи данных, да например банальный распил — я знаю, что представителей религии1 в городе 5000, представителей религии2 в городе 15000.
Исходя из этого, я могу предположить, что доходы религии2 гораздо выше, и если у меня есть выбор строить храм\мечать для религии1 или религии2, я могу договориться с главой религии2 о гораздо бОльшем откате.

И все вышеперечисленное это мои жалкие, почти студенческие взгляды на то, как можно использовать эту информацию. Что уж говорить про зубров политики.

Ну, раз вы закончили, я оставлю свое мнение. Простите. Вы своими аргументами только подтверждаете мою уверенность в том, что перепись населения нужна власти ровно постольку поскольку пастуху нужен учет баранов. Чтобы не разбегались и чтобы знать сколько нужно ножниц для стрижки шерсти.

> после некоторых событий мы видим чей теперь Крым

Благодарю вас за то, что мы можем на страницах уважаемого ресурса вести разговор не впадая в политические споры. Ну а что делать, если «руководство страны» вдруг видит слишком большую концентрацию определенной нации/веры в регионе? Выселять немцев в Поволжье, а крымских татар за Урал? Или загонять евреев в концентрационные лагеря? Жесть. На словах-то мы вроде осуждаем, а в реальности контролируем, учитываем и недопущаем?

> В качестве продажи данных, да например банальный распил

Я к этому и сводил. Что это кому-то выгодно — знать сколько в стаде черных, а сколько белых баранов. Чтобы знать кого на шашлык, кого на шерсть, а кого можно как производителя использовать.
Давайте не втягивать сюда политику, а?

Если кратко, то:
1. Любая власть, которая не знает с достаточной точностью сколько где людей обладающих определёнными предпочтениями в еде, одежде и отношению к мечетям и церквям достаточно быстро получает приставку «бывшая». Это проверенный временем факт.
2. Ваше отношение к пункту один и любовь к словам «баран», «стрижка», «пастух» и прочему истинности пункта №1 не меняет.
Всё.

Разговоры же про ЗАГСы, которые там что-то куда-то прибавляют — это такой детский лепет, что дальше уже просто разговаривать ни о чём не хочется.

P.S. Вам вообще такое понятие как инвентаризация знакомо? Или вы считаете, что её тоже какие-то недоумки придумали?
> Давайте не втягивать сюда политику, а?
Я очень стараюсь. Просто хочу разобраться в процессах.

> [...]Любая власть, которая не знает[...]
Зачем это власти — я понимаю. Зачем это государству, в смысле обществу, в смысле населению? Аргумент, что обществу выгодно иметь власть, которая не хочет стать бывшей я не считаю бесспорным.

> Вам вообще такое понятие как инвентаризация знакомо?
Да, но есть существенное отличие. Инвентаризацию ведет человек и инвентаризует он имущество. У имущества как-то не принято спрашивать «хочешь ли ты чтобы тебя пересчитывали?». Если же старшина строит взвод на плацу и командует «голубоглазые — направо, русоволосые — налево» — неужели нельзя поинтересоваться, просто спросить: «а зачем?»
Аргумент, что обществу выгодно иметь власть, которая не хочет стать бывшей я не считаю бесспорным.
Если вы хотите жить в Сомали — вы можете уехать в Сомали, какие проблемы. Поживёте там немного, может смените своё мнение.
Ох, ну зачем доказывать примерами и аналогиями? Вы мне еще Зимбабве предложите рассмотреть для эмиграции. Про то, что там проводилась всеобщая перепись населения я, честно говоря, не слышал. В вики данные переписи за 1926 год, остальные данные оценочные. Может быть они так плохо живут, потому что не проводят перепись? Но если они не проводят перепись — почему Мугабе не становится «бывшей властью» уже лет сорок?

Чуть выше приводился пример, что статистика о вероисповедании помогает решить вопрос о предоставлении места под богослужение. Расмотрим вариант — к мэру приходят представители различных конфессий. Аргумент православных: «нас больше, поэтому надо строить церковь». Аргумент мусульман: «нас меньше, но в городе нет мечети — строим мечеть». Представитель атеистов скажет: «религия — опиум для народа, надо строить дом культуры». А представитель какой-нибудь местной языческой религии попросит какой-нибудь тотем и будет аргументировать это, что малые народности и самобытность надо поддерживать. В результате, получается, что статистика вроде как есть, но вроде как и не является критерием для совершения действий.
> Зачем это государству, в смысле обществу

Прошу прощения если был не понят, но под словом «государство» я подразумевал именно власть. IMHO это очевидно.
Заказчик же не рядовой гражданин.

> Если же старшина строит взвод на плацу и командует «голубоглазые — направо, русоволосые — налево» — неужели нельзя поинтересоваться, просто спросить: «а зачем?»

Если вы будете в армии, я настойчиво рекомендую не задавать старшине лишние вопросы.
> Если вы будете в армии

Я уже был в армии. И задавал старшинам вопросы, если видел что они занимаются фигней непонятной для меня. Как ни странно, иногда получал на это внятные ответы. В других случаях получалось убедить человека не заниматься глупостями. То ли потому что я был старлеем, то ли потому что иногда заданный вопрос приводит человека к ответу, о котором тот даже не подозревал до этого.
Всё таки термин «инвентаризация» по отношению к людям звучит как то цинично.

Хотя в принципе, насколько я знаю, никто не мешает ответить на опросе что по национальности ты минматарин, по религии джедай а зарплата у тебя 200 000 рублей :)
Так и представляю:
— Скажите что у вас зарплата 200,000 и получить пиво в подарок.
А потом местные власти отчитываются красиво.
Предполагаю, что негатив из-за
сколько хиджабов шить… ножниц для обрезания точить
что в этом негативного?
что естественно (популярно в более-менее крупных социальных группах) — то не зазорно.
Про вероисповедание последний раз спрашивали в переписи 1937г. вроде =)
Да, вы правы, в последнее время при переписи в России вопрос о вероисповедании не ставится в опросных листах.
Хотя я говорил не только России. В Казахстане, например в 2009 году при переписи этот вопрос звучал
В РФ же членов конфесий считают по опросам с выборками 1600 человек.
Поразительно просто, как можно тысячу опрошенных экстраполировать на сотню миллионов человек.
Так вроде бы в России в это время было официально введен атеизм и масштабно «попов гоняли», я думаю что задавать вопрос о вероисповедании в официальной переписи в то время было несколько некорректно даже для НКВДшников )
Существуют всякие «центры изучения общественного мнения» — ВЦИОМ, Левада и т.п.
По любому вопросу они собирают статистику, и обычно добавляют «погрешность составляет не более 3%».
Непонятно, почему бы не применить этот подход и для альтернативы «всероссийской переписи».
Вряд ли так уж необходима государству 100% точность, зато можно упростить процесс, сэкономить и делать «переписи» не раз в 10 лет, а гораздо чаще.
ВЦИОМ, Левада и другие, чтобы установить квоты на представленность в выборке отдельных страт населения — городского, сельского, по регионам — используют данные Росстата. Если вы не знаете, какую долю в населении РФ составляют 35-летние жительницы сёл Мордовии, откуда вам знать, сколько их заложить в выборку?

Конечно, если бы каждый житель РФ был бы пронумерован подряд, и ВЦИОМ, когда взбредёт в голову, мог бы rand() ом выбрать из этого списка номеров пару тысяч и на все эти номера «позвонить», то перепись была бы не нужна.

Но беда в том, что шанс попасть в случайную выборку у московской пенсионерки и уральского лесоруба в реальной жизни — весьма разный. Поэтому раз в 10 лет надо абсолютно всех-всех пересчитать.
>Конечно, если бы каждый житель РФ был бы пронумерован подряд,
СНИЛС, не?
перепись же собирает не только граждан РФ, а реально проживающих
СНИЛС не выдаётся, к примеру, белорусам, работающим в РФ.

Если вы работаете за зарплату в конверте, как это делает четверть населения страны, ваш СНИЛС вообще нигде не светится.

У несовершеннолетних в основной массе СНИЛС нету.

Мне продолжить, или достаточно?
Это общемировая практика, вообще-то.
Кроме аргумента «все так делают» — что-то еще?
В США, например, перепись была прописана прямо в конституции, несмотря на всё либертарианство отцов-основателей:

Representatives and direct Taxes shall be apportioned among the several States which may be included within this Union, according to their respective Numbers, which shall be determined by adding to the whole Number of free Persons, including those bound to Service for a Term of Years, and excluding Indians not taxed, three fifths of all other Persons. The actual Enumeration shall be made within three Years after the first Meeting of the Congress of the United States, and within every subsequent Term of ten Years, in such Manner as they shall by Law direct.


Что же до «ФМС, ФСБ, МВД» — радоваться надо, что вас считают не бюрократы, а отдельная структура, которой от того, сколько насчитали, ни тепло, ни холодно. Вот статистику преступлений считает МВД по числу заявлений в полицию. Потому так и тяжело подать заявление на кражу мобильника — «статистику портит».
Конституция США была написана 250 лет назад. У меня есть все основания предполагать, что тогда не было централизованных электронных баз данных по населению.
Если какой-то из американских президентов вдруг задумает заменить переписи «централизованной электронной базой», то ему, боюсь, скоро-скоро напомнят про «it is the Right of the People to alter or to abolish it, and to institute new Government»

И будут правы.
Это вы просто с людями не работали. Периодическая инвентаризация необходима всегда и везде, будь то склад или страна. Потому как по отчётам компетентных органов всё зашибись и показатели растут в космос, а по факту давно ничего нет.
Местные власти, например, очень любят не выписывать людей, когда те куда-то переезжают. Потому что очень много где копеечка из бюджета капает за каждую единицу населения. Кроме того, и сами люди часто не спешат/не могут перепрописываться на новом месте, потому что, допустим, снимают квартиру без официального договора.
Собственно говоря, проводимая независимой от всех этих фмс, мвд, фсб структурой, не заинтересованной в подтасовки результатов, является единственным хоть сколько-то надёжным показателем эффективности работы властей. Как региональных, так и федеральных в целом. Потому что если в регионе за 10-12 лет с прошлой переписи народу резко убыло, то это говорит о ситуации не только лишь всё.
К сожалению, власти фишку давно прохавали, и в особо упоротых муниципалитетах студенты переписывают не реальных людей, а сведения из ментовской картотеки. Но это всё же шаг вперёд по сравнению с совком, где, бывалоча, приказ нарисовать нужные данные приходил лично от генсека, а настаивающих на своём статистиков расстреливали.
Про студентов мы очень верно заметили, потому как все известные мне люди, кто участвовал в переписи, вписывали в анкеты рандомные имена, чтобы населения было «по плану».

А вот с инвентаризацией — Вы путаете понятия. За шкафом никто не следит, а вот как раз инвентаризация — тот самый надзорный орган.

С другой стороны, человек. Все знают о его рождении (свидетельство о рождении), достижение 14-летия (1 паспорт), 20-летия (2 паспорт), 45-летия (3 паспорт), выхода на пенсию (пенсионные карты) и смерти (свидетельство о смерти). Плюс сюда попадают всякие промежуточные варианты типа загранпаспорта, смена паспорта (новая фамилия, утеря документа и т.д.), получение водительского удостоверения и т.д.

В итоге мы имеем, что государство все о вас знает, но зачем-то считает. Вы скажите, что не везде все это есть, и в селе Кукуево хрен знает, кто вообще живет. ОК, давайте их и посчитаем, но зачем это делать в Москве, Питере, Великих и Нижних Новгородах и т.д.?
ОК, давайте их и посчитаем, но зачем это делать в Москве, Питере, Великих и Нижних Новгородах и т.д.?
Вот как раз в Москве или Питере без переписи узнать сколько и где живёт народу без регистрации непросто. Другое дело что и с переписью всё не совсем шоколадно, но лучше что-то, чем совсем ничего.
и смерти (свидетельство о смерти)


Вот тут над вами ржут все демографы, в голос.

Давайте не будем про «кавказское долголетие», возьмём пример понейтральнее. Вот Греция — в 2011 её жёстко накрыл кризис, и греки стали вынуждены считать гос. деньги. Какая-то светлая голова в греческом «пенсионном фонде» («IKA») вдруг сказала «а чего это у нас дофига граждан по сто двадцать лет? А давайте их навестим?»

В результате в стране с 11 миллионами человек было выявлено сто двадцать тысяч случаев, когда бабушку/дедушку тихо похоронили, а вот пенсию за них продолжили получать. Самый дикий случай — это 130-летний пенсионер, который фактически умер 30 лет назад.
Было бы круто, если можно было бы поучаствовать в переписи онлайн, например, запросив по почте заранее ключ для регистрации для исключения троллинга.
Как вы думаете зачем это было нужно? Неужели не проще было собрать и свести базы всех госорганов?
Интереса ради посчитал сколько бумажек у меня от государства: 1 — свидетельсво о рождении, 2 — паспорт, 3 — снилс, 4 — инн, 5 — полис омс, 6 — военный билет, 7 — водительское удостоверение, 8 — загран. Не говоря всяких птс, дипломе и т.д.
Без создания единой базы (с которой работали бы все госорганы) это нереально. Слишком разношёрстная информация, нет уникального идентификатора, по которому их можно было бы сгруппировать. Не по ФИО же.

Приведу утрированный пример: есть база льготников соцзащиты. Уникальным там является номер дела, паспортные данные и всё остальное — от балды. Номер дела повторяется в соседних районах, не говоря уже про область, и страну в целом. Наверх передаются только общие сведения с районов, в разрезе по отдельному человеку данные нужны только на местах. Состыкуйте её с чем нибудь ещё?
Такая же ситуация и с остальными ведомствами, предполагаю.
Все довольно просто или ИНН или СНИЛС эти два номера не меняются при изменении параметров человека то как ФИО, дата рождения, а номер паспорт меняется.
И проблема совсем не в количестве бумажек, а в ом что за каждой «государственной» структурой стоят свои лоббисты-распильщики.
Для примера СНИЛС еще в 1997 году предлагалось сделать на платик, но лоббисты победили здравый смысл.
Угу. И дать поручения всем ведомствам модернизировать свои базы + собрать недостающие сведения (те же СНИЛС), т.е. выделить на попил ещё больше, чем на перепись.
Плюс есть много индивидуумов, не имеющих этих документов.
А с какого это черта паспортные данные — от балды?
Вот по номеру паспорта пусть стыкуются.
Он меняется. Замена паспорта -> новый выдан -> новые сведения только в паспортном столе, до других учреждений они доползут через годы.
Я в принципе не вижу никаких проблем.
Запись о смене паспорта есть? Есть.
Сопоставить два номера паспорта и одного человека можно? Можно.
До других учреждений новые сведения в единой БД доползут мгновенно.
Есть дофига учреждений, где номер паспорта вообще не нужен. Как с такими быть?
Говорю же — связать все базы, без перевода на единую, нереально.
Всегда есть какой-то ID, который используется не только этим учреждением.
Нет. В этом и проблема.
Он появляется, если возникает необходимость электронного обмена данными, а она возникает очень редко, не зря все бегают с бумажками. Нужно что-то от нас? Принеси справку от них — внесём.
Не встречал ни единого госучреждения, где что-либо производилось без запроса хотя бы одного документа.
Учёт по паспорту не позволит выявить миграцию.

Например, государство знает, что выдало вам паспорт, скажем, в Уфе. А переписчик застанет вас в общежитии ВУЗа в Питере.

Основываясь на этом знании Минфин накинет Питеру денег по статье «высшее образование», а башкирский региональный бюджет будет знать, что ему на вас рассчитывать не стоит в плане будущих налогов.

Ключевой момент переписи в том, что все вопросы задаются на определённый момент. Если ребёнок родился на утро после часа X, его не засчитают. Если вы были в командировке в соседнем городе — вас посчитают туда. Такой типа snapshot, ага.
как человек, который работал над созданием единого реестра всех физиков клиентов одного банка (входит в ТОП), всевозможные данные выгруженные разными людьми по всей стране из их локальных баз разнообразных банковских софтин, не согласен с нереальностью.
С задачей справилась небольшая ит комманда, поэтому я не вижу проблем для государства сделать тоже самое, с точки зрения ИТ.
Со всех ведомств выгружаются данные, загружаются в единый центр гос.данных (понятно, что кластеризованно по стране).
Все персональные данные о человеке полиция, гаи, фмс, пенсионный, налоговая, закс и тд и тп прочие зеркалируют с гос. базой данных. (те фактически в существующую базу данных условной фмс добавляем ключ ссылку на ту базу данных) и любые изменения данных синхронизируются.
Далее в головной базе данных начинается долгий и нудный процесс мерджа пользователей по единым документам, по снилсам, инн и тд

имхо это будет стоить дешевле переписи, где полмиллиона человека ходит ногами, а им никто не открывает.

А картинка в базе данных будет вырисовывать очень даже интересная.

С точки зрения ИТ не вижу ничего сложного.
С точки зрения слежки, так они и так за нами как могут, уже следят.
Собственно вы сейчас и описали «единую базу», и процесс её наполнения. Да, всё это решаемо, но я не знаю, на сколько качественна будет информация по сравнению с переписью. Хоть тут и привели много примеров вбросов, но все они касаются крупных городов, в провинции перепись была проведена очень неплохо.
В базах госорганов содержится только информация, нужная им. При этом данные там могут быть заполнены формально или устареть.
Во время переписи собираем информацию:
— в том числе о домохозяйствах и взаимоотношениях между членами домохозяйств, чего нельзя получить из других источников (например, гражданский брак);
— респондент отвечает более открыто и по самоопределению — во время переписи не требуется подтверждать сведения;
— в сжатый промежуток времени — т.е. получаем практически слепок текущего состояния
Безусловно, сведения из других органов можно использовать как дополнительную информацию (и это делается в ряде стран), процесс можно развивать.
Используются ли эти данные для практического прогнозирования? К примеру, начали осваивать новые сх территории => прогноз+рекомендации установления оптимального дорожного сообщения в регионе
По сельхозке данные точно использует Минсельхоз. Как конкретно не скажу, мы же айтишники, а не государство. По ВПН — это данные — основа для всех социальных программ государства, они как раз базируются на численности, национальности населения и т.п.
Результаты переписи — это основа с которой начинается любое прогнозирование обстановки в стране. Дальше на неё навешиваются всякие опросы, оценки и т.д. и т.п., но это всё «бантики».

Просто потому что все остальные данные требуют экстраполяции/корректировок/etc, что автоматически делает их менее надёжными. Перепись точнее даже несмотря на то, что кто-то от неё бегает, а кто искажает свои данные.
Очень интересная тема. Приятно что у нас хоть что-то выполняется как нужно.
А вот это улыбнуло:
Чаще бывают ситуации вроде ошибок заполнения – коров две, из них молочных – пять.

Напомнило:
— Вкусное молоко ваша корова даёт!
— Вообще-то у нас бык.
Участвовал в обходе при прошлой переписи в Москве, в р. Перово, т.к. заставили в универе. 50% людей не открывали квартиры или н еподавали признаки жизни, еще 30-40% удавуалось переписать. Делалось это днем в рабочее время в будние дни, что является идиотизмом. Все участники — студенты 1-3 курсов… Большая часть — раздолбаи (каким и я был). Суть в том что то, что дойдет до электронной обработки уже будет неактуально как минимум.
Делалось это днем в рабочее время в будние дни, что является идиотизмом.

Тоже этого не понимал. Не проще ли связаться с организациями и переписать днём всех сотрудников кучей?
Все на чем можно заработать много денег никогда не будут делать проще, причем я не говорю что это только у нас в стране. Например авторам поста проще заминусовать мой коммент :)
Это штатная ситуация по Москве, где люди редко открывают. Решается статистическими методами. То же слово «импутация» тоже не для красоты существует. Но это специфика именно Москвы. В регионах люди дрались за оклад переписчика, который для Москвы был мизерным. Насколько я понимаю, эту ситуацию хотят в дальнейшем по возможности исправлять.
Где можно посмотреть какую-нибудь статистику и инфографику по результатам вашей работы?
О, спасибо. О ней. Очень интересно.
Ммм, не слышал слово «тоссятся» со времен Fido…
UFO just landed and posted this here
Видимо потому что MySQL с большими объемами данных работает ну очень неповоротливо (я про сотни миллионов). В InnoDB это не засунешь, эффективно работать не будет, если таблица в память не влезет. Так что терабайтами нормально ворочить она вряд ли когда будет. Ну а репликация таких объемов это некий ад в mysql. Postgres конечно уже получше, но ведь помимо тупого написания запроса нужно знать еще и тонкости оптимизации этих самых запросов, знать внутренние механизмы БД. Нужно правильно администрировать, иначе любая БД может слиться до скоростей ниже плинтуса.
UFO just landed and posted this here
Такого масштаба проектов в OLAP в мире считанные единицы.

Обосновать можете?
Основное отличие нормальной штатной работы от переписи в том, что перепись – это почти DoS-атака. Данные пришли, и результат должен быть даже не «немедленно», а «внезапно».

Размер данных = размеру активной партиции, исторической нет (точнее она не нужна).
Очень широкие таблицы фактов. В ходе обработки уткнулись, сначала в то что, максимальное число ключей на таблицу – 253, потом, что максимальное число колонок 1024.

Вот еще занятное ограничение 2005-го аналайзиса: если сделать бэкап со сжатием, а потом бэкап восстановить, то партиции больше 4х гиг корраптятся без сообщений об ошибках. А у 2008R2 после установки SP2 при запросе всех значений через DrillThrow начинается хронический OutOfMemory.
И из всего этого извлекаются десятки миллионов отчетов Excel с довольно жесткими требованиями к оформлению, т.к. в регионах так удобнее работать.

Еще одна «вкусняшка» — отчеты почти всегда нерегулярной структуры (это сделано для удобства использования заинтересованными лицами), часть отчетов содержит measures по обеим осям.
> больше 4х гиг корраптятся без сообщений об ошибках

MSOLAP версии 2008 (включая СП2) не поддерживает MOLAP дайменшены размером больше 4х гиг.
Это ограничение снято в версии 2012.
* это можно обойти переключив дайменшен в ролап, но тогда запросы становятся сильно медленней
** возможно мы говорим о разных проблемах и я Вас не так понял
В РФ реально нет какого-то единого идентификатора для человека, и каждый документ связан только через ФИО и дату рождения?
Я гражданин Молдовы, и у нас единая база уже лет 10, если не больше. На внутреннем паспорте есть персональный код из 13 цифр, и даже если тебя остановил полицай, и у тебя других документов нет кроме паспорта, он по этому номеру сразу найдет и права твои, и техпаспорт на машину, и техосмотр. Так же куча государственных смс служб по проверке на наличие штрафов и нарушений, по этому коду даже можешь получать уведомления о нарушениях, снятых камерами по городу, сразу смс на телефон приходит.
В прошлом году была перепись, и если показываешь документ чтоб женщина записала твой код, то фио и остальные данные можно было не называть вообще, задавали только вопросы на общие темы, о состоянии семьи, о планах, и тд.
В РФ реально нет какого-то единого идентификатора для человека, и каждый документ связан только через ФИО и дату рождения?

Как выше говорил — реально нет. И каждый документ, по сути, ни с чем не связан, он варится в каше своего ведомства, которому на остальные ведомства глубоко плевать.
В последнее время, в качестве такого номера пытаются использовать номер СНИЛС, со своими сложностями. Это примерно как естественный ключ в БД, хотя правильнее было бы создать суррогатный.
У нас в Казахстане в 12 цифр уложились.
Всего на Земле сейчас 7 миллиардов. В 32 бита индекс не поместится.
За все время цивилизации 107 миллиардов (число кажется неправдоподобно маленьким, да?)
В общем, 64 битов на идентификатор каждого индивидуума должно хватить с избытком.
В «избытке» можно дополнительно хранить дату и географическую координату места рождения, пол и еще что-нибудь типа бита чётности :)
Но наша православная церковь почему-то яростно протестует против нумерации граждан.

Дата рождения (8 цифр) + 3-6 цифр в зависимости от страны
В Казахстанском ИИН первые 6 цифр = дата рождения.
В оставшихся 6 что-то еще кодируется.
Плюс вроде еще есть привязка к ЗАГС-ам.
Верно! В Германии, Франции, Швейцарии, Англии и Америке испульзуют номер мед страховки как основной.
А вот собственно и Киргизия в списке, откуда я родом: www.news-asia.ru/view/7096
То есть это не зависит от населения, или богатсва страны. Так почему же нельзя такое и в России предпринять?
Графы родства строите? Т.е. можете ли вы теоретически рассчитать количество ребер (степень родства) между двумя произвольными людьми? По аналогии с найденным верблюдом сможете найти конкретного человека?
Вопросы о родстве задаются членам одного домохозяйства. В пределах домохозяйства выделяются семейные ячейки. На основе построенных связей строится тип домохозяйства, включая, например, такой «Домохозяйства, состоящие из супружеской пары без детей и с детьми, обоих родителей одного из супругов без детей и с детьми, прочих родственников (или без них) и не родственников»

Более точно так: все связи между лицами выстраиваются, большая часть используется при определении типа семейной ячейки и типа домохозяйства.

Т.к. все ответы в ходе переписи анонимизированы, то естественно, выстроить связи между лицами разных помещений нельзя. По той же причине нельзя найти конкретного человека.
Немного удивил экран «помогите роботам написать цифры».
Еще в древних конвертах для обычных писем, были промаркированы точки, которые просто следует обвести, чтобы написать числа. У вас же просто пустое поле и куча примеров с ошибками.

Но ведь вот так гораздо лучше:

habrastorage.org/files/1d9/8d7/7e5/1d98d77e5d924753bcf7d3829996ce1d.jpg
Переписчик заполняет документы на коленке, на морозе, десятки листов в день. Выводить машиночитаемые фигуры он не станет в любом случае, это просто нереально. Либо нужно вводить премиальные и штрафные за кол-во плохо заполненных бланков, что привносит еще один — имхо ненужный — слой сложности в систему (идентификация и учет переписчиков и заполненных ими бланков).
Только хотел задать вопрос про планшеты/смартфоны и, перечитав, увидел небольшое упоминание о том, что планируется. И давно уже пора. Никаких проблем с распознаванием и бумажной рутины. Всё сразу в электронном виде отправляется на сервера. Не вижу ни одного выдающегося преимущества бумажной переписи перед электронной.
Во всероссийской переписи населения в 2010 году участвовало 500 тысяч человек и ещё 10 тысяч IT-пользователей во всех субъектах РФ.

А в АНБ работает приблизительно от 30000 до 40000, из которых примерно 1000 сисадминов.
Спасибо за статью, очень интересно и познавательно
НО
На момент переписи я учился в вузе, столичном, довольно таки хорошем, инженерном вузе, с бюстом Ленина и тд.
И вместо практики нас заставили переписывать население.
Привели нас в арендованное для этого дела помещение, пришла женщина, из администрации района, которая объяснила как заполнять бланки и переписывать население… это самая не интересная часть рассказа
Далее зашел паренек, оттуда же, но занимающий более высокую должность. С папкой-архив, в которой была стопка экселевских таблиц.
«Вот вам: люди, адреса, переписывайте в бланки»… ну посмеялись, окей стали заполнять
-а придумывать можно?
-да, только чтобы правдоподобно было
Окей, нет проблем.
Так прошел первый день, сдали бюллетени в конце дня этому пареньку…
Опуская глупые ситуации с людьми, которые серьезно относились к переписи и сами приходили переписаться, как выбрасывались их бланки сразу после того как они уходили, и еще многое переходим к самому соку.
На третий день переписи вернулись бюллетени, заполненные в первый день. Что ж не так с ними? а жильцов мало в квартирах. Если в однокомнатной квартире было написано, что живет 1 чел, исправили на 7, а 2 на 8.
В общем, в этот день было расселено большое количество Гитлеров с Пушкинами, Медведевых с Лениными по однокомнатным квартирам переписываемого района москвы…
Вот и я ни разу в жизни не встречался с переписчиками, кого из знакомых ни спрашивал — тоже пожимают плечами. Временами мне кажется, что в Москве все переписи вообще проходят по вашему сценарию.
Мы тоже работаем с кубами, не могли бы Вы уточнить технические детали:

— Какого у вас размера сами OLAP базы?
— Разбиваете ли вы базы на независимые кубы, если да то сколько их?
— Сколько у вас дайменшенов?
— Какая кардиналити у дайменшенов (число уникальных значение и размер в байтах)?
— Какой тип дайменшенов Вы используете: ролап или молап?
— Сколько фактов заливается в кубы (в штуках)?
— Какая версия SQL Server, какая редакция?
— Какое железо используется, сколько памяти?
— Сколько времени занимает фул процессинг?
— Насколько быстро выполняются запросы к кубам?
— Сколько и какие у вас меры?
— OLAP базы у нас разные, но всегда MOLAP. Большими измерениями в принципе не пользуемся – слишком медленно. Денормализуем.
Измерений много, сельхозперепись-2006 – 150, население-2010 – 250. По населению измерений больше, т.к. много расчетных показателей, как раз тех, которые невозможно собрать никак иначе. Например, число детей до 3х лет в домохозяйстве/семейной ячейке, число домохозяйств в помещении.

— Территориальные измерения ОКАТО и ОКТМО (которые по закону должны применяться для подведения итогов) довольно «рыхлой» структуры. ОКАТО содержит огромное количество нерегулярностей, ОКТМО более регулярный, но и в нем есть исключения. Самое яркое исключение — после субъекта РФ в большинстве случаев идут городские округа и муниципальные районы, но может быть и самостоятельный субъект — автономный округ. Получается на одном уровне элементы разных типов, разный уровень расположения листов. В общем, про все красивые книжные примеры «страна-штат-почтовый код», приходится забыть и использовать parent-child.

— Из-за большого числа измерений не получается сделать хороших агрегатов. Это (а еще денормализация) приводит к неожиданному эффекту – куб сильно меньше исходной реляционки.
Помимо общей базы в Москве, делаем отдельные кубы для регионов, чтобы каждый мог получить данные по своей территории.

— Показатели в сельхозке в основном такие: число хозяйств, площади, поголовье, число единиц техники, и т.п. В населении соответственно: число лиц, семейных ячеек, и т.п.

—Железо и версии софта обычно предоставляются Росстатом. На переписи населения, например, был MS SQL 2008 R2.

— Фул процессинг: сельхозка — несколько часов, население — в разы меньше, скорость выполнения запросов зависит от запросов. От 1 мс.
Максимальное число строк: чуть меньше 300млн по населению, несколько больше 300млн по сельхозке.
Почти 10 лет прошло, сменилось несколько работ и вообще направление деятельности, страна проживания и так далее, но ВСХП-2006 до сих пор снится. Кубы и пачки, импутация, сервер Осло и мифическая Пряхина, ночь перед сдачей первой партии отчетов, Костик из ГМЦ — такое не забывается.

Вот, нашел недавно в старых вещах медаль за взятие Берлина заслуги в переписи:



Большой привет всей команде!

Поименное спасибо каждому, кого вспомню: Илья, Сережа С., Саша Б., Сережа Ж., Оксана Р., Игорь М., Данил Б., Игорь Е., Миша Щ., Лена Щ., Алексей З., Миша А., Алексей Я., Лида Ф., Наталья С., Оля М., Дима Е., еще инженеры, кажется еще внедренцы, может еще разработчики (уже не помню) — простите если кого забыл, все же немало лет прошло.

Вечно ваш, ведущий разработчик/программ менеджер ВСХП-2006.
Артем, тебе тоже привет от всей команды! Такое действительно не забывается! Спасибо за теплые слова.
Чуть с ума не сошли, думали, баг, попросили проверить – там реально кто-то держит верблюда. Чаще бывают ситуации вроде ошибок заполнения – коров две, из них молочных – пять. С планшетами будет проще, там на уровне UI будет множество проверок.

Жизнь — штука непредсказуемая, поэтому с проверками главное не перестараться, а то в следующую перепись ничего про верблюдов не узнаете, т.к. их тупо не удастся вести.
DarkTemplar работал переписчиком в Москве и рассказывал, что они и половины людей не обошли. Переписывали с домовой книги.
Ко мне тоже никто не приходил.
а как сочетается SuperStar и то что вы смогли найти верблюда в Челябинской области — это же данные по конкретному человеку/хозяйству? Или SuperStar именно для заказчика но не вас?

Как решается проблема с тем что по закону же нужно же тендеры организовывать а вы одни. Требованиями вида «опыт проведения прошлой переписи»?
Как решается проблема с тем что по закону же нужно же тендеры организовывать а вы одни.

Был бы тендер, а исполнители всегда найдутся.
SuperSTAR – инструмент прежде всего для Росстата. Наружу выдаются только данные, прошедшие через алгоритм защиты конфиденциальных данных – т.е. человек со стороны уже не сможет найти конкретного верблюда.
Спасибо, очень интересная статья и хорошо написана.
А можно пару вопросов:

1) Чем были плохи наши сканеры?
2) Что в заголовке делает неведомая фигня — «тоссятся» (судя по комментариям, о ней помнят только фидошники)?
Toss out (англ) — выбрасывать, избавляться. :)
Sign up to leave a comment.