Pull to refresh

Comments 39

У всех, кто знаком с мат. статистикой и формулами расчёта выборочной совокупности.
Слишком очевидные вещи описываете.
Было бы интереснее почитать про методологии о «Статистическая погрешность данных этих исследований не превышает 3,4%» — т.к. на вскидку 1600 человек, мало что бы представить хотя бы все уровни по возрасту/полу/доходам/образованию/месту жительства/роду деятельности/культурным особенностям, забудем что максимум 5% из них видело «Блог».
Ответу на этот вопрос 90 лет, дан русским статистиком Чупровым. В западной литературе фигурирует как «метод Неймана».
Если бы вы ходили на курсы мат.статистики и социологии, а не прогуливали бы их, то знали бы, что репрезентативная выборка делается не просто выбором некоторого количество людей, а выбором их по некоторым критериям, и если людей по некоторым критериям не хватает в выборке, то поиск продолжается.
Конечно же это так, вот про критерии репрезентативности и хотелось бы почитать, что бы понять как «Левада» приходит к своим результатам и сквозь какую призму стоит на них смотреть.
Омнибусный опрос
Левада-Центр ежемесячно проводит омнибусный опрос, позволяющий получить результаты максимально быстро. Всероссийский опрос городского и сельского населения страны старше 18 лет строится по репрезентативной выборке 1600 человек из 130 населенных пунктов 45 регионов страны.

Статистическая погрешность данных такого исследования не превышает 3.4%.

По вопросам проведения омнибусных исследований обращайтесь к Алексею Гражданкину:
8 (499) 755-40-37 agrazhd@levada.ru

Методология общероссийского исследования

Исследуемая совокупность — постоянно проживающее взрослое население России от 18-и лет и старше.

Тип выборки — четырехступенчатая стратифицированная выборка.

Объем выборки — 1600 респондентов.

Число субъектов РФ, охваченных выборкой – 45.

Число первичных единиц отбора — 130, в том числе:

13 городов с населением более 1 млн. человек;
14 городов с населением от 500 тыс. до 1 млн. человек;
28 городов с населением от 100 до 500 тыс. человек;
39 городских населенных пунктов с населением до 10 тыс. человек;
36 сельских районов.

Всего 94 городских населенных пункта и 36 сельских районов.

Метод построения выборки

В выборку не включены Чеченская и Ингушская Республики, а также труднодоступные и малонаселенные области Крайнего Севера (Ненецкий АО, Ямало-Ненецкий АО, Таймырский АО, Эвенкийский АО, Камчатка, Чукотка, Сахалинская область). Всего из рассмотрения исключено 9 субъектов РФ, на территории которых проживает менее 4% взрослого населения России.

Кроме того, в выборку не попадают жители малых населенных пунктов с количеством жителей менее 50 человек (около 0.8% взрослого населения России), военнослужащие (около 0.8% взрослого населения России), лица, находящиеся в заключении или под стражей во время следствия (около 0.8% взрослого населения России), а также бездомные (до 1.5% взрослого населения России)

1. Первая ступень — отбор населенных пунктов.

На первой ступени выборки в качестве первичных единиц отбора выступали городские населенные пункты и сельские административные районы.

1.1 Предварительная стратификация.

Сначала все первичные единицы отбора разделены на 8 групп в соответствии с их принадлежностью к федеральным округам (Северо-Западный, Центральный, Приволжский, Южный, Северо-Кавказский, Уральский, Сибирский и Дальневосточный).

В каждом из федеральных округов, независимо друг от друга, все первичные единицы отбора разбиты на страты в соответствии с численностью проживающего в них населения:
1. города численностью более 1 млн. человек;
2. города численностью от 500 тыс. до 1 млн. человек;
3. города численностью от 100 тыс. до 500 тыс. человек;
4. городские населенные пункты численностью до 100 тыс. человек;
5. сельские населенные пункты.

С учетом особенностей расселения населения в регионах образовано 36 страт. Для каждой страты подсчитано число постоянно проживающих взрослых жителей и доля этой страты во взрослом населении России.

1.2 Отбор населенных пунктов.

Общий объем выборки (1600 респондентов) распределен между всеми стратами пропорционально численности взрослого населения каждой страты. Число первичных единиц отбора определялось исходя из ограничения на среднее число респондентов в одном городе/сельском районе (7-13 респондентов).

Все города с населением свыше 1 млн. человек включены в выборку как самостоятельные статистические объекты.

В каждой из оставшихся страт случайным методом с вероятностью, пропорциональной размеру, были отобраны от 1 до 10 (в зависимости от числа респондентов, пришедшегося на страту) городов/сельских районов. Количество анкет, приходящееся на страту, разделено между отобранными городами/сельскими районами поровну.

Всего в выборку включено 130 городов/сельских районов.

2. Вторая ступень — отбор точек опроса.

В городских населенных пунктах производится простой случайный отбор избирательных участков из числа всех избирательных участков этого населенного пункта. В сельских районах производится случайный (с вероятностью, пропорциональной размеру) отбор сел и поселков городского типа из общего списка всех сел и поселков этого района.

Число отобранных избирательных участков (сельских населенных пунктов/ поселков) в городах (сельских районах) определялось исходя из ограничения на среднее число респондентов в одной точке опроса (5-9 респондентов).

В каждой первичной точке отбора отобраны от 1 до 10 (в зависимости от числа респондентов, пришедшегося на город/сельский район) точек опроса. Количество анкет, приходящееся на город/сельский район, разделено между отобранными точками опроса поровну.

Всего в выборку включено 280 точек опроса.

3. Третья ступень — отбор домохозяйств.

При отборе домохозяйств используется случайный маршрутный метод (каждое 17-е домохозяйство в районах с многоэтажной застройкой, каждое 5-е домохозяйство в районах с индивидуальной застройкой).

4. Четвертая ступень — отбор респондента в домохозяйстве.

Респонденты в домохозяйстве отбираются по методу «ближайшего дня рождения» с контролем половозрастных и поло-образовательных квот.

Методы проведения опроса и контроля интервьюеров

Исследование проводится на дому у респондента методом личного интервью.

Для контроля работы интервьюеров проводится:

· контроль маршрутных карт;

· выборочный 15% контроль проведенных интервью по телефону или повторным посещением;

· выборочный 20% почтовый контроль (в случаях, когда проведение контроля по телефону или повторным посещением затруднено);

· логический контроль по файлу данных при помощи специальных компьютерных программ.
Методы обработки данных

Данные исследования кодируются, вводятся, вычищаются от случайных ошибок, пропусков данных и несоответствий и взвешиваются по полу, возрасту, уровню образования, федеральному округу, типу населенного пункта и по данным о результатах голосования на последних национальных выборах.

Статистическая погрешность данных исследования при использованном дизайне выборки не превышает 3.4%.

www.levada.ru/omnibusnyi-opros
И когда начинаешь сравнивать вот это:
Опрос провели в 130 населенных пунктах. Судя по итогам всероссийской переписи населения 2010 года России в ней насчитывается 1100 городов, 1285 ПГТ и 153124 сельских населенных пунктов — итого 155 509 населенных пунктов. Делим 130 на 155 509 и получаем 8.4*10-4. Это 0.083%. Значит, по результатам опроса в 0.083% населенных пунктах делается вывод по всем населенным пунктам России.

с этим пассажем:
13 городов с населением более 1 млн. человек;
14 городов с населением от 500 тыс. до 1 млн. человек;
28 городов с населением от 100 до 500 тыс. человек;
39 городских населенных пунктов с населением до 10 тыс. человек;
36 сельских районов.

получается, что автор как раз занимается той самой статистикой, которая хуже любой лженауки.
Тем самым неправильным показом графиков и диаграмм, про который уже писали.
Сравните «по 0.083% поселений сделаны выводы о всей России» и «учтены все города-миллионники, сделана репрезентативная выборка по городам от 500 тыс до 1 млн человек....»
Кому интересно — может посмотреть в википедию и освежить списки численности городов в России.

В общем и целом: автору — за попытку разобраться в вопросе — респект, за то, что попытка провалена — жирный минус. Делайте всё пожалуйста правильно, а не увеличивайте энтропию в системе.
Где гарантия, что деление по критериям даст нам тот же результат, что и полный опрос?
Пойдите уже почитайте про квотные и стратифицированные выборки, не позорьтесь.
Если бы вы провели опросы по трем видам выборок, приведенных в статье, то получили бы примерно одинаковые результаты (они не отличались бы настолько сильно, как у вас). Приведенные доводы выглядят настолько некомпетентно, что даже и комментировать не хочется.
Уже более 10 лет занимаюсь исследованиями. Оснований НЕ доверять Леваде нет.
Проведенный опрос на Хабре — это далеко не всероссийская выборка и сравнивать Леваду с результатами Хабра совершенно некорректно.
Скажите пожалуйста, как из опроса 1600 человек получается «статистическая погрешность не более 3.4%» и что это значит? Например, опрос показал, что 13% — «за». Какова вероятность, скажем, что реальное значение «за» находится в интервале от 12.5 до 13.5?
На одной и той же выборке погрешность показателя варьируется. Максимальное значение погрешности достигается для показателя в 50%. Чем ближе показатель к 100% или к 0%, тем ниже его погрешность.
Чтобы не считать вручную, можно воспользоваться калькулятором. Например, вот таким.
При введении следующих значений:

Sample size 1600
Sample proportion — 50% (доля для которой считаем погрешность)
Total population — 145000000
Confidence Interval — 99%

Получается погрешность 3,2% (у них погрешность получилась 3,4%, видимо из-за того, что установили уровень доверия повыше confidence interval 99,5%).
Полученная нами погрешность говорит, что для имеющейся оценки (которая равна 50%) с вероятностью 99% можно утверждать, что она (оценка) находится в интервале 50%+3,2%.

Если поиграться с калькулятором можно заметить, что любая другая доля, отличная от 50% оценка имеет более низкую погрешность и снижается при движении к нулю (или к 100% симметрично).
В калькуляторе меняем только показатель sample proportion и получаем следующие погрешности оценок:
Для оценки 40% (или 60%) погрешность +3,1%
Для оценки 30% (или 70%) погрешность +2,9%
Для оценки 20% (или 80%) погрешность +2,6%
Для оценки 10% (или 90%) погрешность +1,9%
Для оценки 5% (или 95%) погрешность +1,4%
Для оценки 3% (или 97%) погрешность +1,1%

Для вашей оценки 13% можно сказать, что с вероятностью 99% оценка 13% находится в интервале 13%+2,2%
Для снижение интервала попробуем снизить уровень доверия до 80%. Тогда получим, что с вероятностью 80% оценка 13% попадает в интервал 13%+1,1%.
Для приведенного вами интервала 13%+0,5% калькулятор не дает оценить вероятность, но ясно одно, что эта вероятность будет невысокая.

Краткий вывод:
Само упоминание в статье о максимальной погрешности дает лишь общее представление о надежности выборки (предназначено в основном для массового читателя с базовыми знаниями статистики). Для исследователя этот показатель «максимальной погрешности» малозначим, т.к. из приведенного выше текста следует, что погрешность оценки зависит от самой величины этой оценки.
Вы знаете, когда я читал ту статью — я хотел написать точно такой же комментарий, как и вы.
Но я удержался: автор совершенно чётко понимает, что проводит ДРУГОЕ исследование:
Да, ниже опубликованный опрос будет нести в большей части точку зрения интернет-сообщества.

Так что особого смысла в комментарии я не увидел. Капитан Очевидность чётко говорит, что опрос самого ИТ-сообщества, самой передовой его части, и опрос населения страны в целом (пять рабочих, два крестьянина, четыре офисных крысы, один юрист, два бюрократа...) дадут совершенно разные результаты.
Если кто-то не понимает — ну, давайте позовём капитана на помощь.
Бред. Вас, похоже, отчислили на первом семестре первого курса за неуспеваемость.
Дорогой автор, а давайте вы что-ли в библиотеку сходите, пару книжек по мат.-стату почитаете, чтобы не позориться?

Ну, например, классику:

Кокрен У. Методы выборочного исследования. М.: «Статистика», 1976

ну с некоторыми показателями и выводами автора наверное не поспоришь…
Вы хоть когда-нибудь задумывались, почему соц. опросы перед выборами в подавляющем большинстве случаев показывают близкие к итоговым результаты?
Отнюдь не всегда. По крайней мере, не в России
Когда задают вопрос «зачем нужно высшее образование?» вот это один из ответов. Чтобы такие неожиданные «открытия» не делать.
Ну и еще тут ярко выражен эффект Даунинга-Крюгера: чем меньше человек знает о проблеме, тем сильней он уверен, что что-то знает.

А так, присоединюсь к предыдущим комментаторам: СУЩЕСТВУЮТ методы получения правильного результата для соцопроса, с любой заданной точностью. Насколько «Левада» выдерживает чистоту этих методов и не выдает ли она «заказанные» цифры — этого мы, конечно, знать не можем. Но то, что опрос на ЛЮБОМ сайте, а тем более на таком специализированном как «хабр» не может дать сколько-нибудь правильный результат — это точно.

Автор в самом начале упомянул, что у него высшее техническое образование, так что этот аргумент получается не «за», а «против».
У хорошей науки есть ещё и мощная саморефлексия. Т.е. если знатно облажались, начинается крепкий разбор полётов.

Вот последний пример, когда были допущены серьёзные просчёты с оценкой явки на последних выборах мэра Москвы:

www.openopinion.ru/news/opublikovan_doklad_gruppy_otkrytoe_mnenie_po_itogam_ekspertizy_oprosov_nakanune_vyborov_mera_moskvy.html
www.sociologos.ru/novosti/Neformalnoe_professionalnoe_obedinenie_Otkrytoe_mnenie_zavershilo_rabotu_nad

ВЦИОМ, ФОМ, Левада-центр и Синовейт Комкон выложили все материалы, анкеты, БД для аудита, собирали конференцию для обсуждения.
И выводы — методика не идеальная у всех. Как именно генерируется «случайность» — тоже не раскрыто. ТС, например, явно поманипулировал случайностью в своих интересах. Кто мешает социологам заниматься тем же?
Сорву покровы — в большинстве случаев «случайность» достигается функцией СЛЧИС() в Экселе :) Ну или генератором псевдослучайных чисел в софте random digit dialling в случае телефонных опросов
«в возрасте 18 лет и старше»… «Делим 1602 на 142856536»

Не замечаете противоречий?
К тому же 1602 — это уже выборка. Т.е. реально опрашивают больше, но не все попадают в эту выборку в результате.
Имею отношение к соц-опросам (не Левада).
Хотелось бы, вдобавок ко всему уже сказанному выше, отметить, что 1600 опрошенных — само по себе довольно мало. У нас опросы начинаются от 5-10 тысяч, меньше — редкость, т.к. квоты трудно набрать.
5 — 10K — это хорошая такая, жирная сегментация. Если это личный опрос с анкетой минут на тридцать, то cost per interview — под тысячу рублей.

У вас толпы клиентов, тратящих на проект 5-10 млн.? Хорошо вам :)
Смотря каким исследованиям.
ЦентрИзберКом тоже исследования проводят. Верите им?
UFO landed and left these words here
На эту тему очень рекомендую вот эту книжку

Вышла еще в 1954 году, автор весьма интересно и с конкретными примерами из истории описывает все эти вещи.
Где бы ее купить/скачать => прочитать на русском…
На русском — не знаю, мне не попадалось издание на русском, читал в оригинале.
Все время жду, что кто-нибудь напишет про способы фильтрации проголосовавших на, условно говоря, «разумных» и «безумных». Где-то даже читал, что результатом голосования должно быть решение некой задачи, если решил — твое мнение учитывается, не решил — гуляй лесом. При этом никакие демократические принципы не страдают если опрос анонимный.
Результатам типа «столько-то % респондентов за строительство завода, столько-то против» доверять нельзя. Но не потому, что результаты могут быть перевраны. Просто люди могут быть неискренны, могут находиться под действием пропаганды, могут неправильно понять вопрос (или сам вопрос может быть поставлен некорректно). А могут просто вообще ничего не понимать в данном вопросе. Так что даже идеально проведённый с точки зрения статистики опрос нельзя считать истиной в последней инстанции. Хотя при умении их интерпретировать, можно узнать что-нибудь интересное.
Ответы на задаваемые вопросы редко укладываются в да/нет с точки зрения отвечаемого, а вопрошаемые настолько же часто предлагают в допустимых ответах именно да/нет.
Sign up to leave a comment.

Articles