Pull to refresh

Устойчивость характеристик погрешности социологических опросов

Введение

Социологические опросы (соцопросы) населения являются одним из главных, если ни главным, инструментом исследований в прикладной социологии. Результаты статистической обработки опросов широко используются экспертами, политологами, пропагандистами в статьях, выступлениях, дискуссиях, имеющих место быть на страницах бумажных изданий, в политических ТВ–передачах и интернете. Причина этого совершенно понятна:  скуден выбор объективной информации у выше поименованных экспертов, политологов, пропагандистов. В глазах же широкой политизированной публики выводы, полученные в результате опросов,  являются едва ли ни единственно непреложными фактами.

Социологические опросы или замеры, что то же самое, проводятся специализированными исследовательскими организациями или, кратко,  аналитическими агентствами. Сотрудники агентств специальным образом отбирают и опрашивают группу людей / респондентов. Как правило, количество респондентов составляет одна–три тысячи. Статистически обработав данные опроса и сделав выводы относительно замеряемого социологического параметра / показателя, агентства распространяют (экстраполируют) выводы, полученные по результатам исследования части совокупности (респондентов), на всю совокупность (например, распространяют на всё население РФ, если объект исследования – всё население РФ). Отметим, что, во-первых,  любая методика опросов есть экстраполяционная, за исключением методики опроса 100% исследуемой совокупности индивидов. Во-вторых, экстраполяционная оценка исследуемого параметра содержит погрешность.

Автор в своих исследованиях анализирует общие свойства погрешности самой экстраполяционной методики социологических опросов населения. Корректный анализ  общих свойств невозможен без проверки характеристик методики на устойчивость. Проблема устойчивости возникает в случае изменения / накопления объема анализируемых данных (количества экстраполяционных оценок и их погрешностей). Результаты анализа устойчивости приведены в настоящей статье.

Экстраполяционная методика социологических опросов населения

В прикладных дисциплинах характеристики погрешности теоретических методик получают путем сравнения данных прямых измерений исследуемого параметра с числовыми данными, рассчитанными  с помощью теоретических методик. В прикладной социологии прямые измерения есть действительные результаты голосования на выборах / референдумах (100% исследуемой совокупности индивидов). Теоретические данные – прогнозы этих результатов, сделанные аналитическими агентствами до выборов / референдумов с помощью экстраполяционной методики опросов респондентов (часть исследуемой совокупности). Разность теоретических прогнозов и действительных результатов есть экстраполяционная погрешность. Другой возможности, помимо выборов и референдумов,  получить действительные значения погрешности нет.

Поэтому экстраполяционную методику опросов продемонстрируем на примере прогноза рейтинга некоего политика А в преддверии виртуальных выборов.

Подробно методика социологических опросов приведена в [1].

Поэтапно методика состоит в следующем:

(1)  Специалистами агентства проводится опрос 1000 – 3000 человек, по ходу которого респондентам задается вопрос: «За какого политика вы будете голосовать на предстоящих выборах?». Предваряя ответы респондентов, специалисты агентства могут предоставить список политиков.

 (2)  Далее специалисты рассчитывают прогноз рейтингового показателя или рейтинга  как отношение количества респондентов, готовых голосовать за политика А,  к суммарному количеству опрошенных, в процентах. Прогноз – готов!

 (3)   К  прогнозу  рейтинга  агентства  прилагают  характеристику  погрешности прогноза – предельную ошибку  Δ, вычисляемую теоретически и являющуюся мерой отличия совокупного мнения респондентов от совокупного мнения всех избирателей. Суть величины Δ  в следующем: утверждается с большой вероятностью (обычно 95%), что действительный рейтинг политика  находится в доверительном интервале:

 (–Δ+ Рn)  ≤  Рд  ≤ (Δ+ Рn),                              (1)

где Рn – прогноз рейтинга, Рд действительный рейтинг политика А (процент избирателей, проголосующих / голосовавших на выборах  за политика А). Для 1000 респондентов величина Δ составляет 1,8%, для 3000 – 4,8%, см. табл. 3 в [2].

Экстраполяционная методика может использоваться и используется для исследования других, помимо рейтинговых, показателей / параметров; например, отношение к политическим партиям, СМИ, тем или иным значимым событиям в политической и экономической жизни государства и так далее.

Характеристики погрешности экстраполяционной методики

Ранее в [2] автор привел результаты собственных исследований характеристик погрешности прогнозов, полученных с помощью экстраполяционной методики.  В исследовании сравнивались прогнозы рейтингов Рn различных политиков, сделанные до выборов ведущими аналитическими агентствами РФ, с действительными рейтингами Рд, опубликованными избиркомами различного уровня после выборов 2013 и 2018 годов,  см. табл. 2,3 [2].  Погрешность вычислялась как абсолютная разность значений Рд и Рn.

Анализ данных показал: максимальная абсолютная погрешность прогнозов Erм = 22,24%, средняя абсолютная погрешность Ers, вычисляемая как среднее арифметическое всех значений в столбцах 5,7,9 табл. 2, равна 8,5%.

Там же в [2] автор назвал прогноз рейтинга Рn доверительной оценкой (доверительным прогнозом) действительного рейтинга Рд, если для прогноза Рn  выполняется условие (1), и не доверительной оценкой (не доверительным прогнозом) рейтинга, если это условие не выполняется. В приведенных таблицах имеется только один доверительный прогноз из двенадцати.

Для анализа результатов было введено (а) понятие эффективности и (б) критерий эффективности экстраполяционной методики. Численно эффективность выражается соотношением:

Ef = 100*( Lд / L ),%,                                            (2)

где L  – суммарное количество оценок (доверительных и не доверительных), рассматриваемого множества; – количество доверительных оценок того же множества. В [2] рассматриваемое множество – данные табл. 2,3.  По данным табл. 2,3 эффективность методики Ef  составляет 8,3 %.

Для оценки этого результата введен критерий эффективности методики:

Pr  ≤  Ef / 100 = ( Lд / L ),                                      (3)

где Pr – число, близкое к единице.

«Физический смысл» критерия понятен: отношение количества доверительных оценок / прогнозов, полученных с помощью экстраполяционной методики, к суммарному числу оценок на «большом» объеме данных должно быть равно или превышать некоторое число, близкое к единице. Например, если Pr = 0,95 и на «большом» объеме данных выполняется условие (3), методика – эффективна с вероятностью получить доверительный прогноз 95%. Очевидно, что значимые для практики исследований значения Pr  лежат в диапазоне 0,8–0,95 или 80–95%. Пояснения термина «большой объем данных» – см. ниже.

Полученное автором значение эффективности Ef =8,3% позволили ему в соответствие с критерием (3) заключить, что экстраполяционная методика социологических опросов  неэффективна.

Существенным доводом против вывода автора о неэффективности (низкой эффективности) экстраполяционной методики может быть одно: недостаточный объем проанализированных данных, то есть автором проанализировано недостаточное количество электоральных прогнозов.

Является ли довод о недостаточном объеме данных существенным? Является, если имеется «много» доверительных прогнозов, сделанных когда–либо аналитическими агентствами и которые по тем или иным причинам не вошли в исследования автора.

Для такого случая автор определил достаточное дополнительное количество (достаточный дополнительный объем) доверительных оценок Lin. Lin – количество / множество оценок, удовлетворяющих критерию (3) для значимого фиксированного Pr. Это количество необходимо где–то найти, чтобы аргументировано судить о недостаточности объема данных, проанализированных автором.  

Величина Lin связана с эффективностью Ef  соотношением:

Ef = 100 * (а + Lin) / (b + Lin), %,                      (4)

Соотношение (4) идентично (2). В (4): b =12 (двенадцать) – суммарное количество оценок, проанализированное автором в [2], из них  а =1 (одна) – доверительная. Из (4) следует: чтобы показать эффективность экстраполяционной методики в 80% необходимо найти и добавить к данным автора еще  43 доверительные оценки, для эффективности 90%  – 98 оценок, для 95% – 208 доверительных оценок. Единственным ограничением выбора дополнительных оценок Lin могут быть условия: (–Δ+P2) ≤ 0%  и/или (Δ+P2) ≥ 100%.

Приведенные результаты вычислений проясняют суть введенного выше понятия / термина: «большой объем данных» (по отношению к «малому объему данных» у автора). Для Pr = 0,8 (80%) «большой объем данных» есть (12 + 43) = 55 экстраполяционных оценок; для Pr  = 0,9 (90%) – (12 + 98) = 110 оценок; для Pr  = 0,95 (95%) – (12 + 208) = 220 оценок. То есть для значимых Pr «большой объем данных» есть 60–200 оценок погрешности прогнозов, полученных с помощью экстраполяционной методики.

Такой объем данных (106 оценок) был найден у наших зарубежных партнеров в Великобритании, где в 2014 году проводился референдум «Должна ли Шотландия быть независимым государством?». Сравнение результатов голосования и прогнозов, сделанных до референдума различными аналитическими агентствами Великобритании – см. [3] – показало: средняя абсолютная погрешность прогнозов Ers  = 8,1%; эффективность экстраполяционной методики  Ef = 10,4%, максимальная абсолютная погрешность  Erм = 16,7%.

Для «шотландского референдума» 2014 года выражение (4) имеет параметры:  а = 11, b =106.  Поэтому для реабилитации / санации / реанимации / реновации экстраполяционной методики до значения Pr = 0,8 (80%) британским или иным коллегам необходимо изыскать в архивах собственных аналитических агентств 369 дополнительных доверительных оценок Lin; до значения Pr  = 0,9 (90%) – 844 оценки и до Pr = 0,95 (95%) – 1794 доверительные оценки.

Критерий устойчивости характеристик погрешности экстраполяционной методики

Выше приведены результаты исследования характеристик погрешности экстраполяционной методики социологических опросов, а именно: эффективности методики Ef, средней абсолютной погрешности прогнозов Ers, максимальной абсолютной погрешности Erм, выполненного для большого и малого объемов данных (количества электоральных прогнозов).

Для анализа устойчивости перечисленных характеристик к изменению объема данных автор ввел  понятие / термин: устойчивость характеристики погрешности экстраполяционной методики. Численно устойчивость выражается соотношением:

F [E] = 100*min (E1,E2) / max (E1,E2),%;  max (E1,E2) ≠ 0             (5)

где E  – любая характеристика из множества { Ef, Ers, Erм }. E1 – численное значение какой–то одной характеристики из множества { Ef, Ers, Erм }, вычисленное для малого объема электоральных прогнозов.  E2 – численное значение той же характеристики  из { Ef, Ers, Erм }, но вычисленное для большого объема прогнозов. max (E1,E2) и  min (E1,E2)  – соответственно операторы определения максимального и минимального значения из двух чисел E1 и E2.

Выражение (5) показывает: если  min (E1,E2) = max (E1,E2), устойчивость характеристики погрешности электоральных прогнозов к изменению объема данных максимальная и составляет 100%. В остальных случаях с уменьшением значения min (E1,E2) относительно max (E1,E2) устойчивость снижается. Пороговой устойчивостью характеристики E автор установил значение F [E] = 63%, то есть такое значение, при котором разность max (E1,E2)–min (E1,E2)  относительно max (E1,E2) составляет значение 1/е, где е = 2,7183. Таким образом, характеристика E  считается устойчивой к изменению объема данных, если F [E]  больше 63%, во  всех остальных случаях – неустойчивой. Результаты вычислений, выполненных с помощью выражения (5), а также значения Ef, Ers, Erм, полученные для различных объемов данных, приведены в табл. 1.

Таблица 1. Характеристики погрешности экстраполяционной методики опросов.

Данные

Характеристики

погрешности методики, %

Характеристики

устойчивости погрешности, %

Ef

Erм

Ers

  F[Ef ]

  F[Erм]

  F[Ers]

выборов в РФ

  8,3

22,24

8,5

    

80

     

75

      

95

референдума в GB

10,4

16,7

  8,1

 

Приведенные в табл. 1 данные указывают на устойчивость характеристик погрешности экстраполяционной методики. Необходимо отметить, что «ценность» этих характеристик различна. Величины Ef, а значит и F[Ef],  представляют практический интерес, если  Ef  ≥ 80%. Величины Erм, а значит и F[Erм], есть характеристики редких выбросов из значений исследуемых множеств. Их можно использовать как ориентировочные пределы / рамки погрешностей. Практический интерес представляет характеристика Ers, а значит и F[Ers].

Возвращаясь к критерию эффективности (3), укажем, что для объединения множеств погрешностей, приведенных в [2] и [3], эффективность Ef составит 80,5%, если величину предельной ошибки Δ  принять равной 11,8%. Если Δ = 15%, то Ef = 94,9%. Эти значения в разы больше значений Δ, вычисленных аналитическими агентствами. Работы автора позволяют ответить на вопрос, вынесенный в заголовок статьи [4]: «Насколько можно доверять социологическим исследованиям?». Ответ: экстраполяционным оценкам аналитических агентств (социологическим опросам) можно доверять, имея ввиду, что эти оценки (прогнозы) имеют погрешностью плюс / минус 12 – 15%.

Заключение

Проведенные автором исследования характеристик погрешности экстраполяционной методики социологических опросов населения показали устойчивость этих характеристик к изменению объема анализируемых электоральных прогнозов. Результаты исследований, выполненных автором, позволили ему сделать новый вывод: значительные погрешности, низкая эффективность, устойчивость этих характеристик к изменению объема анализируемых данных  есть характерные / «родовые» свойства самой экстраполяционной методики.  Именно поэтому перед исследователями стоит задача поиска других  математических методов, позволяющих получить более эффективные методики прогнозирования.

Ссылки

  1. Рабочая книга социолога / Под общ. ред. и с предисл. Г.В.Осипова. Изд. 5-е. – М.: Книжный дом «ЛИБЕРКОМ», 2009. – 480 с.

  2. Чекрыжов Ю.А. Социологические опросы: эффективность 8% // Образовательный веб–портал  twirpx . URL: https://www.twirpx.com/file/3160339/ (Дата обращения 12.01.2021)

  3. Чекрыжов Ю.А. GB. Социологические опросы: эффективность 10%. // Образовательный веб–портал  twirpx . URL: https://www.twirpx.com/file/3325157/?note=edited  (Дата обращения 12.01.2021)

  4. Александр Н. Насколько можно доверять социологическим исследованиям. HABR https://habr.com/ru/post/222773/   (Дата обращения 01.03.2021)

Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.