?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
уровни электоральной географии
barouh
(может быть интересно только людям, сильно интересующимся электоральной статистикой и географией)

На примере московских цифр по мартовским выборам (которые по большинству участков не искажены фальсификациями) получил неожиданный для самого себя результат: результаты голосования по конкретному участку коррелируют со средними результатами по району сильнее, чем с результатами по соседним участкам (соседство условно определялось по нумерации - не всегда, но как правило, участки внутри района нумеруются по порядку, скажем от центра к окраине, или слева направо)

Рассказываю: берем все московские "нормальные" участки, с номерами до 3164 включительно (т.е. выкидываем спецучастки и временные участки). Исключаем по методологическим причинам (это нужно, чтобы обеспечить идентичность массива) первые и последние (по номерам) участки каждого района. И для полученного массива считаем корреляции:

- для результата Путина на данном участке и на предыдущем по нумерации участке: 0,55
- для результата Путина на данном участке и на следующем по нумерации участке: опять 0,55
- для результата Путина на данном участке и среднего от результатов на предыдущем и следующем участках: 0,63
- для результата Путина на данном участке и среднего по району: 0,69. Самая сильная корреляция

Достаточно вольная и смелая, но возможно допустимая трактовка этих результатов: у Москвы есть четкая электоральная география, выражающаяся в устойчивых различиях между районами по электоральным предпочтениям; но внутри районов таких устойчивых "географий" как правило нет, и различия между отдельными частями района как правило менее значимы, чем различия между районами

Update: коллеги с лучшим чувством математики, чем у меня, справедливо засомневались по поводу эффектов от усреднения. Проверил - и вынужден признать: существенная часть описанного выше - это артефакты.

Признал я это после того, как посчитал еще два коэффициента корреляции по тому же массиву:
(5) для результата Путина на данном участке и на случайном выбранном участке того же района: 0,48
(6) для результата Путина на данном участке и среднего от результатов по ДВУМ случайно выбранным участкам того же района: 0,55

Из этого следует, что (а) все же между результатами выборов по двум "соседним" (по номерам) участкам "похожести" больше, чем между двумя случайно выбранными участками одного района, но разница небольшая (r равен 0,55 и 0,48 соответственно); (б) любое усреднение, применяемое для одной из переменных, ведет к искусственному завышению коэффициента корреляции - притом этот эффект от усреднения примерно одинаков для ситуаций неслучайного усредненения (складываем предыдущий и следующий участки) и случайного усреднения (считаем среднее от двух случайно выбранных внутри района участков); (в) высокая корреляция со средними результатами по району - это артефакт, порожденный усреднением

Как корректно сопоставить "влияние" межрайонных и внутрирайонных электоральных различий, по-прежнему непонятно. Но это наверное и не важно. Гораздо интереснее будет проверить, насколько нумерация действительно передает географическое соседство участков и насколько похоже голосуют участки, являющиеся соседями не только по номерам, но и географически

Update2: в комментариях  - http://barouh.livejournal.com/404271.html?thread=726831#t726831 - добавил еще цифирки про коэффициент корреляции в пределах района для результатов голосования по соседним участкам

  • 1
Да. Но Вы считали эту корреляцию по всему массиву московских данных, как я понял. Я предлагаю разбить Москву на районы, посчитать корреляцию в каждом районе отдельно, а потом сосчитать среднее получившися коэффициентов корреляци. Если автокорреляции внутри районов нет, то получится 0.

А, понятно. Я хотел это сделать - но запнулся на некотором недоубстве экселя для этих целей. Сделаю

Посчитал. Результаты неоднозначные. Средневзвешенные коэффициенты корреляции для районов с количеством участков более 10 (т.е. более чем с 8 точками) - 0,14 при смещение на 1 участок в одну сторону (любую из) и 0,17 при сравнении со средним по двум соседним участкам

Т.е. положительная корреляция есть, но не ахти какая сильная

Если смотреть внимательнее, то видно, что есть районы с явной корреляцией и есть районы с нулевой корреляцией. Притом и такие, и такие примеры есть даже среди самых крупных районов, для которых уровни надежности относительно "пристойные". Например, Марьино - 65 участков, +0,52 для смещения на 1 участок (в любую сторону) и +0,59 для среднего по двум участкам. Или Выхино-Жулебино и Южное Бутово - по 55 участков, 0,33-0,39 для корреляций 1 и 2, 0,48 и 0,40 для корреляции 3
И в то же время в Ясенево (55 участков), Люблино, Отрадное, Коньково, Бибирево (от 43 до 51 участка) все r в диапазоне от -0,15 до +0,15

Ну а для районов менее чем с ~30 участками уже идет полный разброд: и большие отрицательные корреляции, и большие различия в корреляциях с предыдущим и следующим участками

Тут конечно вопрос: то ли внятная внутрирайонная география есть только в некоторых районах, то ли не везде номера участков расставляли по порядку ("по карте"), а где-то нумеровали наобум. Надо смотреть внимательнее (и пробовать посчитать для соседних не по номерам, а по координатам)

Притом единообразия нет даже в пределах одного административного округа: в Марьино корреляция есть, в Люблино нет; в Теплом Стане есть, в Ясенево и Коньково нет

Или вот например Центральный округ, где по идее есть четкая ориентация районов от центра к окраинам: Пресненский и Таганский районы среди лидеров по коррелированности (коэффициенты больше 0,7 - а там все таки примерно по 30 участков в каждом районе), Басманный тоже выглядит "неплохо" (0,3-0,5 несмотря на большое количество открепительных на одном из участков и наличие одного участка, резко выбивающегося из окружения), а в Хамовниках при этом нулевые корреляции (остальные районы ЦАО слишком маленькие, чтобы их анализировать)

  • 1