Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
уровни электоральной географии
barouh
(может быть интересно только людям, сильно интересующимся электоральной статистикой и географией)

На примере московских цифр по мартовским выборам (которые по большинству участков не искажены фальсификациями) получил неожиданный для самого себя результат: результаты голосования по конкретному участку коррелируют со средними результатами по району сильнее, чем с результатами по соседним участкам (соседство условно определялось по нумерации - не всегда, но как правило, участки внутри района нумеруются по порядку, скажем от центра к окраине, или слева направо)

Рассказываю: берем все московские "нормальные" участки, с номерами до 3164 включительно (т.е. выкидываем спецучастки и временные участки). Исключаем по методологическим причинам (это нужно, чтобы обеспечить идентичность массива) первые и последние (по номерам) участки каждого района. И для полученного массива считаем корреляции:

- для результата Путина на данном участке и на предыдущем по нумерации участке: 0,55
- для результата Путина на данном участке и на следующем по нумерации участке: опять 0,55
- для результата Путина на данном участке и среднего от результатов на предыдущем и следующем участках: 0,63
- для результата Путина на данном участке и среднего по району: 0,69. Самая сильная корреляция

Достаточно вольная и смелая, но возможно допустимая трактовка этих результатов: у Москвы есть четкая электоральная география, выражающаяся в устойчивых различиях между районами по электоральным предпочтениям; но внутри районов таких устойчивых "географий" как правило нет, и различия между отдельными частями района как правило менее значимы, чем различия между районами

Update: коллеги с лучшим чувством математики, чем у меня, справедливо засомневались по поводу эффектов от усреднения. Проверил - и вынужден признать: существенная часть описанного выше - это артефакты.

Признал я это после того, как посчитал еще два коэффициента корреляции по тому же массиву:
(5) для результата Путина на данном участке и на случайном выбранном участке того же района: 0,48
(6) для результата Путина на данном участке и среднего от результатов по ДВУМ случайно выбранным участкам того же района: 0,55

Из этого следует, что (а) все же между результатами выборов по двум "соседним" (по номерам) участкам "похожести" больше, чем между двумя случайно выбранными участками одного района, но разница небольшая (r равен 0,55 и 0,48 соответственно); (б) любое усреднение, применяемое для одной из переменных, ведет к искусственному завышению коэффициента корреляции - притом этот эффект от усреднения примерно одинаков для ситуаций неслучайного усредненения (складываем предыдущий и следующий участки) и случайного усреднения (считаем среднее от двух случайно выбранных внутри района участков); (в) высокая корреляция со средними результатами по району - это артефакт, порожденный усреднением

Как корректно сопоставить "влияние" межрайонных и внутрирайонных электоральных различий, по-прежнему непонятно. Но это наверное и не важно. Гораздо интереснее будет проверить, насколько нумерация действительно передает географическое соседство участков и насколько похоже голосуют участки, являющиеся соседями не только по номерам, но и географически

Update2: в комментариях  - http://barouh.livejournal.com/404271.html?thread=726831#t726831 - добавил еще цифирки про коэффициент корреляции в пределах района для результатов голосования по соседним участкам

  • 1
Надо бы добавить уровень значимости или ошибку определения к-тов корреляции.
Без этого сравнивать их очень некорректно.

Мне стыдно спрашивать, но от чего зависит уровень значимости? Не только от количества наблюдений, но еше от чего-то?

Количество наблюдений там во всех случаях одинаковое

я пришлю вам формулы.
Просто если погрешность к-тов корреляции больше 0.1, то они на самом деле одинаковые.
А значит надо посчитать ее.

чтобы вам не мучиться с таблицами расп-я Стьюдента, приведу выжимки:
при уровне значимости 95% и:
10 точках (УИКов) - коэф. корреляции значим. если он больше 0,632;
при 100 точках - 0,197;
а при 1000 точках - 0,06

Ну а у меня 2907 точек - т.е. значимы на уровне от 0,035

Что касается погрешности, то если я нашел правильную формулу (с корнем из n), то получается погрешность от 1,3% до 0,9% - сильно меньше разницы между полученными коэффициентами корреляции

Нужно число точек, использованных для определения каждого к-та корреляции в отдельности.

Там, конечно, корень :)))

Каждый из коэффициентов корреляции, упомянутых в посте, считался по масссиву из 2907 пар значений (2907 точек). Набор значений Х (голосование за Путина на конкретном участке) одинаковый во всех 4 случаях

Правильно ли я понял, что для расчета корреляции (который 0,69) вы брали 2907 значений средних по ТИКам и сравнивали с 2907 значениями случайных УИКов, расположенных в них? Или я что-то путаю?

бралось 2907 УИКов (все, кроме спецучастков с отдельной нумерацией, а также кроме первого и последнего по номеру УИКа в каждом районе) - и значения для каждого из них сравнивалось со средним значением по соответствующему району

(тут конечно могло повлиять то, что для первой переменной у нас 2907 практически не повторяющихся значений, а во втором случае - всего 100 с небольшим уникальных значений, каждое из которых повторяется много раз)

Тогда у вас лишь 100 точек.

Кроме того "среднее расстояние" между двумя произвольными точками в выборке
всегда больше, чем "среднее расстояние" от точки до "центра" этой выборки (я специально избегаю точной терминологии).
А это именно тот результат, который вы получили другим способом.

Почему 100 точек? Вы хотите сказать, что коэффициент корреляции в целом по городу не зависит от разброса значений в пределах каждого района? Но это ведь не так

Объясните пожалуйста, почему вы считаете, что получается 100 точек?

Про среднее расстояние: на самом деле у меня получается, что "среднее расстояние" между двумя "соседними" точками меньше, чем "расстояние" от точки до центра. А это уже неожиданный результат

Кстати, будет интересно посчитать корреляцию между результатом на участке и результатом на случайно выбранном участке того же района. Надо будет попробовать

По первому возражению. Первичное значение R получено по 100 точкам (100 районов vs 100 случайных УИКов в каждом).
Но затем вы усредняете по всем УИКам (1), затем по всему городу (2). Это увеличивает надежность, но надо подумать как.

"Расстояние" - у меня здесь величина, которая растет с уменьшением R, то есть это "непохожесть". )))
У вас результат УИКа весьма похож на средний результат по району и не так сильно похож на результат соседа.

1. Почему по 100 точкам? Может быть, надо мне не полениться и внимательно посмотреть на формулу расчета r, но боюсь, что я буду долго в нее вникать :)

Массив включает не 100 точек, а 2907. Каждый район представлен N точками (количество "нормальных" участков в районе минус 2 крайних участка) и массивом значений по этим участкам, где Х постоянный (среднее по району), а Y - значения по отдельным участкам, "пляшущие" с той или иной амплитудой вокруг Y. И, кстати, получается, что чем больше район - тем больше он влияет на общегородской r

2. Я "расстояние" толковал в таком же смысле. И с формулой "результат УИКа весьма похож на средний результат по району и не так сильно похож на результат соседа" целиком согласен. Я не согласился с формулировкой из предыдущего комментария про "две произвольные точки" - они не произвольные, они условно соседние

1. Я имел в виду, что не знаю, как строго учесть усреднение, которые вы делали. Ясно, что оно увеличивает достоверность, но неясно как именно. Брать же размер массива просто как 3000 не очень корректно.

2. Географическое соседство тоже не ясно как учесть. В арифметическом смысле это просто разные точки.

По пункту 1 - согласен, что усреднение влияет на результаты. И наверное считать, что у нас массив в 3000 точек не совсем корректно - также как и не корректно считать, что у нас 100 точек

По пункту 2 - степень соседства (и даже сам точный факт соседства) я пока не учитывал. Просто предположил, что участки с ближайшими номерами - это как правило соседние участки

Борис считает не "среднее расстояние", а "среднее арифметическое". Дисперсия среднего арифметического двух i.i.d. гауссовых случайных величин в два раза меньше дисперсии каждой из них. Отсюда и возрастание корреляции номер (3) по сравнению с корреляциями (1) и (2) в исходной записи.

Дал существенный апдейт в теле поста. Спасибо за полезную критику

строго говоря нужен многофакторный дисперсионный анализ, но вопрос только один: а зачем?
Он достаточно сложен, чтобы его выводы были непонятны обычному человеку, и выявит то, что вы и так уже видите.

речь про корреляцию номер 3 (среднее от предыдущего и следующего участков) или номер 4 (среднее по району)?

Да. Осознал ошибки. См. апдейт к записи

"Как корректно сопоставить "влияние" межрайонных и внутрирайонных электоральных различий, по-прежнему непонятно"

Ну вот как раз корреляция внутри районов (то, что я предлагал ниже) может прояснить этот вопрос.

Корреляции внутри районов покажут, есть ли "внутрирайонная" зависимость от номера участка, но не позволит корректно сравнить ее силу с фактором принадлежности к определенному району

При этом то, что внутрирайонная зависимость от номера участка есть, уже понятно из того, что корреляция с результатами по "соседним" участкам выше, чем корреляция со случайным участком того же района

Но внутрирайонные корреляции все равно посчитаю

А если посмотреть на корреляции с шагом 1 внутри районов?

в смысле? корреляция с "предыдущими" и "следующими" участками - это, насколько я понимаю, и есть "корреляция с шагом 1". Притом поскольку крайние по нумерации участки в каждом районе отбрасывались, получается шаг 1 в пределах района

Да. Но Вы считали эту корреляцию по всему массиву московских данных, как я понял. Я предлагаю разбить Москву на районы, посчитать корреляцию в каждом районе отдельно, а потом сосчитать среднее получившися коэффициентов корреляци. Если автокорреляции внутри районов нет, то получится 0.

А, понятно. Я хотел это сделать - но запнулся на некотором недоубстве экселя для этих целей. Сделаю

Посчитал. Результаты неоднозначные. Средневзвешенные коэффициенты корреляции для районов с количеством участков более 10 (т.е. более чем с 8 точками) - 0,14 при смещение на 1 участок в одну сторону (любую из) и 0,17 при сравнении со средним по двум соседним участкам

Т.е. положительная корреляция есть, но не ахти какая сильная

Если смотреть внимательнее, то видно, что есть районы с явной корреляцией и есть районы с нулевой корреляцией. Притом и такие, и такие примеры есть даже среди самых крупных районов, для которых уровни надежности относительно "пристойные". Например, Марьино - 65 участков, +0,52 для смещения на 1 участок (в любую сторону) и +0,59 для среднего по двум участкам. Или Выхино-Жулебино и Южное Бутово - по 55 участков, 0,33-0,39 для корреляций 1 и 2, 0,48 и 0,40 для корреляции 3
И в то же время в Ясенево (55 участков), Люблино, Отрадное, Коньково, Бибирево (от 43 до 51 участка) все r в диапазоне от -0,15 до +0,15

Ну а для районов менее чем с ~30 участками уже идет полный разброд: и большие отрицательные корреляции, и большие различия в корреляциях с предыдущим и следующим участками

Тут конечно вопрос: то ли внятная внутрирайонная география есть только в некоторых районах, то ли не везде номера участков расставляли по порядку ("по карте"), а где-то нумеровали наобум. Надо смотреть внимательнее (и пробовать посчитать для соседних не по номерам, а по координатам)

Притом единообразия нет даже в пределах одного административного округа: в Марьино корреляция есть, в Люблино нет; в Теплом Стане есть, в Ясенево и Коньково нет

Или вот например Центральный округ, где по идее есть четкая ориентация районов от центра к окраинам: Пресненский и Таганский районы среди лидеров по коррелированности (коэффициенты больше 0,7 - а там все таки примерно по 30 участков в каждом районе), Басманный тоже выглядит "неплохо" (0,3-0,5 несмотря на большое количество открепительных на одном из участков и наличие одного участка, резко выбивающегося из окружения), а в Хамовниках при этом нулевые корреляции (остальные районы ЦАО слишком маленькие, чтобы их анализировать)

Ваша гипотеза весьма правдоподобна. Сужу по своему опыту отслеживания всех выборов в Москве с 1989-го(хотя тогда были и другие районы, а некотрых нынешних территорий застройки и не было. Но тенденция прослеживается ещё с тех времён). Впрочем, не уливительно с учётом социо-культурной природы мотивации голосования.

все оказалось не совсем так, как посчиталось сначала. См. апдейт к записи

Пррочитал. Это, однако, не обязательно опровергает вашу гипотезу. Действительно необходим многофакторный дисперсионный анализ.
P.S. Не подскажете, возможно ли выйти на массив данных по данным президентским выборам по только городским(насколько это возможно установить в каждом случае)ТИКам , желательно с дифференциацией на ТИКИ областных центов и пр. городские?

Вас интересуют данные по ТИКам или по УИКам?

Есть и то, и другое. Городские ТИКи можно выбрать по формальным критериям (наличие слов "городской" и т.п.) - но есть несколько заковыристых случаев, когда приходилось вручную довыбирать городские ТИКи. В принципе, эта работа уже проделана - надо только отыскать список городских ТИКов. Напишите на b-ovchinnikov -at- yandex.ru

На этих выборах благодаря webvybory2012.ru со списком участков, появилась еще и возможность выбрать городские УИКи в смешанных районах - раньше например нельзя было выделить Люберцы, Балаково, Энгельс и многие другие города, слитые со своими районами. Теперь можно - но я не знаю, сделал ли кто-то уже полную классификацию

  • 1
?

Log in

No account? Create an account