Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
однородно/неоднородно, устойчиво/неустойчиво
barouh
Как вы наверное помните, после декабрьских выборов я нарисовал по 402 городам график соотношения среднего (по городу) результата «Единой России» и среднеквадратичного отклонения (т.е. степени однородности голосования за ЕдРо по участкам города). Из того графика вырисовывались интересные наблюдения и выводы на тему того, где именно в декабре фальсифицировали выборы


Коллега kobak уже в первые дни после мартовских выборов построил аналогичный график и по президентским выборам (для голосования за Путина), правда его график построен не по городам, а по городским ТИКам (в крупных городах несколько ТИКов, в т.ч. в Москве – более 100) – но это не сказывается существенно на выводах.

Для затравки пара графиков от kobak по ТИКам, а ниже пара моих графиков по городам
Данные по ТИКам (кликабельно):
дисперсия по ТИКам

Мой график №1: декабрьские и мартовские выборы на одной картинке (март синий, декабрь оранжевый)
дисперсия по городам 2011+2012

И мой график №2 – тоже самое, но с нормировкой: за 0% взят минимальный результат соответственно для Единой России и для Путина (в обоих случаях это подмосковный город Юбилейный), за 100% - максимальный результат (Грозный)



При всех различиях в визуализации, все эти графики говорят нам об одном и том же - об уменьшении на президентских выборах количества статистических аномалий: средний уровень дисперсии ниже, чем в декабре; городов, попадающих в основной («нормальный») кластер с достаточно однородным и относительно невысоким голосованием за власть, стало значительно больше, чем в декабре. Например, количество городов с СКО более 7% сократилось с 120 до 62, а с СКО более 10% - с 76 до 8.

Можно копнуть дальше, и посмотреть, как менялась (не)однородность результатов голосования по отдельным городам. На следующем графике показано СКО для декабрьских выборов (голосование за Единую Россию, ось X) и СКО для мартовских выборов (голосование за Путина, ось Y). Для наглядности я обвел рамками четыре основные группы точек.

сравнение дисперсии 2011 и 2012
(версия графика без рамочек)

В большинстве городов и в декабре, и в марте разброс результатов между участками был небольшим (СКО менее 7% для думских выборов и 6% для президентских), притом внутри этой группы (расположенной внутри синего овала) прослеживается четкая корреляция между уровнями однородности выборов в декабре и в марте. Иными словами, если естественная картина не искажается фальсификациями, то уровень «внутригородской дисперсии» является достаточно стабильной характеристикой.

Группа точек в темно-красной рамке – это города, в которых и в декабре, и в марте отмечалась высокая неоднородность голосования. Попросту говоря, это города, для которых есть основания говорить о заметных фальсификациях на обоих выборах. Впрочем, даже внутри этого прямоугольника большинство точек тяготеет к его нижней части, т.е. к уровню СКО на мартовских выборах в 6-8%, что говорит как минимум о снижении уровня фальсификаций по сравнению с декабрем.

Но вот например в Петербурге (большая точка с красной рамкой наверху графика) неоднородность результатов выборов по сравнению с декабрем практически не сократилась :(. А вот вторая укрупненная точка, расположенная внутри желтого прямоугольника - Москва - дает нам классический пример резкого сокращения СКО: за три месяца столица «вдруг» стала в электоральном плане намного более однородной.

Притом Москва – самый заметный, но не единичный пример резкого роста однородности голосования. Аналогичную ситуацию мы видим в Магнитогорске, городах Владимирской области, Туапсе, Шахтах, Сызрани, ряде городов Республики Коми.

Ну и четвертая группа на графике (красная рамка) – это города, в которых неоднородность результатов выборов заметно выросла в марте по сравнению с декабрем и достигла уровня, нехарактерного для честного подсчета голосов. Городов в этой группе относительно немного – меньше двух десятков – притом «механика» попадания в эту группу у разных городов разная: в одних случаях причиной является рост фальсификаций (например, Ханты-Мансийск, Аша в Челябинской области), а в других случаях – наоборот, нарушение однородности фальсификаций при заметном снижении их общего уровня (Саров, Прохладный, Кизляр).

  • 1
красиво.
только мне рамочки не нравятся, поскольку они навязывают выводы, а я сам хочу, без рамочек.

например, темно-красная рамочка не очевидна per se: корреляция дает наклон в 4/5 (что разумно), т.е. 15% СП за ЕР трансформируются в 12 -- ровно как оно и есть. Т.е., может, это особенность такая у города (и у остальных).

а вот желтая и красная рамочки -- это да, это тяжело объяснимо. Особенно желтая.

А вы могли бы сделать то же самое, но по процентам? или мне данные прислать, я сам отрисую.

Так я же специально для самостоятельно-думающих дал ссылку на график без рамочек

Темно-красная рамочка - она определяется не соотношением СКО в декабре и марте, а плотностью распределения: это зона, в которую попадают города, СКО в которых на обоих выборах было выше уровня, наблюдавшегося для городов "ядра"

Питер конечно надо будет "покрутить" подробнее. Наличие фальсификаций там наверное уже не надо доказывать (после выведения точного алгоритма определения результатов по двум десяткам участков одного ТИКа), но показать, как работает "анализ дисперсии" на питерском материале в динамике, будет интересно

"По процентам" - в смысле с шагом в 1%?
Хотя наверное в любом случае будет проще, если действительно просто пришлю данные письмом

это все понятно. Я пытался извлечь дополнительные смыслы именно из этого графика. Или - поставив вопрос шире - можно ли получить из прямого сравнения двух выборов какие-то дополнительные метрики аномалий.

по процентам -- имелось в виду отложить результат Путина в % против результата ЕР в %. Интересно, как будет выглядеть.

Про дополнителные смыслы - да, конечно, можно их извлечь. Естественно, что сравнение численности избирателей, сравнение явки и сравнение результатов партий и их кандидатов дает много интересного. Но это банально

А что касается анализа дисперсии, то уже из этого графика (что с рамочками, что без рамочек) видно и "нормальное" поведение (сохранение СКО примерно на прежнем уровне или его незначительное снижение), и отклонения, указывающие на фальсификации как минимум на одних из выборов. Если дальше смотреть динамику СКО по разным типам городов или динамику ЕР-Путин по городам с разным уровнем СКО, то там еще много всего интересного вылезает - частично уже посчитано, но надо урвать время на описание этого

я посмотрел Москву на предмет отклонения участков по численности между двумя выборами. Такое впечатление, что отклонения в плюс-минус 10% от численности вполне нормальны (т.е. не вызывают каких-то эмоций на гистограмме). А это более 90% участков.

То есть можно сделать то же самое для всей выборки (если она есть) и на ее базе найти проценты отсечки.

Проценты отсечки мы ищем для чего? От ответа на этот вопрос зависят детали методики

Если для выявления фальсификаций, то тогда надо смотреть на количество избирателей по первой графе - и анализировать участки с наибольшими расхождениями, а также анализировать корреляцию изменения количества избирателей с количеством открепительных и динамикой голосования на дому

Если же для проверки соответствия нумерации участков, то тогда (а) лучше смотреть на количество избирателей без учета оборота открепительных, (б) нужно определить два параметра отсечки - предельное "нормальное" расхождение в численности (притом для городов надо учитывать только больше участки, >1000 человек в списке хотя бы на одних из выборов) и предельную долю выпадающих за пределы +/- 10% (или другой планки) участков в пределах одного ТИКа

второе. и не столько соответствия нумерации, сколько сохранения ареала избирателей.

я смотрел на списочные составы, которые (предположительно) не должны сильно меняться за 3 месяца, если только не произошло перекроения аревалов.

Списочные составы могут существенно меняться, если:
(а) на участке вдруг появилось несколько сотен голосующих по открепительным удостоверениям
(б) УИК выдумал сотни человек, якобы голосующих на дому
(в) или на одних выборах, или на других УИК по ошибке вместо количества избирателей написал количество выданных бюллетеней (для выявления последнего типа участков надо отсеивать участки с расхождением количества избирателей более 1,5 раз и 100%-ной явкой на тех выборах, где было меньше избирателей)

Что касается изменений ареалов, я могу ошибаться - но пока у меня ощущение, что было достаточно много случаев, когда границы участков не меняли (или почти не меняли), но при этом (в целях затруднения нашей жизни) меняли порядок, в котором идут участки
(не помню, по какому региону я видел пример, когда видимо ликвидировали один участок - и чтобы сохранялась сплошная нумерация, и при этом не надо было бы сдвигать на единицу номера всех участков, просто в каждом районе последний по номеру участок переставили в начало списка данного района)

  • 1
?

Log in

No account? Create an account