Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Волшебники и среднеквадратичное отклонение
barouh

В многочисленных спорах про степень фальсифицированности декабрьских выборов постоянно звучит мнение, что мол разные районы Москвы (или другого российского города) могут сильно отличаться друг от друга по составу населения, и потому 2-3-хкратная разница в уровне поддержки Единой России - это нормально

Давайте посмотрим, насколько такие колебания действительно нормальны

Для начала стоит отобрать из результатов выборов по всем 95 тысячам участков массив относительно однородных данных. Для этого я, во-первых, исключил все сельские и смешанные районы - райцентр и отдаленное село в одном районе действительно могут очень сильно отличаться, спору нет; остались только участки, представляющие чисто городские территориальные избирательные комиссии. Во-вторых, я исключил участки менее чем с 1000 избирателей - для городов такие малочисленные участки нехарактерны, и как правило это различные особые участки - больницы, СИЗО, корабли и так далее. Или просто небольшие деревни и поселки, административно приписанные к городу. Всего таких маленьких городских участков набралось около 4150 - примерно 12% от общего количества в 34 тысячи сельских участков

После всех манипуляций остался массив из 402 городов, в каждом из которых не менее 8 участков более чем с 1000 избирателей на каждом; всего - 29699 участков. Представлены все регионы страны, кроме Чукотки.
Представленный ниже график показывает распределение 402 городов по двум параметрам: среднему проценту за Единую Россию и по среднеквадратичному отклонению голосования за Единую Россию (отклонение по участкам городам от среднего по городу). То есть сравниваем средний результат ЕР по городу и степень однородности города по поддержке ЕР. При расчете обоих показателей учитываются только "полноценные" участки более чем с 1000 избирателей на каждом.

И что же мы видим? Мы видим несколько резко отличающихся друг от друга типов "поведения" городов. На графике каждый тип показан своим цветом. Ниже - комментарии и подробности. Если кратко – есть большая группа городов (больше 1/2 от всех) со стандартным «поведением» на выборах: в этих городах поддержка Единой России низкая или средняя, а разброс результатов по отдельным участкам – относительно небольшой. И есть вторая большая группа городов, в которых разброс в уровне поддержки ЕР намного больше, а средний по городу результат «партии власти» - средний или высокий. «Поведение» этих городов на выборах и их хаотичное расположение на графике выглядят странно, и дают веские основания предполагать наличие фальсификаций на существенной части участков этих городов.

Уточнение для скептиков: я далек от того, чтобы сам факт более высокого разброса результатов ЕР по участкам в том или ином городе считать безусловным признаком фальсификаций. И даже общая тенденция роста разброса результатов вместе с увеличением среднего по городу результата ЕР еще ничего не доказывает. Главное основание для утверждений, что высокий разброс результатов ЕР по участкам является индикатором существенных фальсификаций в городе, - это характер распределения точек (городов) на приведенном ниже графике. Если бы это распределение определялось естественными социальными и географическими факторами, мы бы увидели единое «облако» точек – вероятно, более плотное в одной части, менее плотное в другой, но единое. А здесь же мы видим резкие изменения плотность точек на графике и заметные разрывы между отдельными группами. Такое возможно только если есть некий мощный «дискретный» фактор, который действует в одних городах, и вообще не действует в других городах. Альтернативные версии – что это может быть помимо фальсификаций – принимаются.


402 города - дисперсия ЕдРа

Тип 1. Равномерная, и при этом невысокая, поддержка Единой России. Большое плотное «облако» точек в нижней левой части графика. Результат ЕР в этой группе городов - от 18% до 47%, как правило - между 28% и 37%, в среднем - 33%. Среднеквадратичное отклонение (СКО) - от 1,5% до 5%.
Для примера - Чебоксары: в среднем по городу у «единоросов» 33%, СКО 3,3%. В городе 186 участков, из них 162 - более чем по 1000 избирателей. Разброс результатов Единой России - от 24% до 48%, но при этом 90% участков они укладываются в относительно небольшой интервал от 28% до 38,5%. И да, если нарисовать частотное распределение по Чебоксарам, получится "почти Гаусс"
Главное: к группе подобных городов с ожидаемо невысоким разбросом результатов Единой России относится больше половины российских городов. 212 городов - из выборки в 402 города. Среди них – и маленькие городки вроде подмосковной Рошали, кавминводского Лермонтова или Мантурово в Костромской области, и большие города, притом не только Чебоксары, но и многие более крупные города: Екатеринбург, Омск, Воронеж, Ижевск и т.д. Среди городов с небольшим разбросом голосов за ЕР - и безусловно оппозиционные Иркутск, Рыбинск, подмосковные Дубна и Юбилейный, и относительно лояльные власти Алатырь в Чувашии, Норильск, Шимановск в Амурской области. Представлена вся российская география – от Калининграда до Петропавловск-Камчатского, от Апатитов до Ейска.
Промежуточное резюме: для большинства российских городов, притом весьма существенно отличающимся друг от друга по своим характеристикам, свойственна достаточно равномерная (в пределах города) поддержка Единой России. Стандартная для России картина – это когда на подавляющем большинстве участков в городе результат ЕР отличается от среднегородского процентов на 5, не больше.

Остальные 190 городов представляют собой куда более пеструю массу.
Тип 2. Непринципиальные отклонения от стандартной модели. Есть города (всего в этой группе 43 города, на графике показаны сиреневым цветом), которые по уровню поддержки Единой России и по разбросу результатов по участкам не очень сильно отличаются от описанной выше категории городов. В одних случаях небольшой размер СКО (для голосования за ЕР) сочетается с нехарактерным для других городов с таким же уровнем СКО высоким, более 50%, средним уровнем поддержки Единой России. В качестве примеров можно назвать Арзамас, уральские спецгорода Озерск и Снежинск, ямальские Салехард, Лабытнанги и Губкин. И непонятно – то ли действительно в этих городах так сильна любовь к ЕР, то ли фальсифицировали аккуратнее и равномернее, чем в других местах. Или вот, например, нефтегазовые Когалым и Муравленков – у Единой России здесь в среднем всего 40%, но уж больно маленький разброс в результатах по отдельным участкам: среднеквадратичное отклонение всего 1,2%. Опять возникает вопрос – случайно получился такой маленький разброс, или целенаправленно вытаскивали все участки на примерно одинаковый уровень поддержки ЕР? Или вот большая группа городов, в которых у ЕР вполне стандартные 25-40% - но разброс по участкам сильнее, чем в большинстве других городов: СКО составляет не 1,5-5%, а 5-7%. В этой группе в частности Новосибирск, Красноярск, Волгоград. Больший по сравнению с другими городами различия между отдельными участками в этих и подобных городах – это следствие большей неоднородности городов? Или результат фальсификаций на небольшой части участков, которые на общий результат по городу повлияли слабо, но статистику по распределению подпортили? Здесь с каждым городом надо разбираться отдельно, хотя на общую картину произошедшего в России 4-го декабря и в ночь на 5-е декабря результаты подобного анализа особо не повлияют

Тип 3. Большой разброс в поддержке Единой России. 124 города, которые, однако, не образуют какой-то единой группы, а «распылены» по большей части графика – средний по городу результат Единой России здесь колеблется от 27% до 83%, а СКО – от 7% до 27%.
Рекордсмен по контрастности голосования – Магнитогорск, где ЕР получала или 29-48% голосов, или сразу уж не меньше 76% (и до 97% на одном из участков). И ни одного участка с результатом, близким к среднегородским 57%. Следом идут Владимир и другие города Владимирской области – здесь обычные участки (где при внимательном контроле со стороны КПРФ Единая Россия получила по 20-40%) разбавили несколькими десятками специально созданных на предприятиях участков, на которых неизвестно откуда появились тысячи избирателей, почти поголовно (по 89-99%) голосовавшие за ЕР.
Среди других городов с особенно большим разбросом в поддержке ЕР – попадавшие в СМИ с поствыборными скандалами Астрахань и Шахты. Здесь же – Москва (верхний из двух более темных и крупных треугольников) и Петербург (аналогичная метка пониже). Также подозрительно большой разброс в результатах Единой России в таких крупных городах, как Нижний Новгород, Самара, Челябинск, Казань, Уфа, Ростов, Саратов, Краснодар (но есть и города меньшего размера со столь же большим разбросом – например, Сызрань, Туапсе, Усинск).
Пример Нижнего Новгорода уже разобрали подробно (1, 2), сомнений в фальсификациях там не остается. А вот например подробности про Краснодар: в городе есть несколько участков, на которых ЕР получила менее 30%, и достаточно много участков с результатами менее 40%. Есть и локальный пик – в диапазон от 43% до 44% попало 11 участков. Но есть и более заметные пики, притом – вот же совпадение – они все приходятся на круглые проценты: 15 участков в интервале 55-56%, 15 участков на 60-61%, 14% участков на 65-66%. В сумме на эти три однопроцентных интервала приходится 44 из 272 краснодарских участков. Для сравнения – на 3 интервала, идущих перед ними, приходится только 16 участков, а на три последующих – 19 участков. Локальная версия «гребенки Чурова» во всей красе. Тяга краснодарских избиркомов к круглым процентам и другие фокусы привели к тому, что даже в широчайший диапазон от 33% до 67% результат Единой России попал менее чем на 90% участков.

Тип 4. Тотальная фальсификация результатов. Для городов, в которых средний официальный результат Единой России превышает 85%, вновь, как и для городов с наименьшей поддержкой ЕР, характерна равномерность результатов по отдельным участкам города – СКО не подымается выше 5%. Столь же небольшой разброс встречается и в некоторых (но не во всех) городах с несколько более низким результатом Единой России (73-84%).
Лучший пример – ингушский Малгобек. 12 участков, и на всех участках результат ЕР от 92,0% до 92,5%. О статистической невероятности совпадения результатов выборов по отдельным участкам внутри одного ТИКа на Северном Кавказе я уже писал, упоминались там и города – например, Владикавказ и Махачкала. Скопление точек в нижнем правом углу на приведенном выше графике имеет такую же природу – это фальсификация результатов на всех участках в пределах города, притом фальсификация не в форме «корректировки» исходных результатов, а в формате заполнения итогового протокола по указаниям из ТИК без подсчета самих бюллетеней.
Среди городов, попавших на графике в четвертую группу (а всего это 23 города), - все городские ТИКи Северного Кавказа, за исключением Майкопа и Баксана, плюс Стерлитамак в Башкирии и Бугульма, Заинск, Буинск, Нурлат в Татарстане, а также Уварово в Тамбовской области и Новый Уренгой на Ямале.

Для удобства разглядывания ниже даю вторую картинку – укрупненный фрагмент того же графика. Можно подробно посмотреть на зону, где кончаются типичные значения и начинаются нетипичные.

Итого получаем:
- в большинстве городов России (212 из 420 рассмотренных) характер распределения участков по уровню поддержки Единой России не дает оснований говорить о заметных фальсификациях
- средний результат ЕР по этим «стандартным» городам – 33%
- в то же время примерно в 150 городах по всей видимости на многих участках имели место фальсификации; среди этих городов – Москва, Петербург и многие другие крупные города

P.S. Поскольку видимо по этой теме будут еще посты, добавил специальный тег 402 города. Stay tuned


  • 1
Наш участок (2103) - совершенно типичный для Краснодара - хрущёвки-пятиэтажки. Народ не бедствует, но особо и не жирует.
ЕдРу мы вбросить ничего не дали.
Результат ЕдРа - 33%. Если вычесть 56 надомников (практически поголовно за ЕдРо), результат - вровень с КПРФ.
А было ещё 56 открепившихся.
Голосовало порядка 1200 человек.

Спасибо - и за живой пример, и за "вбросить ничего не дали"
За второе не только общегражданская благодарность, но и исследовательская - чем больше "чистых" участков в конкретном городе, тем интереснее и эффективнее выявления "аномалий"

здорово.
только бы я график перевернул бы, отложив ЕР по вертикальной оси. Так, типа, привычнее, когда по оси икс идет парамерт контраста.

и еще я не понял, за что в сиреневый цвет попали города с 50-70% за ЕР и дисперсией в 3-5%. И вообще, есть претензия к сиреневому цвету: он кажется несколько искуственным.

а без него четко видны 3 кластера, никаких сомнений.

1. у меня не было задачи показать, что одно зависит от другого. Была задача показать, что есть несколько двухмерных кластеров - на мой профанский взгляд, в этом случае не так важно, что по какой оси

2. А каким цветом эти города с 50-70% за ЕР и маленькой дисперсией надо было окрашивать? К синим их все же нет оснований относить - визуально они тяготеют к нормальным красным точкам. Но и к красным их не стоит относить - на укрупненном фрагменте графика видно, что скопление "нормальных" городов имеет очень четкие границы, и правая часть сиреневых точек безусловно назодятся за пределами этих границ

С сиреневыми похоже действительно надо разбираться персонально по каждому городу

1. да пофигу, разумеется, как показывать, речь больше идет о традициях, так сказать. Вот захочу я ваши графики кому-нибудь показать -- придется или свои разворачивать, или ваши. Неудобно.

2. Я понимаю, что они из кластера выпадают, но по голосам за ЕР, а не по дисперсии. А это уже похоже на wishful thinking -- не нравятся точечки, ну мы их в другой цвет закрасим. То же самое относится к точкам 30%-6% -- они-то чем провинились?

Причем, по-моему, распределение СКО асимметрично, поскольку с одной стороны оно ограничено биноминалом, а с другой - неоднородностями избирательных участкой. Т.е. у него должен быть крутой подъем на нижних значениях, и хвост на верхних.

Научно я это не считал, но чисто визуально все сиреневые точки выпадают из явно видимой зоны наибольшей плотности точек. Точнее так - между ними и ядром есть заметные белые зоны. Хотя похожие пропуски есть и в левом углу - там, например, Черноголовка выбивается

Я согласен, что сиреневый ареал - это некоторый мой произвол. Я не готов с ходу признавать их нормальность (а для некоторых из сиреневых точек, например для Арзамаса, фальсифицированность результата ЕР достаточно очевидна). Я сразу написал, что с этими точками надо разбираться внимательнее. По хорошему - надеюсь это реализовать - надо будет выявить другие отличительные признаки, характерные для типовых городов, и проверить спорные точки на этот счет

Что касается распределения СКО, то что бы получилось для чистых выборов - не знаю. А ткт получился (пишу по памяти) почти колокол от 1,5 до 5 процентов, потом резкон снижение частоты и выполаживание кривой. Надо будет отрисовать

а постройте, там будет такой приятный скачок в среднем значении СКО на 50% ЕР.

или мне пришлите таблицу, я это сходу сделаю, а результаты верну.

вчера вечером заставил себя пойти спать. сегодня утром выложил данные:
выложил: https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE

при этом я заметил, что СКО заметно зависит от размера города, что не очень хорошо для чистоты модели

еще надо отнормировать сд на среднее, поскольку для бОльшего среднего разумно ожидать бОльшей дисперсии. Коричневые точки, кстати, лягут на горизонталную линию, а то они сейчас слегка перекошены.

Строго говоря, максимальной дисперсии для доли признака (а % голосов за ЕР - классический "признак") стоит ожидать в районе 50%. В Грозном при 99,Х% большой дисперсии взяться уже неоткуда :)

Я делал вариант графика, где Y считался как StDevPop / min (ER;1-ER)
Там два основных кластера тоже хорошо видны, но все же графики не так красивы, как приведенные

это верно, согласен.

Боренька, очень похоже на правду.
Про "северокавказский тип голосования" есть собственное наблюдение: на двухтысячном участке за день проголосовало (визульно, сидел в соседнем доме у окна и наблюдал поток - не постоянно, но практически постоянно /консультировал учившихся у меня/ + в общении с местными) процентов около 10-12 (немножко бабкодедок и все местные начальники /следят друг за другом - и все извиняются за происходящее - при том, что я воспринимался скорее как вменяемый эмиссар вменяемой части федцентра, а никакая не оппозиция/), официальная явка около 90, результат ЕР - там же.
При этом на региональных и местных выборах все очень всерьез (сложный в этническом отношении участок, поэтому этноидентичности отмобилизованы практически постоянно) - явка около 60%, и никакого рисования

Про Северный Кавказ: не хочу выпытывать у тебя точные координаты, но отмечу, что в самом этнически сложном регионе - Дагестане - безудержно рисовали и на выборах региональных. Даже Правое Дело постфактум вытащили в местный парламент

При этом я допускаю, что реальная явка на местных выборах существенно выше, чем на федеральных, и что результаты выборов по отдельным участкам определяются в острой конкуренции различных сил. Но, видимо, потом эти результаты "редактируются" на уровне района

я немного малограмотный, но среднеквадратичное отклонение, вроде, в сигмах меряется? что за проценты?

да я сам малограмотный. Процент понимаю, а сигму - уже нет. Но все же, по моему скромному разумению, среднеквадратичное отклонение всегда равно 1 сигме, поскольку сигма и СКО - это два названия одного и того же

А проценты тут простые. Проценты от всех проголосовавших. Без нормировки на процент, полученный ЕР

если величина меряется в метрах, то ско тоже будет в метрах. если в % - то в %.

ну или это будет одна сигма.

спасибо за понятность объяснений

Что, правда они достаточно понятны и внятны? Рад слышать

Отличная идея, но я согласен с Максимом: мне не нравится, как Вы кластеризуете результаты. Разбиение выглядит искусственным, особенно сиреневые точки. Нужно взять Ваши данные и кластеризовать EM-алгоритмом. Вы, кажется, работаете в экселе? Не уверен, что он это может сделать. Если хотите, можете мне прислать таблицу, и я ее кластеризую -- посмотрим, что получится.

В Новосибирске точно по отдельным районам и участкам сильная разница и без фальсификаций. Она обычно бывала и в Самаре, но на это еще наложились сильные фальсификации. Спасибо больше за работу. Еще идея: корреляция между голосованием за ЕР в городах (можно для сравнения Яблоко, КПРФ, СР) и явкой по городам. В городах с низким результатом ЕР она будет скорее отрицательная, а с высоким - точно сильно положительная. Любопытно, как это будет выглядеть на графике. То есть можно сделать что-то типа графика где по одной оси будет корреляция между явкой и ЕР по городам, а по другой - результат ЕР по городам.

об этом я тоже думал

тут - http://barouh.livejournal.com/394619.html?thread=650875#t650875 - целая мини-программа

про Новосибирск вопрос - что значит "сильная разница"? Как я пишу, СКО в пределах 5% (или oude_rus настаивает на 7%) - это "стандарт". А такому СКО может соответствовать некоторое количество участков с отклонение в 10-15 процентных пунктов от среднего

Наверное, в Новосибирске есть существенные различия между разными частями города. Ну так Екатеринбург и Ижевск, где есть большие заводские районы, или Иркутск, который вообще разделен Ангарой на два берега и к тому же включает заметные куски частной застройки, наверное не менее неоднородные города - а СКО в них "стандартное"

=Наверное, в Новосибирске есть существенные различия между разными частями города=

Да, именно так, и, пожалуй, побольше, чем, скажем в Екатеринбурге. Просто по Новосибирску и Самаре я замечал именно приличные различия между районами, когда фальсификаций точно не было.

Среднеквадратичные отклонения голосования за Единую

User kireev referenced to your post from Среднеквадратичные отклонения голосования за Единую Россию по 402 городам saying: [...] расчитал и сделал график [...]

Среднеквадратичные отклонения голосования за Единую

User sdtsdt referenced to your post from Среднеквадратичные отклонения голосования за Единую Россию по 402 городам saying: [...] расчитал и сделал график [...]

Среднеквадратичные отклонения голосования за Единую

User dpervukhin referenced to your post from Среднеквадратичные отклонения голосования за Единую Россию по 402 городам saying: [...] расчитал и сделал график [...]

"Случайности". Системно по 402 городам России.

User vaspono referenced to your post from "Случайности". Системно по 402 городам России. saying: [...] по наглядности картинка исходное исследование здесь: http://barouh.livejournal.com/394270.html [...]

  • 1
?

Log in

No account? Create an account