для любопытствующих выложил основные данные (среднеквадратичное отклонение голосования за ЕР + некоторые другие параметры по городам): https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE
попутно заметил, что даже по "стандартным" городам прослеживается зависимость среднеквадратичного отклонения от размер города (количества избирательных участков) - чем больше город, тем выше наблюдаемые значения СКО. Если среди городов в 10-20 участков даже значения СКО менее 2% встречаются достаточно часто, то среди городов в 200 и более участков (это примерно 500 тыс. жителей и более) минимальное СКО - около 4%
очевидного математического объяснения этот феномен не имеет. Рабочие версии:
- возможно, я зря использовал среднеквадратичное отклонение - при его использовании один резко отличающийся от среднего участка влияет существенно сильнее на общую по городу оценку отклонения, чем при использовании среднего линейного отклонения
- в больших городах больше вероятность формирования "кварталов", в которых социальный состав и политические предпочтения избирателей существенно бы отличались от среднегородских
- в больших городах больше вероятность (в силу большего количества участков), что даже при отсутствии команды на фальсификации сверху (с уровня города или ТИКа) на отдельных участках проявят "инициативу" и подрисуют результаты
какие из этих объяснений ближе к истине, пока сказать не могу
- техническое
Если окажется, что в больших городах увеличивается разброс в обе стороны - появляются участки и с сильно большим, и с сильно меньшим голосованием за ЕР - тогда версия большей разнородности участков в крупных городах получит подтверждение
(сразу оговорюсь, что "большая" разнородность все равно не такая большая, чтобы объяснять скачки в Москве, Питере, Нижнем и других мегаполисах)
Статистически: больше реализаций - лучше прописывается распределение.
Социоэкономически: больше реализаций - больше расцветающих цветов, хороших и разных.
отличить второе от третьего можно только введя параметр контраста.
надо найти такое значение некого параметра, которое будет создавать порог дискриминации между "нормальными" и "иррациональными" участками. Иногда, как в примере с Н.Новгородом, это сделать довольно очевидно (параметр контраста - явка в последние 2 часа), иногда приходится пользоваться методом "от фонаря". Например, ваше разделение городов вполне понятно визуально, но вот с параметром контраста надо смотреть: если взять ско где-то 7-8%, то получится нормально, но вопрос будет "а почему это именно 8%?".
я щас посмотрю на ваши данные, может, и получится что.
В идеале может получиться двугорбая картинка - где много участков вообще без признаков ненормальности, много участков, ненормальных по всем или многим признакам, и мало участков с небольшим количество ненормальных показателей. Но такая красивая картинка может и не получится
Для того, чтобы методически аккуратно определить параметры "нормальности" участков, я и попытался выделить массив "нормальных" ТИКов.СКО по голосованию за ЕР является видимо наиболее эффективным критерием для такой классификации ТИКов. Но и его недостаточно - во-первых, можно предположить, что есть города с существенными (но не запредельными) равномерными фальсификациями (пример - Арзамас), и включение подобных кейсов в корпус "чистых" городов может создать сильный "шум" для всего последующего анализа. Во-вторых, в принципе нельзя выбрать какое-то одно пороговое значение "нормального" СКО, поскольку величина СКО зависит от размера города.
Насколько я помню
Какие могут быть варианты решения?
1) как-то "нормализовать" СКО относительно размера города - но непонятно, как. Сложность в том, что нам надо понять зависимость СКО от размера города не для всего массива, а для более-менее "чистых" городов - а выбрать эти "чистые" города мы не можем, не определив пороговые значения СКО. То есть нужна или какая-то итерационная процедура, или сложный подбор оптимального решения
2) на время "забыть" про СКО и поискать другие критерии "нормальности" ТИКов, не связанные напрямую с результатами конкретных партий. Имея несколько таких критериев, мы можем для каждого из них установить максимально мягкие критерии отсечения - и считать "хорошими" те ТИКи, которые проходят эти критерии по всем параметрам
Пока на уровне гипотез - возможные признаки для разделения "хороших" и "плохих" ТИКов:
- отклонения по голосованию за другие партии (особенно за КПРФ, как за партию, чей контроль был ограничением фальсификаций на наибольшем количестве участков, и за эсеров и Яблоко, как партии, фактический результат которых оказался заметно выше ожиданий)
- отсутствие или наличие положительной корреляции по участкам между голосованием за ЕР и явкой
- наличие или отсутствие положительной корреляции между голосованием за ЕР и ЛДПР (кажется, в городах за пределами Москвы реальное голосование за них коррелирует между собой)
- явка в последние 2 часа и вообще отклонения почасовой явки от стандартного графика
- доля крупных участков без недействительных и без унесенных бюллетеней
Распределения SD ровно такие, как я и ожидал увидеть.
Порог в районе 7 вполне, по-моему, честный.
Отсекать же на базе SD-критерия участки с ЕР=90%, по-моему, не очень честно, поскольку, как мы с вами вчера договорились, СД и должна убывать из-за ограничения при голосовании близком к 100%.
Отсюда вытекает п2: надо использовать несколько критериев. Из них:
- корреляция с явкой совершенно правильна
- динамика за последние 2 часа немного более хитра, поскольку в Москве, например, две моды голосующих (нормальные и гиперактивные) прослеживаются с самого утра, и нет никакой видимой корреляции между ихними предпочтениями (я давно сделал анализ, но все никак не соберусь его выложить). А вот в Самаре/Нижнем это дело работает с высокой достоверностью. В общем, надо смотреть. Возьметесь?
Про почасовой анализ для Москвы очень интересно - с нетерпением жду результатов, и тогда сам пока не буду касаться этих данных
Про "возьметесь" - я бы взялся и даже пытаюсь двигаться вперед, но работу работать надо. Так что ничего обещать не могу. Буду пробовать двигаться в том же формате - выкладывая результаты и мысли по кусочкам и обсуждая. Если какие-то вещи получится делать сообща - буду рад
У нас в запасе еще полтора месяца до следующих выборов :)
А есть ли графическое представление (зависимость СКО от числа избирателей)? Для 180 чистых городов, разумеется.
Оффтопик: Не подскажете, где можно увидеть гистограмму явки для Великобритании-2010?
СКО Пу от количества округов - март, 180 городов (точки выше 7% - это города, где фальсификации появились в марте):
Ну и ссылка на картинку по UK:
http://clip2net.com/s/1O62p
Не было ли планов сравнить нынешние результаты с 2003 годом (когда ещё не было столь массовых фальсификаций)? Т.е. провести исследование подобное тому, что было в "180 городах"?
сравнить с 2003-м было бы интересно - но на все сразу просто хронически не хватает времени (а задача на самом деле не такая простая, потому что деление городов на районы, разделение на города и районы и наименования ТИКов за 8 лет сильно изменились)