Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
техническое
barouh
для любопытствующих выложил основные данные (среднеквадратичное отклонение голосования за ЕР + некоторые другие параметры по городам): https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE

попутно заметил, что даже по "стандартным" городам прослеживается зависимость среднеквадратичного отклонения от размер города (количества избирательных участков) - чем больше город, тем выше наблюдаемые значения СКО. Если среди городов в 10-20 участков даже значения СКО менее 2% встречаются достаточно часто, то  среди городов в 200 и более участков (это примерно 500 тыс. жителей и более) минимальное СКО - около 4%

очевидного математического объяснения этот феномен не имеет. Рабочие версии:
- возможно, я зря использовал среднеквадратичное отклонение - при его использовании один резко отличающийся от среднего участка влияет существенно сильнее на общую по городу оценку отклонения, чем при использовании среднего линейного отклонения
- в больших городах больше вероятность формирования "кварталов", в которых социальный состав и политические предпочтения избирателей существенно бы отличались от среднегородских
- в больших городах больше вероятность (в силу большего количества участков), что даже при отсутствии команды на фальсификации сверху (с уровня города или ТИКа) на отдельных участках проявят "инициативу" и подрисуют результаты 

какие из этих объяснений ближе к истине, пока сказать не могу

  • 1
Я бы наоборот сказал что вероятность образования "профильных кварталов" выше в маленьких городах, так как они зачастую ориентированы на крупные предприятия, что, соответственно, оказывает влияние на выбор. Чем крупнее город, тем разнороднее будут жители внутри квартала. Имхо конечно.

Не соглашусь. В небольших городах весь город может "жить" вокруг одного предприятия, и его сотрудники будут разбросаны по всему городу. А в большом городе могут быть обособленные районы средних по размеру промышленных предприятий. Или, наоборот, университетско-академические районы

Если окажется, что в больших городах увеличивается разброс в обе стороны - появляются участки и с сильно большим, и с сильно меньшим голосованием за ЕР - тогда версия большей разнородности участков в крупных городах получит подтверждение
(сразу оговорюсь, что "большая" разнородность все равно не такая большая, чтобы объяснять скачки в Москве, Питере, Нижнем и других мегаполисах)


второе, конечно.
Статистически: больше реализаций - лучше прописывается распределение.
Социоэкономически: больше реализаций - больше расцветающих цветов, хороших и разных.

отличить второе от третьего можно только введя параметр контраста.

а про параметр контраста можно подробнее?

да вроде обсуждали уже, нет?
надо найти такое значение некого параметра, которое будет создавать порог дискриминации между "нормальными" и "иррациональными" участками. Иногда, как в примере с Н.Новгородом, это сделать довольно очевидно (параметр контраста - явка в последние 2 часа), иногда приходится пользоваться методом "от фонаря". Например, ваше разделение городов вполне понятно визуально, но вот с параметром контраста надо смотреть: если взять ско где-то 7-8%, то получится нормально, но вопрос будет "а почему это именно 8%?".
я щас посмотрю на ваши данные, может, и получится что.

А, понятно. По поводу разделения участков на нормальные и иррациональные - понятно, что в каждом конкретном случае могут быть свои критерии (связанные с особенностями организации фальсификаций и противодействия им в конкретном городе), но конечно мечтается о более-менее универсальной классификации. Понятно, что такая классификация не может строиться на одном параметре (хотя бы в силу того, что где-то вбрасывали бюллетени, а где-то переписывали с других партий - и статистические признаки будут разными). То есть видимо нужен большой набор признаков нормальности/ненормальности для каждого участка - и интегральная оценка на основе доли "нормальных" показателей.
В идеале может получиться двугорбая картинка - где много участков вообще без признаков ненормальности, много участков, ненормальных по всем или многим признакам, и мало участков с небольшим количество ненормальных показателей. Но такая красивая картинка может и не получится

Для того, чтобы методически аккуратно определить параметры "нормальности" участков, я и попытался выделить массив "нормальных" ТИКов.СКО по голосованию за ЕР является видимо наиболее эффективным критерием для такой классификации ТИКов. Но и его недостаточно - во-первых, можно предположить, что есть города с существенными (но не запредельными) равномерными фальсификациями (пример - Арзамас), и включение подобных кейсов в корпус "чистых" городов может создать сильный "шум" для всего последующего анализа. Во-вторых, в принципе нельзя выбрать какое-то одно пороговое значение "нормального" СКО, поскольку величина СКО зависит от размера города.

Насколько я помню

Какие могут быть варианты решения?

1) как-то "нормализовать" СКО относительно размера города - но непонятно, как. Сложность в том, что нам надо понять зависимость СКО от размера города не для всего массива, а для более-менее "чистых" городов - а выбрать эти "чистые" города мы не можем, не определив пороговые значения СКО. То есть нужна или какая-то итерационная процедура, или сложный подбор оптимального решения

2) на время "забыть" про СКО и поискать другие критерии "нормальности" ТИКов, не связанные напрямую с результатами конкретных партий. Имея несколько таких критериев, мы можем для каждого из них установить максимально мягкие критерии отсечения - и считать "хорошими" те ТИКи, которые проходят эти критерии по всем параметрам
Пока на уровне гипотез - возможные признаки для разделения "хороших" и "плохих" ТИКов:
- отклонения по голосованию за другие партии (особенно за КПРФ, как за партию, чей контроль был ограничением фальсификаций на наибольшем количестве участков, и за эсеров и Яблоко, как партии, фактический результат которых оказался заметно выше ожиданий)
- отсутствие или наличие положительной корреляции по участкам между голосованием за ЕР и явкой
- наличие или отсутствие положительной корреляции между голосованием за ЕР и ЛДПР (кажется, в городах за пределами Москвы реальное голосование за них коррелирует между собой)
- явка в последние 2 часа и вообще отклонения почасовой явки от стандартного графика
- доля крупных участков без недействительных и без унесенных бюллетеней

вот картинго по вашим данным:

Распределения SD ровно такие, как я и ожидал увидеть.
Порог в районе 7 вполне, по-моему, честный.
Отсекать же на базе SD-критерия участки с ЕР=90%, по-моему, не очень честно, поскольку, как мы с вами вчера договорились, СД и должна убывать из-за ограничения при голосовании близком к 100%.
Отсюда вытекает п2: надо использовать несколько критериев. Из них:
- корреляция с явкой совершенно правильна
- динамика за последние 2 часа немного более хитра, поскольку в Москве, например, две моды голосующих (нормальные и гиперактивные) прослеживаются с самого утра, и нет никакой видимой корреляции между ихними предпочтениями (я давно сделал анализ, но все никак не соберусь его выложить). А вот в Самаре/Нижнем это дело работает с высокой достоверностью. В общем, надо смотреть. Возьметесь?

Про распределение SD отвечу позже - там посчитать-уточнить надо

Про почасовой анализ для Москвы очень интересно - с нетерпением жду результатов, и тогда сам пока не буду касаться этих данных

Про "возьметесь" - я бы взялся и даже пытаюсь двигаться вперед, но работу работать надо. Так что ничего обещать не могу. Буду пробовать двигаться в том же формате - выкладывая результаты и мысли по кусочкам и обсуждая. Если какие-то вещи получится делать сообща - буду рад

У нас в запасе еще полтора месяца до следующих выборов :)

О новых "участках" во Владимирской области

User legal_gun referenced to your post from О новых "участках" во Владимирской области saying: [...]   привел таблицу [...]

Не один Чуров волшебник...

User dpervukhin referenced to your post from Не один Чуров волшебник... saying: [...]   привел таблицу [...]

> чем больше город, тем выше наблюдаемые значения СКО
А есть ли графическое представление (зависимость СКО от числа избирателей)? Для 180 чистых городов, разумеется.

Оффтопик: Не подскажете, где можно увидеть гистограмму явки для Великобритании-2010?

СКО ЕР от количества округов - декабрь, 402 города:


СКО Пу от количества округов - март, 180 городов (точки выше 7% - это города, где фальсификации появились в марте):


Ну и ссылка на картинку по UK:
http://clip2net.com/s/1O62p

Изб. округ - это то же, что и УИК?

Не было ли планов сравнить нынешние результаты с 2003 годом (когда ещё не было столь массовых фальсификаций)? Т.е. провести исследование подобное тому, что было в "180 городах"?

сорри, я конечно имел ввиду не "в зависимости от количества округов", а в зависимости от количества участков

сравнить с 2003-м было бы интересно - но на все сразу просто хронически не хватает времени (а задача на самом деле не такая простая, потому что деление городов на районы, разделение на города и районы и наименования ТИКов за 8 лет сильно изменились)

Эх, пропали картинки... Фотохостинг (clip2net), видимо, неудачный. В принципе, я уже извлёк нужную информацию, но в дальнейшем рекомендую более полно осветить зависимость СКО от размера города (тут как раз актуально сравнение выборов за разные годы, в т.ч. региональных). Тема малоисследованная, но при этом крайне интересная и требующая популяризации, чтобы разоблачать жульничество, подобное астраханскому :).

  • 1
?

Log in

No account? Create an account