?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
техническое
barouh
для любопытствующих выложил основные данные (среднеквадратичное отклонение голосования за ЕР + некоторые другие параметры по городам): https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE

попутно заметил, что даже по "стандартным" городам прослеживается зависимость среднеквадратичного отклонения от размер города (количества избирательных участков) - чем больше город, тем выше наблюдаемые значения СКО. Если среди городов в 10-20 участков даже значения СКО менее 2% встречаются достаточно часто, то  среди городов в 200 и более участков (это примерно 500 тыс. жителей и более) минимальное СКО - около 4%

очевидного математического объяснения этот феномен не имеет. Рабочие версии:
- возможно, я зря использовал среднеквадратичное отклонение - при его использовании один резко отличающийся от среднего участка влияет существенно сильнее на общую по городу оценку отклонения, чем при использовании среднего линейного отклонения
- в больших городах больше вероятность формирования "кварталов", в которых социальный состав и политические предпочтения избирателей существенно бы отличались от среднегородских
- в больших городах больше вероятность (в силу большего количества участков), что даже при отсутствии команды на фальсификации сверху (с уровня города или ТИКа) на отдельных участках проявят "инициативу" и подрисуют результаты 

какие из этих объяснений ближе к истине, пока сказать не могу

  • 1
Я бы наоборот сказал что вероятность образования "профильных кварталов" выше в маленьких городах, так как они зачастую ориентированы на крупные предприятия, что, соответственно, оказывает влияние на выбор. Чем крупнее город, тем разнороднее будут жители внутри квартала. Имхо конечно.

Не соглашусь. В небольших городах весь город может "жить" вокруг одного предприятия, и его сотрудники будут разбросаны по всему городу. А в большом городе могут быть обособленные районы средних по размеру промышленных предприятий. Или, наоборот, университетско-академические районы

Если окажется, что в больших городах увеличивается разброс в обе стороны - появляются участки и с сильно большим, и с сильно меньшим голосованием за ЕР - тогда версия большей разнородности участков в крупных городах получит подтверждение
(сразу оговорюсь, что "большая" разнородность все равно не такая большая, чтобы объяснять скачки в Москве, Питере, Нижнем и других мегаполисах)


второе, конечно.
Статистически: больше реализаций - лучше прописывается распределение.
Социоэкономически: больше реализаций - больше расцветающих цветов, хороших и разных.

отличить второе от третьего можно только введя параметр контраста.

а про параметр контраста можно подробнее?

да вроде обсуждали уже, нет?
надо найти такое значение некого параметра, которое будет создавать порог дискриминации между "нормальными" и "иррациональными" участками. Иногда, как в примере с Н.Новгородом, это сделать довольно очевидно (параметр контраста - явка в последние 2 часа), иногда приходится пользоваться методом "от фонаря". Например, ваше разделение городов вполне понятно визуально, но вот с параметром контраста надо смотреть: если взять ско где-то 7-8%, то получится нормально, но вопрос будет "а почему это именно 8%?".
я щас посмотрю на ваши данные, может, и получится что.

А, понятно. По поводу разделения участков на нормальные и иррациональные - понятно, что в каждом конкретном случае могут быть свои критерии (связанные с особенностями организации фальсификаций и противодействия им в конкретном городе), но конечно мечтается о более-менее универсальной классификации. Понятно, что такая классификация не может строиться на одном параметре (хотя бы в силу того, что где-то вбрасывали бюллетени, а где-то переписывали с других партий - и статистические признаки будут разными). То есть видимо нужен большой набор признаков нормальности/ненормальности для каждого участка - и интегральная оценка на основе доли "нормальных" показателей.
В идеале может получиться двугорбая картинка - где много участков вообще без признаков ненормальности, много участков, ненормальных по всем или многим признакам, и мало участков с небольшим количество ненормальных показателей. Но такая красивая картинка может и не получится

Для того, чтобы методически аккуратно определить параметры "нормальности" участков, я и попытался выделить массив "нормальных" ТИКов.СКО по голосованию за ЕР является видимо наиболее эффективным критерием для такой классификации ТИКов. Но и его недостаточно - во-первых, можно предположить, что есть города с существенными (но не запредельными) равномерными фальсификациями (пример - Арзамас), и включение подобных кейсов в корпус "чистых" городов может создать сильный "шум" для всего последующего анализа. Во-вторых, в принципе нельзя выбрать какое-то одно пороговое значение "нормального" СКО, поскольку величина СКО зависит от размера города.

Насколько я помню

Какие могут быть варианты решения?

1) как-то "нормализовать" СКО относительно размера города - но непонятно, как. Сложность в том, что нам надо понять зависимость СКО от размера города не для всего массива, а для более-менее "чистых" городов - а выбрать эти "чистые" города мы не можем, не определив пороговые значения СКО. То есть нужна или какая-то итерационная процедура, или сложный подбор оптимального решения

2) на время "забыть" про СКО и поискать другие критерии "нормальности" ТИКов, не связанные напрямую с результатами конкретных партий. Имея несколько таких критериев, мы можем для каждого из них установить максимально мягкие критерии отсечения - и считать "хорошими" те ТИКи, которые проходят эти критерии по всем параметрам
Пока на уровне гипотез - возможные признаки для разделения "хороших" и "плохих" ТИКов:
- отклонения по голосованию за другие партии (особенно за КПРФ, как за партию, чей контроль был ограничением фальсификаций на наибольшем количестве участков, и за эсеров и Яблоко, как партии, фактический результат которых оказался заметно выше ожиданий)
- отсутствие или наличие положительной корреляции по участкам между голосованием за ЕР и явкой
- наличие или отсутствие положительной корреляции между голосованием за ЕР и ЛДПР (кажется, в городах за пределами Москвы реальное голосование за них коррелирует между собой)
- явка в последние 2 часа и вообще отклонения почасовой явки от стандартного графика
- доля крупных участков без недействительных и без унесенных бюллетеней

вот картинго по вашим данным:

Распределения SD ровно такие, как я и ожидал увидеть.
Порог в районе 7 вполне, по-моему, честный.
Отсекать же на базе SD-критерия участки с ЕР=90%, по-моему, не очень честно, поскольку, как мы с вами вчера договорились, СД и должна убывать из-за ограничения при голосовании близком к 100%.
Отсюда вытекает п2: надо использовать несколько критериев. Из них:
- корреляция с явкой совершенно правильна
- динамика за последние 2 часа немного более хитра, поскольку в Москве, например, две моды голосующих (нормальные и гиперактивные) прослеживаются с самого утра, и нет никакой видимой корреляции между ихними предпочтениями (я давно сделал анализ, но все никак не соберусь его выложить). А вот в Самаре/Нижнем это дело работает с высокой достоверностью. В общем, надо смотреть. Возьметесь?

Про распределение SD отвечу позже - там посчитать-уточнить надо

Про почасовой анализ для Москвы очень интересно - с нетерпением жду результатов, и тогда сам пока не буду касаться этих данных

Про "возьметесь" - я бы взялся и даже пытаюсь двигаться вперед, но работу работать надо. Так что ничего обещать не могу. Буду пробовать двигаться в том же формате - выкладывая результаты и мысли по кусочкам и обсуждая. Если какие-то вещи получится делать сообща - буду рад

У нас в запасе еще полтора месяца до следующих выборов :)

О новых "участках" во Владимирской области

User legal_gun referenced to your post from О новых "участках" во Владимирской области saying: [...]   привел таблицу [...]

Не один Чуров волшебник...

User dpervukhin referenced to your post from Не один Чуров волшебник... saying: [...]   привел таблицу [...]

> чем больше город, тем выше наблюдаемые значения СКО
А есть ли графическое представление (зависимость СКО от числа избирателей)? Для 180 чистых городов, разумеется.

Оффтопик: Не подскажете, где можно увидеть гистограмму явки для Великобритании-2010?

СКО ЕР от количества округов - декабрь, 402 города:


СКО Пу от количества округов - март, 180 городов (точки выше 7% - это города, где фальсификации появились в марте):


Ну и ссылка на картинку по UK:
http://clip2net.com/s/1O62p

Изб. округ - это то же, что и УИК?

Не было ли планов сравнить нынешние результаты с 2003 годом (когда ещё не было столь массовых фальсификаций)? Т.е. провести исследование подобное тому, что было в "180 городах"?

сорри, я конечно имел ввиду не "в зависимости от количества округов", а в зависимости от количества участков

сравнить с 2003-м было бы интересно - но на все сразу просто хронически не хватает времени (а задача на самом деле не такая простая, потому что деление городов на районы, разделение на города и районы и наименования ТИКов за 8 лет сильно изменились)

Эх, пропали картинки... Фотохостинг (clip2net), видимо, неудачный. В принципе, я уже извлёк нужную информацию, но в дальнейшем рекомендую более полно осветить зависимость СКО от размера города (тут как раз актуально сравнение выборов за разные годы, в т.ч. региональных). Тема малоисследованная, но при этом крайне интересная и требующая популяризации, чтобы разоблачать жульничество, подобное астраханскому :).

  • 1