?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
техническое
barouh
для любопытствующих выложил основные данные (среднеквадратичное отклонение голосования за ЕР + некоторые другие параметры по городам): https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE

попутно заметил, что даже по "стандартным" городам прослеживается зависимость среднеквадратичного отклонения от размер города (количества избирательных участков) - чем больше город, тем выше наблюдаемые значения СКО. Если среди городов в 10-20 участков даже значения СКО менее 2% встречаются достаточно часто, то  среди городов в 200 и более участков (это примерно 500 тыс. жителей и более) минимальное СКО - около 4%

очевидного математического объяснения этот феномен не имеет. Рабочие версии:
- возможно, я зря использовал среднеквадратичное отклонение - при его использовании один резко отличающийся от среднего участка влияет существенно сильнее на общую по городу оценку отклонения, чем при использовании среднего линейного отклонения
- в больших городах больше вероятность формирования "кварталов", в которых социальный состав и политические предпочтения избирателей существенно бы отличались от среднегородских
- в больших городах больше вероятность (в силу большего количества участков), что даже при отсутствии команды на фальсификации сверху (с уровня города или ТИКа) на отдельных участках проявят "инициативу" и подрисуют результаты 

какие из этих объяснений ближе к истине, пока сказать не могу

  • 1
да вроде обсуждали уже, нет?
надо найти такое значение некого параметра, которое будет создавать порог дискриминации между "нормальными" и "иррациональными" участками. Иногда, как в примере с Н.Новгородом, это сделать довольно очевидно (параметр контраста - явка в последние 2 часа), иногда приходится пользоваться методом "от фонаря". Например, ваше разделение городов вполне понятно визуально, но вот с параметром контраста надо смотреть: если взять ско где-то 7-8%, то получится нормально, но вопрос будет "а почему это именно 8%?".
я щас посмотрю на ваши данные, может, и получится что.

А, понятно. По поводу разделения участков на нормальные и иррациональные - понятно, что в каждом конкретном случае могут быть свои критерии (связанные с особенностями организации фальсификаций и противодействия им в конкретном городе), но конечно мечтается о более-менее универсальной классификации. Понятно, что такая классификация не может строиться на одном параметре (хотя бы в силу того, что где-то вбрасывали бюллетени, а где-то переписывали с других партий - и статистические признаки будут разными). То есть видимо нужен большой набор признаков нормальности/ненормальности для каждого участка - и интегральная оценка на основе доли "нормальных" показателей.
В идеале может получиться двугорбая картинка - где много участков вообще без признаков ненормальности, много участков, ненормальных по всем или многим признакам, и мало участков с небольшим количество ненормальных показателей. Но такая красивая картинка может и не получится

Для того, чтобы методически аккуратно определить параметры "нормальности" участков, я и попытался выделить массив "нормальных" ТИКов.СКО по голосованию за ЕР является видимо наиболее эффективным критерием для такой классификации ТИКов. Но и его недостаточно - во-первых, можно предположить, что есть города с существенными (но не запредельными) равномерными фальсификациями (пример - Арзамас), и включение подобных кейсов в корпус "чистых" городов может создать сильный "шум" для всего последующего анализа. Во-вторых, в принципе нельзя выбрать какое-то одно пороговое значение "нормального" СКО, поскольку величина СКО зависит от размера города.

Насколько я помню

Какие могут быть варианты решения?

1) как-то "нормализовать" СКО относительно размера города - но непонятно, как. Сложность в том, что нам надо понять зависимость СКО от размера города не для всего массива, а для более-менее "чистых" городов - а выбрать эти "чистые" города мы не можем, не определив пороговые значения СКО. То есть нужна или какая-то итерационная процедура, или сложный подбор оптимального решения

2) на время "забыть" про СКО и поискать другие критерии "нормальности" ТИКов, не связанные напрямую с результатами конкретных партий. Имея несколько таких критериев, мы можем для каждого из них установить максимально мягкие критерии отсечения - и считать "хорошими" те ТИКи, которые проходят эти критерии по всем параметрам
Пока на уровне гипотез - возможные признаки для разделения "хороших" и "плохих" ТИКов:
- отклонения по голосованию за другие партии (особенно за КПРФ, как за партию, чей контроль был ограничением фальсификаций на наибольшем количестве участков, и за эсеров и Яблоко, как партии, фактический результат которых оказался заметно выше ожиданий)
- отсутствие или наличие положительной корреляции по участкам между голосованием за ЕР и явкой
- наличие или отсутствие положительной корреляции между голосованием за ЕР и ЛДПР (кажется, в городах за пределами Москвы реальное голосование за них коррелирует между собой)
- явка в последние 2 часа и вообще отклонения почасовой явки от стандартного графика
- доля крупных участков без недействительных и без унесенных бюллетеней

вот картинго по вашим данным:

Распределения SD ровно такие, как я и ожидал увидеть.
Порог в районе 7 вполне, по-моему, честный.
Отсекать же на базе SD-критерия участки с ЕР=90%, по-моему, не очень честно, поскольку, как мы с вами вчера договорились, СД и должна убывать из-за ограничения при голосовании близком к 100%.
Отсюда вытекает п2: надо использовать несколько критериев. Из них:
- корреляция с явкой совершенно правильна
- динамика за последние 2 часа немного более хитра, поскольку в Москве, например, две моды голосующих (нормальные и гиперактивные) прослеживаются с самого утра, и нет никакой видимой корреляции между ихними предпочтениями (я давно сделал анализ, но все никак не соберусь его выложить). А вот в Самаре/Нижнем это дело работает с высокой достоверностью. В общем, надо смотреть. Возьметесь?

Про распределение SD отвечу позже - там посчитать-уточнить надо

Про почасовой анализ для Москвы очень интересно - с нетерпением жду результатов, и тогда сам пока не буду касаться этих данных

Про "возьметесь" - я бы взялся и даже пытаюсь двигаться вперед, но работу работать надо. Так что ничего обещать не могу. Буду пробовать двигаться в том же формате - выкладывая результаты и мысли по кусочкам и обсуждая. Если какие-то вещи получится делать сообща - буду рад

У нас в запасе еще полтора месяца до следующих выборов :)

ну, речь не идет про завтра.

просто, с одной стороны, дубляж работы необходим для проверки, а с другой - он снижает эффективность. Эффективности, кстати, отнюдь не помогает разное представление данных (это к нашему вчерашнему обсуждению). Поэтому если бы вы взялись посмотреть на динамику городов вашего списка, то это был бы еще один критерий.

а если дополните ваш список явкой, то третий критерий я вам моментально отрисую. Сделайте, пожалуйста, что вам стОит еще колоночку посчитать?

что именно еще посчитать? уточните, что нужно - постараюсь посчитать

нужно дополнить ваш файл колонкой "явка" -- т.е. отношением числа проголосовавших к списочному составу.

тогда я сразу нарисую гистограму ер%-явка%, где помечу малодисперсионные города.

добавил 2 колонки туда же: https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE&hl=en_US#

вторая колонка - стандартное отклонение по явке

Как и для % ЕР, явка считается не как отношение суммарных чисел по городу, а как среднее от явки по отдельным участкам с количеством избирателей более 1000

Edited at 2012-01-18 03:10 pm (UTC)



добавил фит и ожидаемую из биномиала дисперсию (отскалирована произвольно, чтоб пересекала "правильный" кластер примерно посередке).

1) как именно считается Mean SD?
2) на верхней вставке где участки с долей ЕР менее 30%, 35-45%, 50-60% и более 60%?

Про порог отсечения: при интервале в 0,25% мы видим вообще пустой интервал между 6,50% и 6,75%. Да и дальше частота сильно меньше, чем до 6,5%, особенно если учитывать только города с результатом ЕР менее 47% (почему 47%? В распределении городов по % ЕР это первый заметный пропуск, если учитывать голоса с небольшим SD)

Так что логичный порог отсечения, на мой взгляд, 6,5%

Распределение городов по среднеквадратичному отклонению для % голосов у ЕР. Шаг 0,25%. Все 402 города и (зеленая кривая) города с результатом ЕР менее 47%
среднеквадратичное отклонение ЕР в %% от результата ЕР

Edited at 2012-01-18 04:23 pm (UTC)

//Так что логичный порог отсечения, на мой взгляд, 6,5%//

да без разницы, плюс-минус пара городов.


И еще две картинки, про среднеквадратичное отклонение при больших процентах ЕдРа

Вот картинки, где SD пересчитано в проценты от среднего по городу результата ЕР, а для городов с ЕР>50% - в проценты от суммы голосов не за ЕР

среднеквадратичное отклонение ЕР в %% от результата ЕР


Как мы видим, синий кластер рассыпается. При этом для зеленых и большинства синих точек прослеживается явная положительная корреляция: чем больше средний результаи ЕР, тем больше разброс. (Совсем интересно, что там видна подгруппа с такой же линейной зависимостью - но с более низким значением константы b)

Среди синих точек есть города, в которых разброс результатов ЕР с учетом близости этих результатов к 100% оказывается очень большим: Дербент, Карачаевск, Махачкала. И только в 2,5 случаях разброс явно меньше ожидаемого - это все тот же Малгобек, а также (неожиданность) Мыски и отчасти Буйнакск.


И укрупненный фрагмент:
укрупненный фрагмент


Я кластеризацию сделать еще не успел, но глядя на эту картинку, видно, что никакого сиреневого кластера нет. И вообще все остальное, кроме основного кластера на взгляд не особо кластеризуется.

Если соблюдать аккуратную терминологию, то да, кластер тут один. А остальное - разнообразные многочисленные отклонения и исключения.
То, что я назвал кластерами, наверное правильнее было бы назвать менее научно типами или группами. И в любом случае это пока предварительная классификация

  • 1