?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
техническое
barouh
для любопытствующих выложил основные данные (среднеквадратичное отклонение голосования за ЕР + некоторые другие параметры по городам): https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE

попутно заметил, что даже по "стандартным" городам прослеживается зависимость среднеквадратичного отклонения от размер города (количества избирательных участков) - чем больше город, тем выше наблюдаемые значения СКО. Если среди городов в 10-20 участков даже значения СКО менее 2% встречаются достаточно часто, то  среди городов в 200 и более участков (это примерно 500 тыс. жителей и более) минимальное СКО - около 4%

очевидного математического объяснения этот феномен не имеет. Рабочие версии:
- возможно, я зря использовал среднеквадратичное отклонение - при его использовании один резко отличающийся от среднего участка влияет существенно сильнее на общую по городу оценку отклонения, чем при использовании среднего линейного отклонения
- в больших городах больше вероятность формирования "кварталов", в которых социальный состав и политические предпочтения избирателей существенно бы отличались от среднегородских
- в больших городах больше вероятность (в силу большего количества участков), что даже при отсутствии команды на фальсификации сверху (с уровня города или ТИКа) на отдельных участках проявят "инициативу" и подрисуют результаты 

какие из этих объяснений ближе к истине, пока сказать не могу

  • 1
вот картинго по вашим данным:

Распределения SD ровно такие, как я и ожидал увидеть.
Порог в районе 7 вполне, по-моему, честный.
Отсекать же на базе SD-критерия участки с ЕР=90%, по-моему, не очень честно, поскольку, как мы с вами вчера договорились, СД и должна убывать из-за ограничения при голосовании близком к 100%.
Отсюда вытекает п2: надо использовать несколько критериев. Из них:
- корреляция с явкой совершенно правильна
- динамика за последние 2 часа немного более хитра, поскольку в Москве, например, две моды голосующих (нормальные и гиперактивные) прослеживаются с самого утра, и нет никакой видимой корреляции между ихними предпочтениями (я давно сделал анализ, но все никак не соберусь его выложить). А вот в Самаре/Нижнем это дело работает с высокой достоверностью. В общем, надо смотреть. Возьметесь?

Про распределение SD отвечу позже - там посчитать-уточнить надо

Про почасовой анализ для Москвы очень интересно - с нетерпением жду результатов, и тогда сам пока не буду касаться этих данных

Про "возьметесь" - я бы взялся и даже пытаюсь двигаться вперед, но работу работать надо. Так что ничего обещать не могу. Буду пробовать двигаться в том же формате - выкладывая результаты и мысли по кусочкам и обсуждая. Если какие-то вещи получится делать сообща - буду рад

У нас в запасе еще полтора месяца до следующих выборов :)

ну, речь не идет про завтра.

просто, с одной стороны, дубляж работы необходим для проверки, а с другой - он снижает эффективность. Эффективности, кстати, отнюдь не помогает разное представление данных (это к нашему вчерашнему обсуждению). Поэтому если бы вы взялись посмотреть на динамику городов вашего списка, то это был бы еще один критерий.

а если дополните ваш список явкой, то третий критерий я вам моментально отрисую. Сделайте, пожалуйста, что вам стОит еще колоночку посчитать?

что именно еще посчитать? уточните, что нужно - постараюсь посчитать

нужно дополнить ваш файл колонкой "явка" -- т.е. отношением числа проголосовавших к списочному составу.

тогда я сразу нарисую гистограму ер%-явка%, где помечу малодисперсионные города.

добавил 2 колонки туда же: https://docs.google.com/spreadsheet/ccc?key=0AqPgHiOWRZ2JdENMX1d0V3h6SlZ6M1QxWDNiZDI4TFE&hl=en_US#

вторая колонка - стандартное отклонение по явке

Как и для % ЕР, явка считается не как отношение суммарных чисел по городу, а как среднее от явки по отдельным участкам с количеством избирателей более 1000

Edited at 2012-01-18 03:10 pm (UTC)



добавил фит и ожидаемую из биномиала дисперсию (отскалирована произвольно, чтоб пересекала "правильный" кластер примерно посередке).

1) как именно считается Mean SD?
2) на верхней вставке где участки с долей ЕР менее 30%, 35-45%, 50-60% и более 60%?



какая-то корреляция есть, но не сказать, чтобы очень.

Про порог отсечения: при интервале в 0,25% мы видим вообще пустой интервал между 6,50% и 6,75%. Да и дальше частота сильно меньше, чем до 6,5%, особенно если учитывать только города с результатом ЕР менее 47% (почему 47%? В распределении городов по % ЕР это первый заметный пропуск, если учитывать голоса с небольшим SD)

Так что логичный порог отсечения, на мой взгляд, 6,5%

Распределение городов по среднеквадратичному отклонению для % голосов у ЕР. Шаг 0,25%. Все 402 города и (зеленая кривая) города с результатом ЕР менее 47%
среднеквадратичное отклонение ЕР в %% от результата ЕР

Edited at 2012-01-18 04:23 pm (UTC)

//Так что логичный порог отсечения, на мой взгляд, 6,5%//

да без разницы, плюс-минус пара городов.


И еще две картинки, про среднеквадратичное отклонение при больших процентах ЕдРа

Вот картинки, где SD пересчитано в проценты от среднего по городу результата ЕР, а для городов с ЕР>50% - в проценты от суммы голосов не за ЕР

среднеквадратичное отклонение ЕР в %% от результата ЕР


Как мы видим, синий кластер рассыпается. При этом для зеленых и большинства синих точек прослеживается явная положительная корреляция: чем больше средний результаи ЕР, тем больше разброс. (Совсем интересно, что там видна подгруппа с такой же линейной зависимостью - но с более низким значением константы b)

Среди синих точек есть города, в которых разброс результатов ЕР с учетом близости этих результатов к 100% оказывается очень большим: Дербент, Карачаевск, Махачкала. И только в 2,5 случаях разброс явно меньше ожидаемого - это все тот же Малгобек, а также (неожиданность) Мыски и отчасти Буйнакск.


И укрупненный фрагмент:
укрупненный фрагмент


Я кластеризацию сделать еще не успел, но глядя на эту картинку, видно, что никакого сиреневого кластера нет. И вообще все остальное, кроме основного кластера на взгляд не особо кластеризуется.

Если соблюдать аккуратную терминологию, то да, кластер тут один. А остальное - разнообразные многочисленные отклонения и исключения.
То, что я назвал кластерами, наверное правильнее было бы назвать менее научно типами или группами. И в любом случае это пока предварительная классификация

  • 1