Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
северокавказские совпадения
barouh
В масштабах страны статистический анализ не доказывает наличия масштабных фальсификаций, а "всего лишь" выявляет их признаки. Но вот примерно для 1000 избирательных участков статистика именно ДОКАЗЫВАЕТ фальсификации

На днях kireev написал про районы Северного Кавказа, в которых официальные результаты голосования на всех или на многих избирательных участках поразительно похожи. В развитие темы я посчитал для каждой территориальной избирательной комиссии вероятность того, что результат Единой России на всех участках или на многих участках естественным образом уложился бы в тот диапазон, в который он попал. Результат: для 30 районов (более 1000 участков) вероятность естественного совпадения настолько мала (менее 1/100000), что единственным объяснением получившихся результатов является фальсификация итоговых протоколов, притом фальсификация максимально грубая – когда протоколы заполняются исходя из указаний, полученных сверху, а сами бюллетени судя по всему вообще не считаются.

За подсчетом вероятности совпадения результатов лежит простая закономерность: если большую «кучу», в которой, например, 90% - черные шары и 10% - белые шары, случайным образом поделить на несколько кучек поменьше, то, скорее всего, в каждой из получившихся кучек доля черных шаров будет не ровно 90%, а около 90%, скажем 88,5% или 91%. Теория вероятности позволяет подсчитать, как часто доля черных шаров в маленькой кучке будет отклоняться от 90% не более чем, например, на 1% или на 0,1%.

Здесь конечно можно привести традиционный аргумент защитников Чурова и ко, что мол различия между отдельными территориями по составу населения и его электоральному поведению столь велики, что делают неприменимым весь математический аппарат, разработанный для анализа случайных процессов. Однако если предполагать «неслучайный» характер различий результатов выборов между отдельными территориями, то тогда совпадение результатов по группам участков еще сложнее объяснить. Используя в данном случае модель нормального распределения и предположение об условно-случайном характере результатов выборов по каждому отдельному участку, мы по сути даем своеобразную фору сторонникам версии о честном подсчете голосов и отсутствии масштабных фальсификаций. Но даже подобная фора не спасает – случайно такие совпадения результатов выборов получаться не могут.

Рекордсмен - Сергокалинский район Дагестана. Там 29 участков с количеством избирателей от 311 до 1346 на каждом, всего 21,4 тысячи избирателей. На каждом из участков проголосовало от 285 до 1234 избирателей, в среднем– по 675 человек. На всех 29 участках Единая Россия получила от 89,47% до 89,70% голосов (большую часть остальных голосов получила КПРФ – от 9,98% 10,36%). Кстати, такой же одинаковой – от 91,59% до 91,74% - была, по официальным данным, и явка.

Вероятность, что в "кучке" с 675 шарами (то есть на участке с 675 проголосовавшими избирателями) доля "черных шаров" будет строго в пределах от 89,47% до 89,70% – всего лишь 0,08. Вероятность же, что все 29 участков попадут в этот диапазон, ничтожно мала – 1,5*10-32. Если учесть, что территориальных избирательных комиссий (городов и районов) в России всего около 2700, то получается, что вероятность возникновения подобного совпадения естественным путем хотя бы один раз за 100 триллионов избирательных циклов (т.е. за 500 триллионов лет) составляет примерно 1 восемнадцатитриллионную.


Показательна география территориальных избирательных комиссий с невероятными совпадениями результатов выборов по отдельным участкам. Представлены исключительно национальные республики, в основном северокавказские: Дагестан (11 ТИКов), Чечня (6), Ингушетия (2), Северная Осетия (2), Кабардино-Балкария (4), Карачаево-Черкессия (3), Башкирия (2).

Список всех 30 районов приводится ниже в таблице. Для каждого района указывается общее количество участков, количество участков с похожими результатами и минимальный и максимальный результаты Единой России для этих участков и вероятность подобного совпадения. Для некоторых районов приводится два варианта подсчета – по меньшей группе участков с особенно близкими результатами Единой России и наименьшей вероятностью подобного совпадения и по большей группе участков с несколько большим разбросом голосования за ЕР и большей, но все равно ничтожно малой вероятностью совпадения.

Регион

ТИК

Всего участков

Совпадающих участков

ЕР min

ЕР max

Вероятность совпадения, 1 случай на

Башкортостан

Белебеевская

67

13

85,00%

85,05%

4,1*109

23

84,85%

85,21%

1,0*105

Стерлитамакская городская

110

41

74,90%

75,12%

8,3*1017

54

74,71%

75,26%

1,2*1012

Дагестан

Акушинская

52

19

95,76%

96,02%

7,2*105

Гумбетовская

32

18

93,17%

93,57%

1,1*1010

26

92,66%

94,03%

2,9*106

Гунибская

43

20

91,88%

92,50%

3,1*106

Дахадаевская

56

51

90,91%

91,39%

2,8*1036

56

90,59%

91,67%

3,5*1028

Сергокалинская

29

28

89,55%

89,70%

2,6*1034

29

89,47%

89,70%

1,5*1032

Сулейман-Стальская

42

39

91,58%

91,87%

3,3*1031

42

91,58%

92,21%

7,3*1024

Хунзахская

56

48

94,85%

95,39%

2,6*1024

54

94,74%

95,83%

2,8*1021

Цумадинская

55

48

93,79%

95,28%

1,1*1013

55

93,79%

97,00%

1,6*1011

Бабаюртовская

24

18

70,91%

71,06%

1,9*1020

24*

70,91%

97,83%

4,8*106

Кизлярская

54

48

90,96%

91,82%

8,9*1016

54

90,43%

92,00%

4,9*1014

Махачкала, Советский р-н

60

40

96,12%

96,33%

5,2*1017

56*

96,03%

99,16%

6,7*105

Ингушетия

Малгобекская городская

19

16

92,01%

92,45%

1,2*108

18

91,53%

92,45%

1,4*106

Назрановская

29

12

96,65%

96,75%

6,9*105

Кабардино-Балкария

Баксанская**

26

10

74,97%

75,06%

2,5*108

Майская

19

19

78,97%

79,45%

2,2*1014

Прохладненская

33

19

84,90%

85,03%

5,2*1015

30

84,69%

85,51%

1,6*1013

Чегемская

18

15

82,99%

83,55%

9,2*105

Карачаево-Черкессия

Карачаевская городская

18

12

95,65%

95,77%

3,6*109

Черкесская городская

45

35

89,89%

90,37%

2,0*109

41

89,74%

90,58%

5,6*106

Усть-Джегутинская

23

18

92,44%

92,78%

3,5*108

22

92,24%

93,23%

1,4*105

Северная Осетия

Владикавказ, Левобережный р-н***

70

48

73,76%

74,38%

2,0*1014

57

73,28%

74,80%

7,0*105

Владикавказ, Правобережный р-н***

70

40

73,78%

74,46%

5,0*108

48

73,52%

74,67%

1,7*106

Чечня****

Аргунская

9

8

99,31%

99,36%

5,6*106

Грозненская

38

27

99,31%

99,45%

1,1*108

38

99,18%

99,60%

5,5*105

Надтеречная

20

14

99,39%

99,42%

7,0*1010

20

99,30%

99,55%

1,9*106

Наурская

19

18

99,20%

99,46%

1,2*105

Ножай-Юртовская

31

16

99,31%

99,40%

7,8*107

22

99,20%

99,47%

1,8*105

Шелковская

26

24

99,35%

99,54%

3,0*109



* Для Бабаюртовского района маловероятны не только концентрация 18 из 24 участков в диапазоне от 70,91% до 71,06%, но и отсутствие участков с результатом ЕР ниже 70,91% при том, что медианное голосование за ЕР в данном районе – 71,01% (т.е. всего на 0,1% выше минимума). Аналогично статистически маловероятно отсутствие участков с голосованием за ЕР хотя бы на несколько десятых процента ниже медианы в Советском районе Махачкалы
** На остальных 16 участках Баксанского района голосование за ЕР составило 70%, 71%, 74%, 76%, 77%, 78% или 79% с отклонением от целых процентов не более чем на 0,03% в меньшую сторону и 0,1% в большую сторону. Вероятность, что на всех 26 участках района процент голосов за ЕР естественным образом окажется столь близок к целым процентам, составляет 1 случай на 7*1034
*** Если Владикавказ считать как единый массив избирательных участков, то вероятность, что 84 из 140 участков уложатся в интервал от 73,78% до 74,40%, составляет 1 случай на 1,2*1020, а вероятность, что 109 участков из 140 уложатся в интервал от 73,28% до 75,00% - 1 случай на 4,6*106. Совпадения результатов выборов по большинству участков между двумя районами городами говорит о наличии общего «заказчика» результата ЕР на уровне 74% - в лице городской администрации или республиканской избирательной комиссии.
**** Если рассматривать Чечню за исключением Грозного как единый массив избирательных участков (для Грозного относительно большой размер избирательных участков делает совпадения результатов выборов между участками статистически более вероятными), то вероятность попадания 175 участков из 386 в диапазон от 99,31% до 99,49% составляет 1 случай на 1,03*106, а вероятность попадания 222 участков (58%) в диапазон от 99,27% до 99,54% составляет 1 случай на 1,4*105. Маловероятность подобного случайного совпадения доказывает, что фальсификации в Чечне организовывались и управлялись в масштабе всей республики из единого центра, а не носили «стихийный» характер на уровне районов



P.S. Через 5 лет история повторилась - притом зараза проникла и в "русские" регионы

http://barouh.livejournal.com/422490.html


  • 1
Есть над чем подумать...

Результаты выборов вообще дают много пищи для размышлений. К сожалению, эти 30 районов - лишь верхушка айсберга, точнее, наиболее грубые и топорные примеры фальсификаций

Либо я чего-то не понимаю, либо тут что-то не то. Вы не могли бы более подробно объяснить, как в точности Вы производите расчет?

Рекордсмен - Сергокалинский район Дагестана. Там 29 участков с количеством избирателей от 311 до 1346 на каждом, всего 21,4 тысячи избирателей. На каждом из участков проголосовало от 285 до 1234 избирателей, в среднем– по 675 человек. На всех 29 участках Единая Россия получила от 89,47% до 89,70% голосов [...] Вероятность, что в "кучке" с 675 шарами (то есть на участке с 675 проголосовавшими избирателями) доля "черных шаров" будет строго в пределах от 89,47% до 89,70% – всего лишь 0,08. Вероятность же, что все 29 участков попадут в этот диапазон, ничтожно мала – 1,5*1032.

Я так понял, что Вы приписываете каждому избирателю вероятность проголосовать за ЕР как медиану результатов по ТИК. Значит, в данном случае есть 25 тыс. человек, каждый из которых с вероятностью 89% с чем-то процентов голосует за ЕР. А дальше что? Допустим, на каком-то участке проголосовала 1000 человек, из них 891 за ЕР. Вы считаете, какая вероятность, что результат будет 89%-90%? 89?-89.5? Ровно 891/1000*100? Но тогда у Вас любой результат получится невероятным, потому что вероятность получить любое наперед заданное число (даже если это среднее распределения) очень мала.

Есть "генеральная совокупность" избирателей (все проголосовавшие избиратели района или проголосовавшие избиратели тех участков, по которым результаты примерно совпадают) и есть доля признака "голосуют за ЕР" в этой генсовокупности. И есть "выборка" - избирательный участок со средним для данной группы участков количеством проголосовавших избирателей.

Считаем вероятность, что доля признака в выборке у нас попадет в диапазон между минимальным и максимальным результатом ЕР по данной группе участков, т.е. что отклонение от медианы будет не более фактически наблюдаемого

Для отдельного участка вероятность попадания в такой диапазон будет не такой уж и маленькой - несколько процентов, или даже несколько десятков процентов. Но дальше мы переходим к следующему этапу - считаем вероятность повторения этого исхода k раз при N участках. И вот здесь мы уже приходим к ничтожно малым вероятностям

Конечно, тут есть много допущений. В частности, результаты по отдельным участкам считаются условно независимыми друг от друга, хотя конечно зависимость есть: если в целом по району у Единой России 90%, и на 29 из 30 участков у ЕР по 90%, то и на 30-м участке гарантировано будет 90%. Но все же в большинстве приводимых примеров количество участков достаточно велико, чтобы их "влиянием" друг на друга можно было бы пренебречь


Хм. Да, если так считать, то прямой ошибки нет (кажется), но мне все равно не нравится такой расчет. Сходу ничего лучшего предложить не могу, но попробую что-нибудь придумать.

Я тут кое-что придумал, и экспериментирую сейчас.

Вот список тик, где у меня (предварительно) получилась p<0.01:

'Волгоградская область::Волгоград, Тракторозаводская'
'Город Санкт-Петербург::Территориальная избирательная комиссия №25'
'Кабардино-Балкарская Республика::Майская'
'Кабардино-Балкарская Республика::Прохладненская'
'Кабардино-Балкарская Республика::Чегемская'
'Карачаево-Черкесская Республика::Адыге-Хабльская'
'Карачаево-Черкесская Республика::Карачаевская городская'
'Карачаево-Черкесская Республика::Тик по г. Черкесску'
'Карачаево-Черкесская Республика::Усть-Джегутинская'
'Нижегородская область::Навашинская'
'Оренбургская область::Оренбург, Центральная'
'Республика Башкортостан::Баймакская'
'Республика Башкортостан::Стерлитамакская городская'
'Республика Дагестан::Бабаюртовская'
'Республика Дагестан::Гумбетовская'
'Республика Дагестан::Дахадаевская'
'Республика Дагестан::Кизлярская'
'Республика Дагестан::Махачкала, Советская'
'Республика Дагестан::Сергокалинская'
'Республика Дагестан::Сулейман-Стальская'
'Республика Дагестан::Тарумовская'
'Республика Дагестан::Унцукульская'
'Республика Дагестан::Хунзахская'
'Республика Дагестан::Цумадинская'
'Республика Дагестан::Чародинская'
'Республика Ингушетия::Малгобекская городская'
'Республика Ингушетия::Назрановская'
'Республика Мордовия::Атюрьевская'
'Республика Мордовия::Ковылкинская'
'Республика Северная Осетия::ТИК Левобережной части г.Владикавказа'
'Республика Северная Осетия::ТИК Правобережной части г. Владикавказа'
'Республика Татарстан (Татарстан)::Бугульминская'
'Свердловская область::Екатеринбург, Кировская '
'Свердловская область::Заречная городская'
'Томская область::Томск, Ленинская'
'Чеченская Республика::Аргунская'
'Чеченская Республика::Веденская'
'Чеченская Республика::Грозненская'
'Чеченская Республика::Надтеречная'
'Чеченская Республика::Наурская'
'Чеченская Республика::Ножай-Юртовская'
'Чеченская Республика::Шатойская'
'Чеченская Республика::Шелковская'

Во многом пересекается с Вашим списком, но есть и расхождения. Сейчас пересчитаю с большей точностью.

Хмм...

А как именно считалось и чем отличается от моего подхода?

Некоторые расширения списка логичны (Мордовия, Татарстан), а некоторые сильно удивляют

Для каждой тик, где больше 5 участков, считаю общий результат ЕР (по всей тик) и median absolute deviation (mad) результатов по участкам. Дальше делаю бутстрап на 1000 повторений: 1000 раз моделирую результаты выборов, по каждому участку беря настоящее число бюллетеней и считая, что каждый избиратель голосует за ЕР с вероятностью как в среднем по ТИК. Для каждой итерации считаю mad. И потом смотрю, сколько раз из 1000 получилось число меньше исходного. Это и будет p-value. Так, у меня тем временем все досчиталось, копирую сюда заново.

p<0.001

'Город Санкт-Петербург::Территориальная избирательная комиссия №25'
'Кабардино-Балкарская Республика::Майская'
'Кабардино-Балкарская Республика::Прохладненская'
'Кабардино-Балкарская Республика::Чегемская'
'Карачаево-Черкесская Республика::Карачаевская городская'
'Карачаево-Черкесская Республика::Тик по г. Черкесску'
'Карачаево-Черкесская Республика::Усть-Джегутинская'
'Республика Башкортостан::Стерлитамакская городская'
'Республика Дагестан::Бабаюртовская'
'Республика Дагестан::Гумбетовская'
'Республика Дагестан::Гунибская'
'Республика Дагестан::Дахадаевская'
'Республика Дагестан::Кизлярская'
'Республика Дагестан::Махачкала, Советская'
'Республика Дагестан::Сергокалинская'
'Республика Дагестан::Сулейман-Стальская'
'Республика Дагестан::Тарумовская'
'Республика Дагестан::Унцукульская'
'Республика Дагестан::Хунзахская'
'Республика Дагестан::Цумадинская'
'Республика Дагестан::Чародинская'
'Республика Ингушетия::Малгобекская городская'
'Республика Мордовия::Атюрьевская'
'Республика Северная Осетия::ТИК Левобережной части г.Владикавказа'
'Республика Северная Осетия::ТИК Правобережной части г. Владикавказа'
'Республика Татарстан (Татарстан)::Бугульминская'
'Чеченская Республика::Аргунская'
'Чеченская Республика::Грозненская'
'Чеченская Республика::Надтеречная'
'Чеченская Республика::Ножай-Юртовская'
'Чеченская Республика::Шелковская'

p<0.01

'Волгоградская область::Волгоград, Тракторозаводская'
'Оренбургская область::Оренбург, Центральная'
'Республика Ингушетия::Назрановская'
'Свердловская область::Екатеринбург, Кировская '
'Свердловская область::Заречная городская'
'Томская область::Томск, Ленинская'
'Чеченская Республика::Веденская'
'Чеченская Республика::Наурская'
'Чеченская Республика::Шатойская'

Дальше не привожу, потому что я посмотрел на "Томск, Ленинская": http://ruelect.com/ru/?tree_id=2366 -- там совершенно ничего подозрительного.

При этом тики вроде такой http://ruelect.com/ru/?tree_id=298 (Мордовия) оказываются чистыми. Там общий результат 99.32% и mad=0.27% оказывается вполне в норме. Хотя ежику понятно, что это ничтожный разброс.

Кстати, посмотрел сейчас на гистограмму mad по тикам. Там два горба! Один на примерно 6%, а второй на 2%. И еще горбик в нуле. Есть 126 тиков, где mad<1% и аж 20 тик, где mad<0.1%. Вот эти 20 тик:

'Кабардино-Балкарская Республика::Прохладненская'
'Карачаево-Черкесская Республика::Карачаевская городская'
'Республика Дагестан::Бабаюртовская'
'Республика Дагестан::Дахадаевская'
'Республика Дагестан::Махачкала, Советская'
'Республика Дагестан::Сергокалинская'
'Республика Дагестан::Сулейман-Стальская'
'Республика Дагестан::Унцукульская'
'Республика Дагестан::Чародинская'
'Чеченская Республика::Аргунская'
'Чеченская Республика::Грозненская'
'Чеченская Республика::Гудермесская'
'Чеченская Республика::Надтеречная'
'Чеченская Республика::Наурская'
'Чеченская Республика::Ножай-Юртовская'
'Чеченская Республика::Сунженская'
'Чеченская Республика::Урус-Мартановская'
'Чеченская Республика::Шелковская'
'Чеченская Республика::г. Грозный, Октябрьская'
'Чеченская Республика::г. Грозный, Старопромысловская'

Учитывая, что ТИКов около 2700, даже вероятности <0.001 могут пару раз и случайным (естественным) образом получаться. Все таки "криминальные" вероятности (если считать все участки в ТИКе без исключений) - это меньше <0.0001. Интересно увидеть точные вероятности по Питеру, с одной стороны, и районам Татарстана и Мордовии, с другой стороны

99,32% и mad в 0.27% - это достаточно большой разброс, если его представить с обратной стороны: как 0,68% не за ЕДРО в среднем и среднее отклонение 0,27%

Общее же ИМХО: оба варианта применимы. Мой алгоритм лучше вылавливает совсем точные совпадения, даже если они затрагивают меньшую часть участков района; Ваш заточен под районы, где под одну гребенку подведено больше половины участков, пусть и подводка эта выполнена не совсем точно

Если интересно, давайте посмотрим подробнее на те районы, где наши результаты разошлись - которые "подозрительны" только у Вас или только у меня

Мне сейчас надо бежать, так что только очень кратко: мой алгоритм (бутстрап) в принципе не может дать точные вероятности, т.к. я просто тупо считаю кол-во раз из 1000, в которые получается такой экстремальный результат. Чтобы поднять точность, надо считать не 1000 раз, а 10000 раз, а это очень долго. Впрочем, там где получилось p<0.001, можно отдельно сделать большее число повторений...

Мой алгоритм лучше вылавливает совсем точные совпадения, даже если они затрагивают меньшую часть участков района

Это мне как раз не нравится: вы же руками отбирали эти участки? Это называется cherry-picking the data, так нечестно.

Я участки не выбирал руками, а сортировал (внутри ТИКа) по росту модуля отклонения от медианы. И считал для каждой группы от "медианный участок + ближайший" до "все участки района"

Понятно, что так мы получаем куда больше возможных комбинаций, чем при анализе строго по ТИКам (куда больше комбинаций - это почти столько же комбинаций, сколько в России участков). Ну так и выявленные аномалии имеют совсем малые вероятности (от 1 случая на сотни тысяч экспериментов)

А, класс. Тогда, пожалуй, Ваш расчет лучше :) Причем не удивлюсь, если он даже быстрее считается, хотя у Вас тестов гораздо больше: Вы можете все считать просто по формулам биномиального распределения, а я должен мучаться с бутстрапом, т.к. как распределено медианное отклонение -- фиг знает.

Ну у меня действительно все считается быстро, без всяких переборов и циклов - просто экселевский файлик с формулами. Правда, все же около минуты-другой на обновление у него уходит

Возвращаясь к Питерской ТИК 25: не очень понимаю, почему ее нет в Вашем списке. Там если вероятность считать Вашим методом, и взять половину участков, ближайших к медиане, то вероятность получается 10^-16. Давайте проверим.

согласен, что скученность подозрительная - но статистически все приемлемо

там 66 участков. возьмем даже не 33, а 32 участка (33-ий там заметно увеличивает разброс). 32 участка, ближайших к медиане, дают разброс 45,08%-46,20% при медиане 45,53%. Похоже?

При среднем количестве голосов на участке в 1253 получаем вероятность попадания 0,31 (F(-0,32)=-0,13, F(0,47)=0,18)

А дальше вспоминаем Бернулли (в экселе есть функция binomdist) получаем, что при 66 испытаниях вероятность 32 раза получить исход А с вероятностью 0,31 - 0,11%. И еще 0,09% - вероятность получить такой исход больше 32 раз. В сумме 0,2% - т.е. один раз на 500 ТИКов. Ничего запредельного

Где ошибка или разница в подходах?

Спасибо! Я не делал последнего шага, т.е. получив 0.31, просто возводил эту вероятность в 32 степень. Так, конечно, неправильно; пересчитаю.

возведение в степень 32 было бы правильно только в случае, если бы мы точно знали, что у этих участков есть общий признак - например, что у них нумерация идет подряд без пропусков или что они все расположены в одной части района, а остальные 34 участка - в другой части

Дополняю.

Вот все тики (где больше 10 участков), где mad<0.5%:

'Кабардино-Балкарская Республика::Майская'
'Кабардино-Балкарская Республика::Прохладненская'
'Кабардино-Балкарская Республика::Прохладненская городская'
'Кабардино-Балкарская Республика::Чегемская'
'Карачаево-Черкесская Республика::Адыге-Хабльская'
'Карачаево-Черкесская Республика::Карачаевская городская'
'Карачаево-Черкесская Республика::Малокарачаевская'
'Карачаево-Черкесская Республика::Тик по г. Черкесску'
'Карачаево-Черкесская Республика::Урупская'
'Карачаево-Черкесская Республика::Усть-Джегутинская'
'Республика Башкортостан::Стерлитамакская городская'
'Республика Дагестан::Бабаюртовская'
'Республика Дагестан::Буйнакская городская'
'Республика Дагестан::Гумбетовская'
'Республика Дагестан::Дагогнинская городская'
'Республика Дагестан::Дахадаевская'
'Республика Дагестан::Дербентская городская'
'Республика Дагестан::Кизлярская'
'Республика Дагестан::Махачкала, Советская'
'Республика Дагестан::Сергокалинская'
'Республика Дагестан::Сулейман-Стальская'
'Республика Дагестан::Тарумовская'
'Республика Дагестан::Унцукульская'
'Республика Дагестан::Хунзахская'
'Республика Дагестан::Цумадинская'
'Республика Дагестан::Чародинская'
'Республика Ингушетия::Малгобекская городская'
'Республика Ингушетия::Назрановская'
'Республика Коми::Вуктыльская городская'
'Республика Мордовия::Ардатовская'
'Республика Мордовия::Атюрьевская'
'Республика Мордовия::Атяшевская'
'Республика Мордовия::Большеберезниковская'
'Республика Мордовия::Дубенская'
'Республика Мордовия::Ельниковская ТИК'
'Республика Мордовия::Зубово-Полянская'
'Республика Мордовия::Инсарская'
'Республика Мордовия::Кадошкинская'
'Республика Мордовия::Ковылкинская'
'Республика Мордовия::Кочкуровская'
'Республика Мордовия::Краснослободская'
'Республика Мордовия::Старошайговская'
'Республика Мордовия::Теньгушевская'
'Республика Мордовия::Торбеевская'
'Республика Северная Осетия::ТИК Левобережной части г.Владикавказа'
'Республика Северная Осетия::ТИК Правобережной части г. Владикавказа'
'Республика Татарстан (Татарстан)::Алькеевская'
'Республика Татарстан (Татарстан)::Апастовская'
'Республика Татарстан (Татарстан)::Бугульминская'
'Республика Татарстан (Татарстан)::Нурлатская'
'Республика Татарстан (Татарстан)::Нурлатская городская'
'Республика Татарстан (Татарстан)::Пестречинская'
'Республика Татарстан (Татарстан)::Тюлячинская'
'Чеченская Республика::Ачхой-Мартановская'
'Чеченская Республика::Веденская'
'Чеченская Республика::Грозненская'
'Чеченская Республика::Гудермесская'
'Чеченская Республика::Итум-Калинская'
'Чеченская Республика::Курчалоевская'
'Чеченская Республика::Надтеречная'
'Чеченская Республика::Наурская'
'Чеченская Республика::Ножай-Юртовская'
'Чеченская Республика::Урус-Мартановская'
'Чеченская Республика::Шалинская'
'Чеченская Республика::Шатойская'
'Чеченская Республика::Шелковская'
'Чеченская Республика::г. Грозный, Заводская'
'Чеченская Республика::г. Грозный, Ленинская'
'Чеченская Республика::г. Грозный, Октябрьская'
'Чеченская Республика::г. Грозный, Старопромысловская'

А вот дополнение с mad>=0.5% & mad<1%:

'Город Санкт-Петербург::Территориальная избирательная комиссия №25'
'Кабардино-Балкарская Республика::Баксанская'
'Кабардино-Балкарская Республика::Терская'
'Карачаево-Черкесская Республика::Карачаевская'
'Карачаево-Черкесская Республика::Прикубанская'
'Карачаево-Черкесская Республика::Хабезская'
'Красноярский край::Зеленогорская городская'
'Московская область::Протвинская городская'
'Нижегородская область::Навашинская'
'Оренбургская область::Оренбург, Центральная'
'Республика Башкортостан::Баймакская'
'Республика Башкортостан::Кармаскалинская'
'Республика Дагестан::Акушинская'
'Республика Дагестан::Буйнакская'
'Республика Дагестан::Гунибская'
'Республика Дагестан::Избербашская городская'
'Республика Дагестан::Карабудахкентская'
'Республика Дагестан::Кизилюртовская'
'Республика Дагестан::Кизлярская городская'
'Республика Дагестан::Махачкала, Кировская'
'Республика Дагестан::Махачкала, Ленинская'
'Республика Дагестан::Хивская'
'Республика Ингушетия::Назрановская городская'
'Республика Ингушетия::Сунженская'
'Республика Мордовия::Большеигнатовская'
'Республика Мордовия::Темниковская'
'Республика Мордовия::Чамзинская'
'Республика Татарстан (Татарстан)::Аксубаевская'
'Республика Татарстан (Татарстан)::Арская'
'Республика Татарстан (Татарстан)::Атнинская'
'Республика Татарстан (Татарстан)::Буинская'
'Республика Татарстан (Татарстан)::Елабужская'
'Республика Татарстан (Татарстан)::Заинская'
'Республика Татарстан (Татарстан)::Муслюмовская'
'Республика Татарстан (Татарстан)::Новошешминская'
'Республика Татарстан (Татарстан)::Черемшанская'
'Самарская область::Отрадная городская'
'Саратовская область::Саратовская'
'Саратовская область::Татищевская'
'Свердловская область::Заречная городская'
'Тульская область::Каменская'
'Ханты-Мансийский автономный округ::Когалымская городская'
'Чеченская Республика::Шаройская'
'Ямало-Ненецкий автономный округ::Пуровская'

Тут уже, кажется, и нормальные тик пошли.

Медианное отклонение сильно зависит от того, сколько ЕР не добрало до 100%. То есть с точки зрения логики 99% за ЕР и разброс в пол-процента не менее подозрителен, чем 75% и пол-процента. Но с точки зрения тервера второй случай намного более странный

Именно так, да.

Я придумал, как сосчитать поэлегантнее, без бутстрапа (см. в конце комментария). Есть 32 тик, где отличие 5 сигм и выше. Это, прошу прощения за транслит:

'Kabardino-Balkarskaja Respublika::Majskaja'
'Kabardino-Balkarskaja Respublika::Prohladnenskaja'
'Kabardino-Balkarskaja Respublika::Chegemskaja'
'Karachaevo-Cherkesskaja Respublika::Karachaevskaja gorodskaja'
'Karachaevo-Cherkesskaja Respublika::Tik po g. Cherkessku'
'Karachaevo-Cherkesskaja Respublika::Ust'-Dzhegutinskaja'
'Respublika Bashkortostan::Sterlitamakskaja gorodskaja'
'Respublika Dagestan::Babajurtovskaja'
'Respublika Dagestan::Gumbetovskaja'
'Respublika Dagestan::Dahadaevskaja'
'Respublika Dagestan::Kizljarskaja'
'Respublika Dagestan::Mahachkala, Sovetskaja'
'Respublika Dagestan::Sergokalinskaja'
'Respublika Dagestan::Sulejman-Stal'skaja'
'Respublika Dagestan::Tarumovskaja'
'Respublika Dagestan::Uncukul'skaja'
'Respublika Dagestan::Hunzahskaja'
'Respublika Dagestan::Cumadinskaja'
'Respublika Dagestan::Charodinskaja'
'Respublika Ingushetija::Malgobekskaja gorodskaja'
'Respublika Mordovija::Atjur'evskaja'
'Respublika Severnaja Osetija::TIK Levoberezhnoj chasti g.Vladikavkaza'
'Respublika Severnaja Osetija::TIK Pravoberezhnoj chasti g. Vladikavkaza'
'Respublika Tatarstan (Tatarstan)::Bugul'minskaja'
'Chechenskaja Respublika::Argunskaja'
'Chechenskaja Respublika::Vedenskaja'
'Chechenskaja Respublika::Groznenskaja'
'Chechenskaja Respublika::Nadterechnaja'
'Chechenskaja Respublika::Naurskaja'
'Chechenskaja Respublika::Nozhaj-Jurtovskaja'
'Chechenskaja Respublika::Shatojskaja'
'Chechenskaja Respublika::Shelkovskaja'

Список почти Ваш, с минимальными отличиями (в частности мой метод не ловит совпадения на меньше чем половине тик, как Вы уже отметили). Но интересно, что максимальный результат равняется бесконечности на

'Respublika Dagestan::Uncukul'skaja'
'Respublika Dagestan::Charodinskaja'

потому что там больше чем на половине участков результат РОВНО 100%, медиана равна 100. Док-во: http://ruelect.com/ru/?tree_id=151. Почему у Вас рекордсмен какой-то другой?

------

Метод расчета: Для каждой тик я считаю медианное отклонение, домножаю на 1.48, чтобы получить (robust) среднеквадратичное отклонение, и считаю стандартную ошибку отклонения. Потом беру общий результат ЕР по тик и средний размер участка; в настоящих выборах дисперсия кол-ва голосов за ЕР будет n*p(1-p), отсюда дисперсия результата ЕР 100^2/n*p(1-p), отсюда среднеквадратичное отклонение 100*sqrt(p(1-p)/n). И дальше я смотрю, на сколько стандартных ошибок реальное отклонение отличается от этой оценки.

Что не очень красиво: среднее значение этой величины по всем тик страны -- минус 3.4, почему-то отрицательное. Т.е. моя "модель" (формула) предсказывает обычно меньшую дисперсию, чем наблюдается на самом деле. Не очень понимаю почему, но возможно, дело в том, что я беру средний размер участка, а на самом деле они разного размера и на маленьких участках дисперсия выше...

Нет, проблема не в размере участка (его надо аж в 10 раз уменьшить, чтобы среднее значение перестало быть отрицательным). Также проблемы нет и в формулах, я проверил на простеньком эксперименте, формула дает верную оценку. Видимо, это такой факт: в большинстве ТИК дисперсия результатов СУЩЕСТВЕННО выше, чем она была бы в модели, где все избиратели одинаковые и голосуют с одной вероятностью. При этом дисперсию я оцениваю через медианное отклонение, так что никакие спец. участки и другие особые случае тут роли не играют. Любопытно!

Естественно, реальная дисперсия существенно выше, чем при случайном распределении - в действительности участки в пределах одного района как правило весьма существенно друг от друга отличаются (хотя конечно не настолько, чтобы объяснять разницы в голосовании за ЕР в 2-3 раза и в голосовании за Яблоко в десятки раз :) )

Но даже если проигнорировать реальную неоднородность районов и взять за рабочую гипотезу случайный характер различий между участками, мы все равно получаем "невероятные вероятности" для некоторых районов

Да, с отличием в 4 сигмы:

'Respublika Ingushetija::Nazranovskaja'

А если спуститься до 3 сигм:

'Karachaevo-Cherkesskaja Respublika::Adyge-Habl'skaja'
'Karachaevo-Cherkesskaja Respublika::Malokarachaevskaja'
'Respublika Dagestan::Gunibskaja'
'Sverdlovskaja oblast'::Zarechnaja gorodskaja'
'Tul'skaja oblast'::Kamenskaja'
'Chechenskaja Respublika::Gudermesskaja'
'Chechenskaja Respublika::Urus-Martanovskaja'

-- то уже появляются тики из областей:

вот Каменская http://ruelect.com/ru/?tree_id=2383
вот Заречная городская: http://ruelect.com/ru/?tree_id=2160

не знаю, подозрительные они или нет?

Заречный - город при Белоярской АЭС. Небольшой город с типовой застройкой, общим для всего города градообразующим предприятием и т.д. Однородность результатов на большинстве участков тут вполне могла сложиться и естественным путем

А вот в Тульской области (Каменский район оттуда) фальсифицировали по-страшному, и похоже, что конкретно в этом районе была установка - обеспечить ЕР 78-80%

Про районы с медианой в 100%: если у нас в генеральной совокупности все шары черные, то и в выборке будут все шары черные, и никакой случайной погрешности там не будет

С точки зрения теории вероятности, обилие участков с результатом в 100% как раз не подозрительно. Другие северокавказские районы как раз подвела скромность - 100% писать Единой России они постеснялись, а про теорию вероятности председателям ТИКов не рассказывают

Да, я уже понял: Вы брали за настоящую вероятность по тику медиану по участкам, а я -- общий результат по тику. То есть в двух районах Дагестана, где медиана 100, Вы брали за вероятность 100, а я -- 99 с копейками, отсюда и разница.

Честно говоря, не знаю, как лучше. Но сам факт наличия двух районов с медианой 100 -- забавный.

  • 1
?

Log in