Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Чечня, Башкирия, Саратов, Тюмень: 51 ТИК, в которых фальсификация доказывается математически
barouh
Про саратовскую аномалию 62,2% и количественную оценку (не)вероятности тамошней кучности результатов Единой России я уже писал. Заодно я там рассказал про методику оценки того, что более чем на сотне участков доля голосов за ЕР случайным образом совпадет с точностью до десятой доли процента - это делается через два биномиальных распределения (краткий пересказ методики см. в конце данного поста). Но Саратов - лишь один из примеров. Всего удалось выявить 51 "сгусток" со статистически невероятной концентрацией результатов Единой России на том или ином проценте в пределах одного ТИКа (города, района, городского района).

Все эти 51 "сгусток" приходятся на 11 регионов - это Саратовская и Тюменская области (в обоих случаях - только районы областного центра), Кемеровская область, Ханты-Мансийский округ и республики - Дагестан, Чечня, Ингушетия, Кабардино-Балкария, Карачаево-Черкессия (т.е. все северокавказские, кроме Осетии и Адыгеи), а также Татарстан и Башкирия. Примечательно, что в большинстве из этих регионов - во всех, кроме ХМАО и КЧР - "сгустков" сразу несколько: не менее трех на регион.



Ниже в таблице перечислены все "сгустки", для которых вероятность их случайного образования составляет менее 0,006% (1 случай на 17 тысяч). Казалось бы, 0.006% - не такая уж и маленькая вероятность. Но: как сказано выше, в этих же регионах (за исключением ХМАО) встречаются и другие "сгустки" - уже с вероятностями менее 0,000005% (менее 1 случая на 20 миллионов). Получается, что концептуально между вероятностью 10-5 и скажем 10-12 нет никакой разницы - и те, и те "совпадения" возможны только в одних и тех же специфических регионах, и совпадение их географии - наглядное доказательство того, что "сгустки" с вероятностью 10-5 - это тоже фальсификации, прямые "рисовки" результатов.

В сумме на 51 "сгусток" приходится 1566 участков, на которых проголосовало почти 2 миллиона человек (1984 тысячи), из них 1417 тыс. за Единую Россию. То есть каждый 20-ый голос, полученный ЕР по стране, нарисован в этих "сгустках". И по хорошему результаты по всем этим участкам надо отменять. Или как минимум инициировать проверку ЦИКа - с привлечением к ней представителей партий и общественных организаций

Итак, таблица (полная версия)

ТИК диапазон кол-во и доля УИКов вероятность
Кабардино-Балкарская Республика
Прохладненская городская 78,35%-78,46% 20 УИКов (100%) 5,3E-27
Эльбрусская 78,43%-79,72% 21 УИКов (100%) 3,6E-10
Нальчикская городская 76,03%-77,97% 86 УИКов (84%) 2,3E-07
Карачаево-Черкесская Республика
Черкесская городская 76,41%-78,14% 51 УИКов (98%) 6,1E-12
Прикубанская 83,08%-83,71% 18 УИКов (78%) 3,3E-10
Кемеровская область
Полысаевская городская 72,45%-73,22% 20 УИКов (100%) 2,3E-14
Топкинская 80,57%-81,93% 34 УИКов (69%) 4,0E-08
Юргинская городская 80,48%-82,47% 40 УИКов (98%) 6,6E-07
Березовская городская 72,46%-73,41% 17 УИКов (68%) 4,0E-08
Анжеро-Судженская городская 72,16%-74,15% 45 УИКов (75%) 4,6E-05
Мысковская городская 71,76%-72,75% 18 УИКов (72%) 6,0E-05
Республика Башкортостан
Стерлитамакская городская 54,41%-56,4% 97 УИКов (84%) 2,1E-12
Октябрьская 52,74%-53,68% 30 УИКов (73%) 4,5E-10
Салаватская городская 50,99%-51,05% 12 УИКов (19%) 1,2E-08
Уфа, Калининская 47,54%-49,04% 52 УИКов (76%) 1,1E-07
Уфа, Кировская 46,21%-48,16% 56 УИКов (74%) 3,5E-06
Уфа, Орджоникидзевская 49,92%-50,1% 15 УИКов (23%) 4,3E-06
Стерлибашевская 61,73%-62,71% 16 УИКов (48%) 6,6E-06
Уфа, Демская 50,96%-51,42% 14 УИКов (42%) 1,0E-05
Республика Дагестан
Дахадаевская 91,07%-92,45% 42 УИКов (75%) 2,6E-08
Сулейман-Стальская 89,85%-90,35% 23 УИКов (55%) 1,9E-07
Сергокалинская 95,89%-96,06% 13 УИКов (45%) 3,1E-07
Республика Ингушетия
Назрановская 70,24%-71,05% 23 УИКов (79%) 7,4E-09
Малгобекская городская 72,34%-73,7% 19 УИКов (90%) 5,3E-07
Сунженская 73,93%-74,1% 10 УИКов (38%) 1,6E-06
Республика Татарстан (Татарстан)
Зеленодольская городская 79,97%-80,14% 15 УИКов (39%) 4,3E-08
Нурлатская 98,97%-99,84% 43 УИКов (98%) 9,0E-07
Набережные Челны, Комсомольская 79,54%-80% 23 УИКов (49%) 3,5E-06
Лениногорская городская 86,93%-87,12% 11 УИКов (46%) 6,4E-06
Елабужская городская 84,78%-86,01% 31 УИКов (79%) 8,3E-06
Казань, Приволжская 74,82%-75,32% 30 УИКов (34%) 2,2E-05
Казань, Советская 74,04%-76,04% 78 УИКов (75%) 4,7E-05
Саратовская область
Саратов, Заводская 61,69%-62,82% 54 УИКов (76%) 5,5E-13
Саратов, Кировская 62,14%-62,29% 17 УИКов (27%) 2,8E-09
Саратов, Октябрьская 61,99%-62,81% 30 УИКов (56%) 2,5E-07
Саратов, Ленинская 61,48%-63,46% 83 УИКов (73%) 2,6E-06
Саратов, Фрунзенская 62,14%-62,34% 9 УИКов (36%) 1,0E-05
Тюменская область
Тюмень, Центральная 47,72%-47,96% 26 УИКов (36%) 2,1E-09
Тюмень, Центральная 38,21%-38,66% 30 УИКов (41%) 2,1E-09
Тюмень, Восточная 48,9%-50,13% 41 УИКов (71%) 2,1E-07
Тюмень, Ленинская 48,37%-48,46% 10 УИКов (22%) 1,2E-06
Тюмень, Калининская 48,96%-49,44% 28 УИКов (35%) 1,7E-06
Ханты-Мансийский автономный округ – Югра
Нефтеюганская 91,95%-92,03% 9 УИКов (36%) 2,8E-06
Чеченская Республика
Урус-Мартановская 97,37%-97,66% 36 УИКов (100%) 1,7E-19
Шалинская 95,42%-95,66% 27 УИКов (100%) 1,2E-19
Ножай-Юртовская 95,7%-96,21% 32 УИКов (100%) 1,8E-18
Гудермесская 97,53%-97,91% 45 УИКов (96%) 3,2E-16
Наурская 96,35%-96,55% 19 УИКов (100%) 9,7E-15
Грозный, Заводская 95,19%-95,39% 15 УИКов (100%) 1,7E-12
Шелковская 95,6%-96,17% 26 УИКов (100%) 4,7E-12
Сунженская 93,52%-93,72% 6 УИКов (86%) 2,9E-05

Примечательно, что за пределами вышеперечисленных 11 регионов случилось только два совпадения, вероятность которых получается меньше 0,1% - в одном из районов Челябинска 8 участков попали в диапазон от 31,79% до 31,88% за Единую Россию (вероятность такого совпадения в 4 раза выше, чем у замыкающего приведенную ниже таблицу "сгустка" в городе Мыски) , а в Большемурашкинском районе Нижегородской области сразу 9 участков (из 19) показали результат ЕР от 65,00% до 65,50% - но последний случай это как раз тоже явная фальсификация.

Про некоторые из "сгустков", попавших в таблицу выше, хочется сказать подробнее

(1) Город Прохладный в Кабардино-Балкарии. Безусловный рекордсмен, где все 20 участков уложились в диапазон от 78,35% до 78,46% за Единую Россию (не спрашивайте меня, почему именно 78,4% - не знаю). Там еще и явка почти совпадает (разброс от 88,6% до 90,3%), и проценты за другие партии (например, у КПРФ везде 18,8%, и только на одном участке 1 лишний голос - так что получилось 18,9%; у "эсеров" 2,0% плюс минус 0,1%; на четвертом месте везде "зеленые" везде с 0,3%; у Яблока ни одного голоса во всем городе; также в городе ни одного недействительного и ни одного попутавшего КПРФ и КПКР)
(2) Центральный район Тюмени. Это единственный ТИК, в котором обнаружилось сразу два "сгустка". Но примечательно даже не это, а то, какие именно проценты там рисовались. Более трети участков (36%) попали по голосованию за ЕР в диапазон чуть шире 0,2% - от 47,72% до 47,96%. Рисовали менее 48% - тогда как в большинстве других "сгустков" у Единой России 70% и более. Но это еще не все: в том же Центральном районе еще 30 участков (41% от всех УИКов района) показали результат за ЕР между 38% и 39% - что как раз примерно соответствует среднему результату ЕР по нефальсифицированным участкам в крупных городах. Притом в сытой, осыпанной нефтяными деньгами Тюмени даже в центре города поддержка Единой России должна быть выше среднего - так что похоже, что на части участков в Центральном районе Тюмени ЕР нарисовали процент меньше реального (впрочем, при рисованной явке около 75-80% ЕР все равно осталась в выигрыше по количеству полученных голосов). При 38,х% за Единую Россию совпадают и результаты других партий - у эсеров всегда 22% с копейками, у КПРФ 21%, у ЛДПР 17%, у остальных не более 0,2%.
Замечательная иллюстрация рисования результатов - участок 2220. Там при вводе данных промахнулись, и у КПРФ и эсеров оказалось по 0 голосов, тогда как их стандартные результаты - 21% и 22% - сместились на одну строчку вверх и оказались записаны соответственно на Яблоко и Патриотов России. Понятно, что это просто ошибка при вводе данных - но показательно, что подобные ошибки встречаются только там, где рисовали результаты.
В завершение темы Тюмени - "сгустки" есть и в других районах города, но только по одному на район. И в отличие от Саратова, где во всех районах "метились" в одинаковый процент, в Тюмени в каждом районе была своя цель - где-то 48,4%, где-то 49-50%. Но всегда около 50%, чуть ниже
(3) башкирский Стерлитамак - рекордсмен среди ТИКов по количеству совпадающих участков: 97 из 116. Город отличается второй раз подряд - в 2011 г. там на большинстве участков была явка 75% и за ЕР 75%. Теперь все скромнее - только 55%. Высвободившиеся проценты не стали распылять по разным партиям или оставлять на усмотрение избирателям - а записали КПРФ, у которой на 85 участках из 97 результат составил фантастические 31% плюс-минус 0,5%. Подробнее у kireev
(4) Уфа. Аналог Тюмени - "сгусток" в каждом или почти каждой районе, у каждого района своя "цель", но это всегда число около 50% (47-48% в Кировском районе до 51% в Демском). Особо примечателен Орджоникидзевский район, где 15 участков не просто совпали в узком диапазоне шириной 0,2%, но еще и диапазон этот оказался ровно на 50%. Похожая на Уфу картина - только чуть более высокие проценты за ЕР - и в башкирских "сгустках" за пределами Уфы (например, в Салавате и Октябрьском)
(5) Саратов. Тут нужны пояснения. Во-первых, использованный мною алгоритм ищет "сгустки" в пределах ТИКа, а не города. Поэтому 107 саратовских участков с попаданием в 62,2% в таблице показаны 5 отдельными строчками. Во-вторых, алгоритм заточен под обнаружение максимально больших "сгустков" с аномально большой плотностью распределения. Поэтому если в диапазоне шириной скажем 2% обнаруживается аномально много участков, то дальнейший анализ будет вестись по этому диапазону - а не по более узкому (и менее вероятному), но включающему в себя меньшее количество участков диапазону в 1% или меньше. Соответственно, указанные в таблице границы диапазонов для районов Саратова шире, чем реальная ширина "сгустка" (которая составляет 0,11% - 62,135% до 62,245%)

Как считается вероятность случайного совпадения?
Шаг 1. Если представить голосование на каждом участке как биномиальное распределение, то у нас есть матожидание - средний результат ЕР по группе участков с похожими результатами и есть количество "испытаний" (количество проголосовавших). Далее по формуле биномиального распределения считаем вероятность, что количество "успехов" (голоса за ЕР) попадет в искомый интервал [все считается в экселе через формулу биномиального распределения - БИНОМРАСП]. По сути мы считаем, что доля голосов за ЕР в "выборке" (на конкретном участке) будет отличаться от доли голосов за ЕР в "генсовокупности" (все совпадающие участки) не более чем на 1/2 ширины диапазона

Шаг 2. После того, как мы посчитали вероятность попадания результат ЕР на отдельном участке в определенный диапазон (у каждого участка эта вероятность будет своя, можно взять среднюю по всей группе совпадающих участков), мы можем посчитать вероятность того, что в целом по ТИКу из m участков n участков попадет в искомый диапазон

ВАЖНО: моя оценка строится на допущении, что отклонения результатов голосования по участкам носят случайный характер (как будто избирательный участок - это случайная выборка из генеральной совокупности). Это предположение пусть и не соответствует действительности, но оно максимально лояльно к избиркомам и дает самую высокую оценку вероятности попадания результата в одно и то же значение. Любая модель, включающая учет социально-демографических и экономических различий между участками, покажет большую дисперсию результатов и еще меньшую вероятность кучкования результатов вокруг одного числа

Непосредственно поиск "сгустков" осуществлялся путем подсчета для каждого участка количества других участков в том же ТИКе, которые по результату Единой России отстают от него не более чем на 2%, на 1%, на 0,5%, на 0,2% или 0,1% (для каждого размера шага делались свои подсчеты). Далее для каждого совпадения нескольких участков ТИКа в одном диапазоне считалась вероятность того, что это получилось случайно. Если в одном ТИКе получалось несколько наборов участков с вероятностью совпадения менее 0,01%, то выбирался диапазон, включающий наибольшее количество участков. Далее проводился повторный (финальный) подсчет вероятности случайного совпадения - исходя не из стандартной, а из фактической ширины диапазоны. В ряде случаев из выявленных скоплений участков вручную исключались УИКи, которые формально попадают в тот же диапазон - но по проценту за ЕР сильно отстают от основной масся участков внутри диапазона 


  • 1
Щедро проплаченные фейки с гаусятиной никак не выйдут в народ)))

кто же вам-то оплачивает столь оперативное отслеживание "фейков"? всего 14 минут между публикацией поста и вашим "глубокомысленным" комментарием

Оно в ленте невидимое что ли?

Борис, а поясните, как именно Вы выбираете "искомый интервал" (см. Шаг 1) в каждом ТИКе?

Сначала количество попаданий и вероятности считаются для типовых интервалов - 2%, 1%, 0,5%, 0.2%, 0,1%. Затем в ТИКе выбирается наибольший по количеству уиков интервал с вероятностью менее 0,01% - и для него делается пересчет вероятности исходя уже из фактической ширины диапазона (разницы между минимальным и максимальным значениями)

Выглядит конечно как искусственная подгонка. Но на самом деле сужение диапазона до фактически наблюдаемых максимального и минимального значений на оценку вероятности почти не влияет - ведь распределение процентных результатов выборов дискретно, и сужение диапазона скажем на сотые процента с большой вероятностью для многих участков вообще не приведет к увеличению количества попадающих в диапазон значений

Я не придираюсь, а просто уточняю методологию.

Пока все равно не очень понимаю. Вот у нас есть ТИК, на нем есть N участков с разными результатами. Вы используете реальные размеры участков и реальные результаты на каждом участке, для расчета вероятностей? Или какой-то фиксированный размер и фиксированный результат? Типовые интервалы (2, 1, 0.1 и т.д.) берутся вокруг какого значения?

Для расчет вероятности я использую реальные размеры участка. Для каждого участка считается вероятность его попадания в диапазон определенной ширины

Я как раз примерно такую же подборку делал, только уже с таблицами. И практически те же случаи. Теперь еще и сошлюсь на Ваши вероятности!

Вы к одному гранту присосались просто)))

Удивительна любовь циковских товарищей и их апологетов к глаголу "сосать" и его производным

Пока не вникал. Но Ханты-Мансийский автономный округ и Тюменская область – это реально круто! Они ни одним другим формальным методом не палятся.
А Кабардино-Балкарская Республика палится ещё только одним способом: по разбросу результатов внутри ТИКов – он экстремально низкий.
Зато я по Вашей наводке спалил ещё 4 региона. Максимальный Хи-квадрат для последних цифр 6 показателей (число избирателей, число проголосовавших, голоса за лидера, явка, явка за лидера, результат лидера): Белгородская область (30,1), Воронежская область (36,4), Республика Северная Осетия (37,8), Республика Мордовия (67,0).

Если есть max хи-квадрат, то надо бы и крит. значения привести для заданной вероятности, чтобы таблицы не рыть.
Или просто сразу вероятность.

Сразу не просеку: а что именно тут тестируется и что нам говорит больший Хи-квадрат?

Анализируется равномерность распределения последней цифры. В числе избирателей, числе проголосовавших и голосах за лидера - просто. В явке, явке за лидера, результате лидера - сначала умножаю на 1000 и округляю до ближайшего целого (не экселем - он неправильно округляет ровные половинки). Отбрасываются участки, где явка ровно ноль и ровно 100%, а также - с менее чем 100 избирателями (впрочем, этот порог не очень сильно виляет на результат). Считаю статистику Хи-квадрат. Беру максимум по 6 рассмотренным характеристикам, чтобы не возиться со всеми по отдельности.
Пятёрка лидеров этого года:
Республика Татарстан: Хи2Расп(296;9)=1,8E-58
Республика Дагестан: Хи2Расп(207;9)=1,3E-39
Республика Башкортостан: Хи2Расп(151;9)=5,3E-28
Чеченская Республика: Хи2Расп(110;9)=1,7E-19
Кемеровская область: Хи2Расп(79;9)=2,3E-13
Абсолютный рекорд установлен в 2011 году Дагестаном: Хи2Расп(680)=1E-140 (круче всего там палятся на числе зарегистрированных избирателей, по другим показателям статистика поменьше, хотя тоже запредельная).
P.S. Я нечаянно ответ на вопрос corbulon мимо ветки повесил.

Вау, наглядно и показательно. А полный список регионов есть?
И что получается, если спуститься на уровень округов и уровень ТИКов? Понятно, что там вероятности в минус двухзначных степенях вряд ли получится - но можно выявить основные районы, из которых получаются общерегиональные невероятности

случайно увидел, действительно.
Это как раз именно то, что надо!
(Крит. значения мало о чем говорят, если не лезть за справкой, а про вероятности слышала и домохозяйка)

Хи2Расп(30,1;9)=4,2E-4
Хи2Расп(36,4;9)=3,4E-5
Хи2Расп(37,8;9)=1,9E-5
Хи2Расп(67,0;9)=6E-11
P.S. Я исхожу из того, что всё, что выше 25, для 9 степеней свободы уже палево. А то, что берётся несколько статистики, не критично, т.к. они не независимы.





Если не гоняться за особо мелкими вероятностями, возникающими в регионах, где много участков, то находятся и другие подобные пенки типа 33,33% в Магаданской области или 38,24% в Республике Алтай.


и сколько участков попало на 38,24% на Алтае? Это деление 200 на 523?

Это разное деление (143/374, 148/387, 353/923).
Чтобы ответить на вопрос "Сколько?", надо договориться о критериях.
Если скажем, говорить, с точностью +/- пол-голоса попадают в 38,24%, то будет 6, но при этом туда попадут и маленькие участки, результат которых отстоит от целевой цифры на 0,2%, зато не попадут более большие, однако и более близкие по результату.

Поскольку, у нас, видимо, очень разные алгоритмы, поясню, как я охотился.
Все участки региона сортировались по результату партии власти. Это становилось ординатой графика. А его абсциссой становилась идущая с накоплением по сортировке доля списочного состава избирателей. Целью был поиск полочек на этом графике. Делалось это просто определением минимумов приращений при изменении абсциссы на процент или пару. Вот где дельта проваливалась до безобразия, там и сгущение.

Наверно, все-таки, корректно было бы считать не вероятность, что m из n уиков попали в интервал, а что минимум m из n попали.. Порядок съесть может в вероятности, думаю.

Ну и до кучи на число тиков помножить надо (в первом приближении), чтоб считать вероятность того, что хоть где-то такой сгусток образовался, это более информативно, чем вероятность того, что сгусток образовался конкретно в данном ТИКе. Это еще порядка 3 съест.

Да, естественно считалась кумулятивная вероятность - то есть вероятность "не менее m из n"

По Башкортостане я правилно понимаю, что Октябрская в таблице ето
ОИК#6 Нефтекамский и ТИК#44 , плс?

  • 1
?

Log in