Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Володинские 62,2% в Саратове: математическое доказательство фальсификации для чайников
barouh

Последние дни много веселья про результаты выборов в Саратове, где более чем на четверти участков результат Единой России оказался ровно 62,2% с точностью плюс-минус несколько сотых процента. Вот тут наглядно. Особой пикантности придает тот факт, что в Думу от Саратовской области баллотировался Володин - зампред президентской администрации, куратор всех выборов и будущий спикер Госдумы

На уровне базовой вменяемости понятно, что не может быть такое совпадение результатов на десятках участков. Но люди просят ДОКАЗАТЕЛЬСТВ. Ну что же, объясняю на пальцах и с цифрами. Математическое доказательство того, что результаты выборов по Саратову фальсифицированы

Для начала представьте себе огромный контейнер, в котором много-много (больше 100 тысяч) шаров. Белые и черные. Черных больше - 62,2% от всех. Шары равномерно и добросовестно перемешаны - т.е. в любой части контейнера соотношение белых и черных шаров примерно одинаковое
Теперь мы вслепую достаем шары из этого контейнера и раскладываем по кучкам. Пусть в каждой кучке у нас будет 1340 шаров. Сколько в каждой кучке будет черных шаров? Можем ли мы быть уверены, что в каждой кучке доля черных шаров будет именно 62,2%, а не скажем 62,0%, 62,4% или 65,0%? Тут нам на помощь приходит математика биномиального распределения. Биномиальное распределение - это такое случайное распределение, у которого может быть только два значения (0 или 1, "да" или "нет") и у которого есть определенная вероятность, что случится исход "да". Вокруг этого построен большой и важный раздел теории вероятности, и здесь используется четкая и легко доказуемая математика
Прежде чем с помощью тервера отвечать на условно сложный вопрос про 1340 шаров, давайте посмотрим на простую ситуацию - вытаскиваем 2 шарика. У нас может быть всего 4 комбинации: черный-черный, черный-белый, белый-черный, белый-белый. Вероятность, что будет 2 белых шара, примерно 15% (37,8% в квадрате), вероятность, что будет 2 черных шара, чуть меньше 40% (62,2% в квадрате). Остальные примерно 45% - это вероятность того, что будет 1 белый шар и 1 черный шар (нам не важно, в каком порядке мы их вытащим). Если у нас 3 шарика, то комбинаций уже 8, вероятность 3 белых шаров около 6%, вероятность 3 черных шаров около 35%, а скорее всего у нас будет 1 или 2 черных шара. Ну и так далее.
Есть понятные и достаточно легко выводимые формулы (вот например не очень заумное описание), есть функция в Excel под названием BINOMDIST (БИНОМРАСП), которая позволяет рассчитать вероятность для любого количества успешных исходов при определенном количество "попыток" (в нашем примере это вытаскиваемые шары) и определенной вероятности.
Например, если мы вытащили 1340 шариков из большого контейнера, в котором доля черных шаров составляет 62,2%, то вероятность, что в кучке окажется менее 60% черных шаров составляет 5,2%, а что более 65% - 1,8%. Менее 62% получится с вероятностью 43%, более 63% - с вероятностью 29% (и соответственно только 28% исходов придется на диапазон от 62% до 63%). Вероятность же того, что при округлении до десятых процента у нас получится ровно 62,2%, совсем небольшая - такой результат получится только если черных шаров будет 833 или 834, а вероятность любого из этих исходов составляет примерно 2,2% (4,5% в сумме). То есть только в каждой 22-ой кучке у нас доля черных шаров (округленная до десятых долей процента) будет такой же, как во всем контейнере - в остальных кучках она будет немного (на десятые доли процента или на несколько процентов) больше или меньше; в половине случаев отклонение будет 1% или более.

А теперь вместо шаров подставим избирателей. Кучки = избирательные участки, 1340 = среднее количество избирателей, проголосовавших на саратовских участках; 62,2% = результат Единой России на сомнительных участках; контейнер = все саратовские участки, где повторяется результат 62,2% (а точнее от 62,135% до 62,245%). Здесь мы на самом деле делаем два важных допущения В ПОЛЬЗУ предположения о честности саратовских избиркомов: во-первых, мы допускаем, что за Единую Россию в сумме по обсуждаемым участкам действительно проголосовало 62,2% избирателей (т.е. что в "контейнере" доля черных шаров действительно 62,2%); во-вторых, мы допускаем, что участки одинаковые по характеристикам избирателей, т.е. что белые и черные "шары" хорошо перемешаны и отличия между "кучками" по доле черных шаров случайны. На самом деле оба допущения конечно же не соответствуют действительности, но нам важно доказать, что даже при максимально лояльных к избиркомам допущениям полученные в Саратове результаты статистически невероятны (если мы предположим, что на самом деле вероятность голосования за Единую Россию в целом по городу не 62,2%, а меньше или больше, или если мы предположим, что между отдельными избирательными участками есть фундаментальные различия по составу электората, наша оценка вероятности попадания результата ЕР на конкретном участке в 62,2%, а точнее в диапазон 62,135%-62,245%, резко упадет). Вероятность (попадания точно в 62,2%) на уровне 4,5%, которая у нас посчиталась выше, - это максимально возможная, максимально лояльная к избиркомам оценка.
Итак, если в городе (районе, группе избирательных участков) за Единую Россию в среднем голосует 62,2%, то на участке с 1340 избирателями вероятность попадания результата (с точностью до десятых процента) в 62,2% составляет 4,5%. А вот на участке с 1341 избирателями вероятность такого попадания уже составляет всего лишь 2,2% - потому что в искомый диапазон попадает уже не 2 числа (833 и 834), а только одно (834). Если взять официальные данные по количеству проголосовавших по каждому из 107 прославившихся участков (а там по официальным цифрам голосовало от 550 до 1922 человек на каждом участке), то в среднем по этим участкам вероятность попадания результата ЕР в диапазон от 62,135% до 62,245% составляет 3,4% (разброс от 1,9% до 5,3%)

На картинке показано распределение саратовских участков по явке - с группировкой по "бинам" шириной в 0,1%. И для сравнения синенький холмик - распределение, которое должно было получиться, если бы все участки Саратова были бы примерно одинаковые, и различия между ними носили случайный характер (в реальности, с учетом экономических и социальных различий между районами города, "холмик" должен был бы быть еще более низким и широким)



Выше мы посчитали по отдельным участкам. А чтобы от этого перейти к оценке вероятности в целом по Саратову, мы смоделируем еще одно биномиальное распределение. В первом распределении у нас исходом было голосование или неголосование конкретного избирателя за Единую Россию. Во втором распределении таким исходом уже является попадание или непопадание результата ЕР на конкретном участке в 62,2%. Участков в Саратове 346, из них на 107 участках результат Единой России составил от 62,136% до 62,245%, вероятность попадания участка в этот диапазон в среднем 3,4%. При такой вероятности подобных участков должно было бы быть в Саратове около 12. А их оказалось 107! 95 сверхнормативных попаданий. Эксель даже не может посчитать вероятность такого "везения" - в какой-то момент он округляет до нуля. Но эксель может посчитать, что вероятность 10 и более попаданий сверх нормы (22 УИКа и более) составляет 0,4%, вероятность 20 попаданий сверх нормы уже в 9300 раз меньше - только 0,000045% (1 раз на 2,2 миллиона голосований). Максимум, что может посчитать эксель - 46 попаданий из 346: вероятность 1 на 180 триллионов. Дальше можно только примерно оценивать - для 107 попаданий у меня получилась вероятность примерно 10 в степени -44. Примерно как если бы в рулетке одно и то же число выпало 28 раз подряд. Вот у единоросов в Саратове точно такая же феноменальная стабильность и везение

Еще раз: вероятность того, что популярность в Саратове результата ЕР 62,2% получилась случайно (а не в результате рисования цифр) составляет не более 10-44

А вещь еще в Саратове было 35 участков, где результат Единой России чуть больше 62,2% - от 62,25% до 62,40%. Таких 35 участков. Вероятность, что эти 35 участков скучковались случайно, - 0,0001% или 1 случай на 945 тысяч. Так что математически фальсификации в Саратове доказываются даже не на 107 участках, а как минимум на 142 участках - это почти половина города.

P.S. Спасибо заинтересованному читателю, который не поленился продублировать мои расчеты. Похоже, что я сильно завысил вероятность саратовского совпадения. Для 107 участков вероятность совпадения получается не 10-44, а видимо что-то около 10-70 или 10-80

</sup>


Отлично!
(Если бы еще полаконичнее, пусть и в ущерб точности формулировок).
Перепостил в ФБ.

лаконичных объяснений уже много - но некоторые хотят подробностей. Хотят - пусть читают

Важная оговорка номер 1: Биномиальное распределение предполагает независимость избирателей (шаров). Если избиратели голосуют не независимо, то в принципе может получиться что угодно. Можно такие корреляции подобрать, что распределение будет сколь угодно узкое. Другое дело, что такие корреляции в реальности невозможны.

(На самом деле положительные корреляции вполне возможны, например муж с женой вместе решили, как голосовать, или богатый дом голосует не так, как бедный дом, -- но они могут только уширить распределение. Чтобы его заузить, нужны сильные отрицательные корреляции, а они малореальны.)

Важная оговорка номер 2: Примем биномиальное распределение. Тогда подсчет во второй части основывается на выборе интервала, "попадания в который" Вы подсчитываете. Это довольно произвольно, и не всякий выбор имеет смысл. Хорошо бы подсчитывать что-то, что имеет понятный смысл и что априори, а не апостериори, подозрительно. Ну, например, максимум участков в 1% интервале (любом). Или 0.1% интервале. Вы почти это и делаете, но идеологически правильнее устанавливать критерий отбора априори.

Формально, p-value в hypothesis testing -- это вероятность under the null to observe an outcome at least as extreme as actually observed. И как измеряется "экстремальность", надо задать заранее.

---

Но в целом все так, и пик, конечно, абсурдный.

Ещё надо бы для порядка умножить на число регионов такого размера, как Саратов

Хорошо написано. Проблема в том, что те, кому адресован текст, даже читать его не станут.

Ну а чего здесь хорошего? Использовать околонаучный бред для так называемых "доказательств" - выставлять себя идиотом. (И заодно - дискредитировать всё оппозиционные движения. Теперь путинская пропаганда может абсолютно обоснованно сказать - Смотрите какие смешные клоуны!

К выборам нельзя в принципе применять модели случайного распределения, так как результат складывается не из случайных, а из осознанных, целенаправленных действий. Более того, результат во многом формируется извне такими вещами как пропаганда, административный ресурс и т.д. И эти внешние воздействия приносят похожий эффект в каждом районе, в котором проживает более-менее одинаковый контингент. Если взять хоть сотню, хоть тысячу одинаковых шаров и катнуть каждый с одинаковым усилием по одинаковому покрытию, то (о какая "неожиданность"!) - абсолютно все шары пройдут абсолютно одинаковое расстояние (с учётом небольшой погрешности, из-за разного количества попавшихся на пути песчинок).
Т.е. 62.2% на каждом 4-ом участке, конечно, подозрительно, но с помощью теории вероятности ничего не докажешь. Модель такова, что теория, как раз, доказывает стремление к совпадению результатов. Кроме того, ещё есть куча факторов, которые могли поспособствовать получить одинаковый %. Например, - избирательному штабу было спущено задание обеспечить именно такой %. Они поагитировали, потом провели опросы, узнали какой % получился и пошли по квартирам добирать до заданного % бабушками. Как только набрали нужное число, сразу и остановились...

как-то сложно

по идее если для одного участка вероятность 3.4%, то для 107 это будет 0.034^107 = 7 * 10^-158

Нет. Так, как вы предлагаете, можно посчитать вероятность того, что выпадет 107 участков подряд. А тут не подряд - тут 107 из 346

=вероятность того, что популярность в Саратове результата ЕР 62,2% получилась случайно (а не в результате рисования цифр) составляет не более 10-44=

Ну то есть есть такая математическая вероятность, о чем и сказал представитель избиркома! :)

Есть.
А еще есть математическая вероятность, что султан Брунея и Билл Гейтс внезапно решат назначить лично Вас своим наследником. Она, пожалуй, в миллионы раз вероятности этакого совпадения.

Я получил 8⋅10⁻⁷⁰. Для 142 участков получилось бы 6⋅10⁻¹¹².

>>> from math import *
>>> n = 346; p = 0.034; lp = log(p); lq = log(1-p)
>>> fsum(exp(lgamma(n+1) - lgamma(n-k+1) - lgamma(k+1) + lp*k + lq*(n-k)) for k in range(107, n+1))
8.285006699539168e-70
>>> fsum(exp(lgamma(n+1) - lgamma(n-k+1) - lgamma(k+1) + lp*k + lq*(n-k)) for k in range(142, n+1))
6.276112471949274e-112

Это число мне гораздо больше нравится — в сравнении с количеством атомов в нашей галактике (10^68). Жаль, до Вселенной не дотягивает (от 10^78 до 10^82).
Когда говоришь человеку, что вероятность результата в Саратове в 100 раз меньше, чем вероятность вытащить один помеченный атом из всей кучи атомов в нашей галактике, то это производит впечатление.

Edited at 2016-09-25 09:43 am (UTC)

Ето конечно артефакт

и практически химический чистий случай химичения )
Самая наглядная илюстрация будет точковая графика резултата
ЕР и явки - толстая горизонтальная линия на 62.5 /1000/1600/
с 58 по 68 явки / 55 по 75 шире/.
S наибольше толщиной вокруг 64-66, скорее жирная точка
там где нибудь

Edited at 2016-09-24 10:43 am (UTC)

Добрый день. Посмотрите, я сделал оценку вероятности здесь. Возможно, получился более точный расчет (правда, я считал по магическому числу 11.8 для КПРФ и получил степень минус шестьдесят шесть).

http://irbis-s.livejournal.com/105212.html

Концептуально наши методики совпадают. Для попадания КПРФ в точный процент на отдельном участке вероятность будет естественно выше, чем для Единой России - потому что на 11,8% (или 88,2%) дисперсия меньше, чем на 62,2%
Мне только непонятно, почему 297 участков? Я вижу в Саратове 346 участков, из которых 330 участков - полноценные, более чем с 500 избирателями на каждом

> оказался ровно 62,2% с точностью до сотых долей процента

До десятых долей же.

Спасибо за замечания. Я уточнил формулировку. Я имел в виду, что отклонение от 62,20% на всех этих участках составляет сотые доли процента - но звучало действительно неоднозначно.


Для большей убедительности можно еще сделать подборку из нескольких городов и показать, как соотносится распределение в них с распределением, основанным на биномиальной модели (скорее всего на практике более размытое, чем модель, как вы и предположили). Если, конечно, во всех этих городах не было таких же фальсификаций.

При биномиальном распределении (при матожидании 62,2% и среднем размере участка в 1340 голосующих) среднеквадратичное отклонение получается 1,3% [считал не по формуле, а на смоделированных данных]

По факту в 2011 году типичное значение СКО для городских ТИКов составляло от 2% до 5%
http://trv-science.ru/2012/02/28/sto-vosemdesyat-chestnykh-gorodov/

Признак дебила:

"...Шары равномерно и добросовестно перемешаны - т.е. в любой части контейнера соотношение белых и черных шаров примерно одинаковое...".
Для образованного человека этого утверждения достаточно, чтобы увидеть в авторе дебила.
Успехов, дебил.

о, деревянненькие полезли. С чавканием.

Понравилось выражение "на уровне базовой вменяемости".
А выкладки интересные, спасибо.

товарищ, верь, пройдет она,
так называемая гласность!
и вот тогда госбезопасность
припомнит наши имена!

Интересно в голосовании 2011 подобные совпадения были?

Да, были: http://barouh.livejournal.com/393001.html

И в 2012 году на президентских были - на заметно меньшем количестве ТИКов, зато даже в одном районе Петербурга было подобное феерическое совпадение

На этот раз кроме Саратова отличились Тюмень, Стерлитамак, некоторые города Кузбасса и Татарстана, ну и Северный Кавказ массово

Речь о городе или области? В СМИ какое-то разночтение.

Все попадания 62,2% - в городе. Хотя даже если бы такие участки были разбросаны по всей области, это все равно было бы невероятное совпадение

62.2% новая развлекаловка для просравших выборы:)
прошлая была 146%....
и главное верят в то что несут...
идиоты конченые, даже жаль убогих:)

Это целенаправленная акция дискредитации выборов, а не развлекаловка

А если в большой куче 1 340 000 шаров?)))
Ещё один решил натянуть сову на глобус

И ещё для общего развития гуглим

парадокс дней рождения

То вероятность равна 1. А если сто кучек, то это абсолютно невероятное событие. Бросаем гуглить про день рождения, читаем основы теории вероятности.


(Deleted comment)
Надо сделать пошаговый расчёт с фото по проверке в экселе да и всё.

Одно из требований к научным доказательствам воспроизводимость результата.

Хорошо бы запрос к Wolfram Alpha составить, чтобы каждый мог проверить (да и там точность побольше, чем в Excel будет, это же веб интерфейс к Mathematica практически):

http://www.wolframalpha.com/

Я просто с его языком не знаком, а так бы помог.

Про парадокс дней рождения не зря тут комментаторы напоминают. У нас же задача не посчитать вероятность получения именно 62.2%. Нам надо считать вероятность того, что N из M участков будут иметь один и тот же процент (каким бы он ни был) с точностью до 0.1%. Не думаю, что это событие будет практически вероятным, но все же. Можно ли высчитанную вами вероятность просто умножить на 1000 (по количеству 0.1%-ных интервалов) - с ходу не могу сказать, плохой из меня математик. Может, потом посчитаю.

Что касается аргументов от "гуманитариев", мол нельзя поведение на выборах описать каким-либо распределением, то тут надо подобрать подходящее распределение и продемонстрировать его применимость на результатах других выборов, к которым претензий было меньше. Это, конечно, не убедит упомянутых "гуманитариев", но проверифицирует модель :)

Про сравнение с другими распределениями - если исключить Саратовскую, Тюменскую, Кемеровскую области и 6 республик - Татарстан, Башкирия, Дагестан, Чечня, Ингушетия, Кабардино-Балкария, Карачаево-Черкессия (регионы, в которых есть "сгустки" результатов ЕР с вероятностью случайности менее 0,001%), то во всей остальной России есть только один "сгусток" с вероятностью менее 0,04% (в ХМАО - и там явно тоже рисовали под копирку, просто на небольшом количестве участков). Вероятности тут посчитаны естественно под всю ту же модель случайных отклонений участков от среднего по группе участков (по "сгустку")

Фигня все это, рассчитаная на безграмотных

Скажу сразу по существу: какая бы ни было вероятность, а отменять выборы никто не станет, ибо вероятность все же есть и на суде скажут, что вот это как раз тот редкий случай, когда произошло то, что маловероятно. Попробуйте опровергнуть! Скажу более. Да, аномально схожие результаты. Да,весьма маловероятно. Но вы удивитесь в том, что в случае когда на одном участке столько-то процентов, на другом столько-то, на третьем вот так и т.д.,у любой партии, на любом участке и в любом регионе, такая комбинация цифр тоже имеет свою вероятность и она также микроскопическая.
Что нужно было делать? Как только обнаружились аномальные данные, нужно было сосредоточить все усилия на сборе доказательств фальсификаций (пройтись по списку избирателей, опросить их кто на самом деле участвовал на выборах, если обнаружилось расхождение - идти в суд. И никак иначе...

Edited at 2016-09-26 01:01 am (UTC)

Re: Фигня все это, рассчитаная на безграмотных

Выборов нет, это понятно давно. Но нет и голосования, что доказывают приведённая, но и другие выкладки.

И это всё конечно же направлено не самозванцам у власти, а гражданам. Чтоб в нужный момент ни у кого не возникло иллюзий, будто есть президент. НИкто и в их фейковые "суды" ходить не собирается. Будущее России не на выборах решается.

15-я региональная группа

Володин проходил первым по региональной группе 15 "Единой России" (Волгоградская, Пензенская, Саратовская, Тамбовская области) из которой в Госдуму избрано 10 человек (11 после официального отказа Медведева). По логике такие же фальсификации должны быть и в соседних областях, чтобы гарантировано 15 -й группе быть на первом месте.

А в этом случае какова вероятность "совпадения":




(Deleted comment)
авторов итогов голосования- не премировать,
а статистику объявить лженаукой!

?

Log in