Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Володинские 62,2% в Саратове: математическое доказательство фальсификации для чайников
barouh

Последние дни много веселья про результаты выборов в Саратове, где более чем на четверти участков результат Единой России оказался ровно 62,2% с точностью плюс-минус несколько сотых процента. Вот тут наглядно. Особой пикантности придает тот факт, что в Думу от Саратовской области баллотировался Володин - зампред президентской администрации, куратор всех выборов и будущий спикер Госдумы

На уровне базовой вменяемости понятно, что не может быть такое совпадение результатов на десятках участков. Но люди просят ДОКАЗАТЕЛЬСТВ. Ну что же, объясняю на пальцах и с цифрами. Математическое доказательство того, что результаты выборов по Саратову фальсифицированы

Для начала представьте себе огромный контейнер, в котором много-много (больше 100 тысяч) шаров. Белые и черные. Черных больше - 62,2% от всех. Шары равномерно и добросовестно перемешаны - т.е. в любой части контейнера соотношение белых и черных шаров примерно одинаковое
Теперь мы вслепую достаем шары из этого контейнера и раскладываем по кучкам. Пусть в каждой кучке у нас будет 1340 шаров. Сколько в каждой кучке будет черных шаров? Можем ли мы быть уверены, что в каждой кучке доля черных шаров будет именно 62,2%, а не скажем 62,0%, 62,4% или 65,0%? Тут нам на помощь приходит математика биномиального распределения. Биномиальное распределение - это такое случайное распределение, у которого может быть только два значения (0 или 1, "да" или "нет") и у которого есть определенная вероятность, что случится исход "да". Вокруг этого построен большой и важный раздел теории вероятности, и здесь используется четкая и легко доказуемая математика
Прежде чем с помощью тервера отвечать на условно сложный вопрос про 1340 шаров, давайте посмотрим на простую ситуацию - вытаскиваем 2 шарика. У нас может быть всего 4 комбинации: черный-черный, черный-белый, белый-черный, белый-белый. Вероятность, что будет 2 белых шара, примерно 15% (37,8% в квадрате), вероятность, что будет 2 черных шара, чуть меньше 40% (62,2% в квадрате). Остальные примерно 45% - это вероятность того, что будет 1 белый шар и 1 черный шар (нам не важно, в каком порядке мы их вытащим). Если у нас 3 шарика, то комбинаций уже 8, вероятность 3 белых шаров около 6%, вероятность 3 черных шаров около 35%, а скорее всего у нас будет 1 или 2 черных шара. Ну и так далее.
Есть понятные и достаточно легко выводимые формулы (вот например не очень заумное описание), есть функция в Excel под названием BINOMDIST (БИНОМРАСП), которая позволяет рассчитать вероятность для любого количества успешных исходов при определенном количество "попыток" (в нашем примере это вытаскиваемые шары) и определенной вероятности.
Например, если мы вытащили 1340 шариков из большого контейнера, в котором доля черных шаров составляет 62,2%, то вероятность, что в кучке окажется менее 60% черных шаров составляет 5,2%, а что более 65% - 1,8%. Менее 62% получится с вероятностью 43%, более 63% - с вероятностью 29% (и соответственно только 28% исходов придется на диапазон от 62% до 63%). Вероятность же того, что при округлении до десятых процента у нас получится ровно 62,2%, совсем небольшая - такой результат получится только если черных шаров будет 833 или 834, а вероятность любого из этих исходов составляет примерно 2,2% (4,5% в сумме). То есть только в каждой 22-ой кучке у нас доля черных шаров (округленная до десятых долей процента) будет такой же, как во всем контейнере - в остальных кучках она будет немного (на десятые доли процента или на несколько процентов) больше или меньше; в половине случаев отклонение будет 1% или более.

А теперь вместо шаров подставим избирателей. Кучки = избирательные участки, 1340 = среднее количество избирателей, проголосовавших на саратовских участках; 62,2% = результат Единой России на сомнительных участках; контейнер = все саратовские участки, где повторяется результат 62,2% (а точнее от 62,135% до 62,245%). Здесь мы на самом деле делаем два важных допущения В ПОЛЬЗУ предположения о честности саратовских избиркомов: во-первых, мы допускаем, что за Единую Россию в сумме по обсуждаемым участкам действительно проголосовало 62,2% избирателей (т.е. что в "контейнере" доля черных шаров действительно 62,2%); во-вторых, мы допускаем, что участки одинаковые по характеристикам избирателей, т.е. что белые и черные "шары" хорошо перемешаны и отличия между "кучками" по доле черных шаров случайны. На самом деле оба допущения конечно же не соответствуют действительности, но нам важно доказать, что даже при максимально лояльных к избиркомам допущениям полученные в Саратове результаты статистически невероятны (если мы предположим, что на самом деле вероятность голосования за Единую Россию в целом по городу не 62,2%, а меньше или больше, или если мы предположим, что между отдельными избирательными участками есть фундаментальные различия по составу электората, наша оценка вероятности попадания результата ЕР на конкретном участке в 62,2%, а точнее в диапазон 62,135%-62,245%, резко упадет). Вероятность (попадания точно в 62,2%) на уровне 4,5%, которая у нас посчиталась выше, - это максимально возможная, максимально лояльная к избиркомам оценка.
Итак, если в городе (районе, группе избирательных участков) за Единую Россию в среднем голосует 62,2%, то на участке с 1340 избирателями вероятность попадания результата (с точностью до десятых процента) в 62,2% составляет 4,5%. А вот на участке с 1341 избирателями вероятность такого попадания уже составляет всего лишь 2,2% - потому что в искомый диапазон попадает уже не 2 числа (833 и 834), а только одно (834). Если взять официальные данные по количеству проголосовавших по каждому из 107 прославившихся участков (а там по официальным цифрам голосовало от 550 до 1922 человек на каждом участке), то в среднем по этим участкам вероятность попадания результата ЕР в диапазон от 62,135% до 62,245% составляет 3,4% (разброс от 1,9% до 5,3%)

На картинке показано распределение саратовских участков по явке - с группировкой по "бинам" шириной в 0,1%. И для сравнения синенький холмик - распределение, которое должно было получиться, если бы все участки Саратова были бы примерно одинаковые, и различия между ними носили случайный характер (в реальности, с учетом экономических и социальных различий между районами города, "холмик" должен был бы быть еще более низким и широким)



Выше мы посчитали по отдельным участкам. А чтобы от этого перейти к оценке вероятности в целом по Саратову, мы смоделируем еще одно биномиальное распределение. В первом распределении у нас исходом было голосование или неголосование конкретного избирателя за Единую Россию. Во втором распределении таким исходом уже является попадание или непопадание результата ЕР на конкретном участке в 62,2%. Участков в Саратове 346, из них на 107 участках результат Единой России составил от 62,136% до 62,245%, вероятность попадания участка в этот диапазон в среднем 3,4%. При такой вероятности подобных участков должно было бы быть в Саратове около 12. А их оказалось 107! 95 сверхнормативных попаданий. Эксель даже не может посчитать вероятность такого "везения" - в какой-то момент он округляет до нуля. Но эксель может посчитать, что вероятность 10 и более попаданий сверх нормы (22 УИКа и более) составляет 0,4%, вероятность 20 попаданий сверх нормы уже в 9300 раз меньше - только 0,000045% (1 раз на 2,2 миллиона голосований). Максимум, что может посчитать эксель - 46 попаданий из 346: вероятность 1 на 180 триллионов. Дальше можно только примерно оценивать - для 107 попаданий у меня получилась вероятность примерно 10 в степени -44. Примерно как если бы в рулетке одно и то же число выпало 28 раз подряд. Вот у единоросов в Саратове точно такая же феноменальная стабильность и везение

Еще раз: вероятность того, что популярность в Саратове результата ЕР 62,2% получилась случайно (а не в результате рисования цифр) составляет не более 10-44

А вещь еще в Саратове было 35 участков, где результат Единой России чуть больше 62,2% - от 62,25% до 62,40%. Таких 35 участков. Вероятность, что эти 35 участков скучковались случайно, - 0,0001% или 1 случай на 945 тысяч. Так что математически фальсификации в Саратове доказываются даже не на 107 участках, а как минимум на 142 участках - это почти половина города.

P.S. Спасибо заинтересованному читателю, который не поленился продублировать мои расчеты. Похоже, что я сильно завысил вероятность саратовского совпадения. Для 107 участков вероятность совпадения получается не 10-44, а видимо что-то около 10-70 или 10-80

</sup>


  • 1
Ваша аргументация впечатляет. В следующий раз перед заходом в мой журнал потрудитесь наскрести в своей голове содержательных мыслей и почистить свой язык

Edited at 2016-09-25 11:52 am (UTC)

если ты считаешь что шары и избиратели это одно и тоже:)
то в голове у тебя полнейший мусор...

Для теории вероятности нет большой разницы - шары или избиратели
Но если мы все же учтем ключевые отличия избирателей от шаров - что избиратели не перемешиваются равномерно, что "цвет" одного избирателя может влиять на "цвет" других избирателей, что избиратель в отличие от шара может уклонить от попадания в одну из кучек, может передумать, может ошибиться при заполнении бюллетеня - то тогда оценка вероятности попадания ЕР в 62,2% на десятках участков упадет на порядки

Это не верное. Если есть взаимные влияния, то они могут вести наоборот - к упорядочиванию результата. Т.е. если, например, у нас есть 1000 "шаров", ну или "избирателей", и, при этом, один из шаров, назовём его "белый", всё решает за ещё 621 других не-важно-какого-цвета-шара - "влияет". А другой шар, "чёрный", решает за оставшиеся 377 не-важно-какого-цвета-шара. И эти два "решающих шара" находятся в противофазе по своим убеждения. Результат выборов будет очевиден:

1. 62.2% - белое
2. 37.8% - чёрное.

А Вы говорите, что вероятность уменьшится. Нет. Она вообще станет равной единице.

Модель, в которой на каждом участке есть два избирателя, определяющих поведение всех остальных избирателей, - умозрительная и не подкрепленная ни какими-то социологическими теориями, ни эмпирическими свидетельствами и данными
Теоретически такой расклад может быть. Но какова вероятность, что на 100 участках Саратова будет в точности воспроизведен именно такой расклад? Что везде будет именно по два "решающих шара" и везде соотношение их влияния будет 62,2/37,8, да еще и это соотношение не сдвинется в последний момент из-за того, что кто-то уехал или заболел

К сожалению вся эти история, с применением статистических рассчётов в политике, очень много в чём именно умозрительная. Начиная с

http://trv-science.ru/2009/10/27/statisticheskoe-issledovanie-rezultatov-rossijskix-vyborov-2007-2009-gg/

где подобные вот вещи в ходу:

«…Насколько справедлива эта аргументация — вопрос спорный; для сравнения приведем распределение избирательных участков по явке на выборах в немаленькой стране Польше (рис. 6). Здесь распределение разительно отличается от российского и гораздо больше соответствует здравому смыслу.…»

Вот просто взяли Польшу и давай по ней считать. Даже не вникая ни в то какая там избирательная система, как правила и проч. Это же абсолютный волюнтаризм!

Я правильно понимаю, что по-уму исследование надо делать так:

1. Составляется перечень возможных факторов, влияющих на результат.
2. Проводится корреляционный анализ с целью подтверждения их влияния или опровержения предварительных допущений.
3. Составляется мат.модель, при этом не одна, так как Россия государство огромное и от района к району, от субъекта федерации к субъекту, факторы очень разные и модели электорального голосования будут не то что "разниться", а вообще другие в принципе!
4. Модели проверяются на теоретических данных
5. Проверяются на реальных, от прошлых голосований и проч.
6. Мат.модели, и результаты корреляционных исследований, отдаются на рецензирование в сторонние, независимые научные круги.
7. На основе замечаний п.6. - дорабатываются.
8. Снова проверяются.
9. Наконец можно попробовать использовать "в бою".

Вместо этого... Ну Вы сами видите всё.

Edited at 2016-09-26 06:17 am (UTC)

Не надо смешивать научные статьи и публикации. Есть и научные статьи (где соблюдаются все требования к таким работам) - например https://arxiv.org/abs/1205.0741. Но даже и в чистой науке это совершенно нормальная практика - опубликовать промежуточные, предварительные результаты. Именно для того, чтобы получить фидбек от коллег

Когда же речь идет об общественно значимой информации, тем более неуместно требование сначала проверить всё, а потом начинать "использовать в бою". Используемые для выявления фальсификаций методики отлаживаются непосредственно в процессе - с учетом новых данных и поступающей критики. При этом чем глубже копается тема и дольше обсуждается, тем становится меньше сомнений в том, что эти методики работают
Классический пример - "гаусс", которого не было в Москве в 2011 году и куча людей старательно доказывали, что его и не может быть, но прошло 3 месяца и он чудесным образом вернулся на президентских выборах

Ну и более ранние выборы на предмет "нормальности" тоже уже давно проверили. См. например http://podmoskovnik.livejournal.com/158740.html. В 2000 году все было сильно лучше, чем сейчас

Может и не надо, но когда в популярных публикациях начинают всерьёз приводить какие-то расчёты и выкладки, ДАЖЕ НЕ УЧИТЫВАЮЩИЕ РЕАЛИИ ТЕЙПОВ В ЧЕЧНЕ!, например, то к чему всё это? Пустое чтиво получается. Ни о чём. Это как в знаменитой лекции С.Курёхина про хлорирование брома молекулой хрома: "Если бесконечность заменить на семёрку...." - далее уже чисто поржать.

Вот у вас потрясающее раздвоение восприятия. С одной стороны, вы предъявляете очень высокие требования к научной обоснованности неудобных вам аргументов. А с другой стороны, повторяете как мантру предположения, которые вам удобны

Какие у вас есть основания считать, что результаты выборов в Чечне определяются тейповой структурой общества?
(ну и в скобках замечу, что учет или неучет результатов по Чечне слабо влияет на картину распределений и аномалий по России в целом)

Я вам модель предложу, а вы ее проверьте на соответствие саратовским реалиям. Губернатор вызывает председателя ОИК и говорит: явку рисуем 65%, голосов за ЕР — 40% от списка.

Есть наверное и такое - кто спорил с этим?

Только я Вам умный вещь скажу - не обижайтесь: на результат выборов это не влияет. Согласны?

На результат выборы не влияют.

Вдогонку...

«…Модель, в которой на каждом участке есть два избирателя, определяющих поведение всех остальных избирателей, - умозрительная и не подкрепленная ни какими-то социологическими теориями, ни эмпирическими свидетельствами и данными…»

Есть такой регион - Чечня. Там "шар А", глава тейпа, влияет на все остальные шары из тейпа. Степень влияния - очень велика. Можно предположить, что больше 90%.

В Дагестане - похоже. Но степень влияния - меньше. Пусть будет порядка 30%.

И т.д. Т.е. это реальность, а не просто надуманные пример. И это надо учитывать в исследованиях. Иначе как раз именно исследования, без предварительного анализа ситуации и данных, и без составления нормальных рабочих моделей, становятся умозрительными.


Во-первых, у нас нет реальных данных про степень влияния глав тейпов на результаты выборов - в Дагестане рисуют слишком масштабно и слишком давно, чтобы можно было бы понять реальную электоральную микрогеографию

Во-вторых, если это влияние и есть - то видимо оно работает в сторону "не участвуйте в этом балагане". Потому что независимые наблюдения показывают явку в Дагестане на уровне раньше 15-20%, а теперь и вовсе 7-10%

В-третьих, даже если поверить в определяющее влияние глав тейпов не результаты выборов - нет оснований предполагать, что на каждом участке это влияние будет иметь одинаковую силу и генерировать одинаковые результаты

Вы всё верно говорите, но вывод какой? Мой: надо, до анализа и составления модели, проводить корреляционный анализ. И считать коэффициенты по "влиянию главы тейпа на голосования членов этого тейпа". И только после этого уже начитать что-то анализировать. Иначе - профанация.

Но этого же не делается. Более того: об этом даже никто из "исследователей" и не говорит вслух. И это понятно: сказав это придётся все последующие шаги, "исследование", отложить.

Нравится вам слово "корреляция", как я посмотрю. А что с чем вы коррелировать собрались?

В Дагестане участки без КОИБов показывают 99% за ЕДРО, а участки с КОИБами всего 40% за ЕДРО. В Чечне камеры на участке показывают сто пришедших за день избирателей при официальной явке в тысячу.

На КОИБы и камеры, надо полагать, тоже главы тейпов влияют?

Вы говорите полную ерунду.

Это исламский регион! КОИБ - шайтан-машина! Естественно, что все правоверные загодя берут открепительные и идут голосовать на другие участки! И только мунафики плюют на веру и топают на УИК с КОИБами.

Кстати: и разница в процентах за Едро на участках с шайтан-коибом и обычной урной этим же и объясняется!


Отсюда и ниже:

http://kireev.livejournal.com/1305960.html?thread=31855720#t31855720

Они, как выясняется, вообще не политологи, а чистые математики. Умора: взялись что-то анализировать применительно к электоральным группам и выборному процессу. Это как плотник-повар )

Огорчу. "Они" - это не только математики, но и например политологи, как скажем хозяин этого журнала. Первые публикации про выборы и фальсификации в научных журналах у меня еще в прошлом веке были
И кстати - это только в России под "политологией" понимают в основном пустую болтовню. Нормальная political science без математики - включая теорию вероятности - не обходится

1. Крайне удивлён.

2. Я знаю, спасибо.

Умора - это попытка опровержения математиков дилетантами-обывателями, уж извините. А опровержение теории вероятностей Чуровым и Памфиловой - вообще обхохочешься.

P.S. Для справки - у меня не только профильная профессия и образование, тесно связанные с математикой, но и двадцать лет политической деятельности.

Мне всё равно кто Вы. Я редко перехожу на личности и не делают этого первым.

да что говорить что- то убогому)
Либо, что вероятнее, сильно прикормленному))


Я вот думаю, что следующим шагом будет подсчет махинаций на выборах 2011.
Выяснится, что подтасовки были больше, чем сейчас. Значит, Дума нелегетимна.
И решения, ею принятые- тоже.
Парам- пам- пам.

Причем, заметьте, известно про подтасовки стало сразу, однако аргументацию приберегли
до того момента, когда проголосуют за включение Крыма в состав РФ)

В общем, такая вот многоходовочка.
Ну и Кремлевские хорошо партию играли,

  • 1
?

Log in