Category: политика

Category was added automatically. Read all entries about "политика".

Чечня, Башкирия, Саратов, Тюмень: 51 ТИК, в которых фальсификация доказывается математически

Про саратовскую аномалию 62,2% и количественную оценку (не)вероятности тамошней кучности результатов Единой России я уже писал. Заодно я там рассказал про методику оценки того, что более чем на сотне участков доля голосов за ЕР случайным образом совпадет с точностью до десятой доли процента - это делается через два биномиальных распределения (краткий пересказ методики см. в конце данного поста). Но Саратов - лишь один из примеров. Всего удалось выявить 51 "сгусток" со статистически невероятной концентрацией результатов Единой России на том или ином проценте в пределах одного ТИКа (города, района, городского района).

Все эти 51 "сгусток" приходятся на 11 регионов - это Саратовская и Тюменская области (в обоих случаях - только районы областного центра), Кемеровская область, Ханты-Мансийский округ и республики - Дагестан, Чечня, Ингушетия, Кабардино-Балкария, Карачаево-Черкессия (т.е. все северокавказские, кроме Осетии и Адыгеи), а также Татарстан и Башкирия. Примечательно, что в большинстве из этих регионов - во всех, кроме ХМАО и КЧР - "сгустков" сразу несколько: не менее трех на регион.



Ниже в таблице перечислены все "сгустки", для которых вероятность их случайного образования составляет менее 0,006% (1 случай на 17 тысяч). Казалось бы, 0.006% - не такая уж и маленькая вероятность. Но: как сказано выше, в этих же регионах (за исключением ХМАО) встречаются и другие "сгустки" - уже с вероятностями менее 0,000005% (менее 1 случая на 20 миллионов). Получается, что концептуально между вероятностью 10-5 и скажем 10-12 нет никакой разницы - и те, и те "совпадения" возможны только в одних и тех же специфических регионах, и совпадение их географии - наглядное доказательство того, что "сгустки" с вероятностью 10-5 - это тоже фальсификации, прямые "рисовки" результатов.

В сумме на 51 "сгусток" приходится 1566 участков, на которых проголосовало почти 2 миллиона человек (1984 тысячи), из них 1417 тыс. за Единую Россию. То есть каждый 20-ый голос, полученный ЕР по стране, нарисован в этих "сгустках". И по хорошему результаты по всем этим участкам надо отменять. Или как минимум инициировать проверку ЦИКа - с привлечением к ней представителей партий и общественных организаций

Итак, таблица (полная версия)

ТИК диапазон кол-во и доля УИКов вероятность
Кабардино-Балкарская Республика
Прохладненская городская 78,35%-78,46% 20 УИКов (100%) 5,3E-27
Эльбрусская 78,43%-79,72% 21 УИКов (100%) 3,6E-10
Нальчикская городская 76,03%-77,97% 86 УИКов (84%) 2,3E-07
Карачаево-Черкесская Республика
Черкесская городская 76,41%-78,14% 51 УИКов (98%) 6,1E-12
Прикубанская 83,08%-83,71% 18 УИКов (78%) 3,3E-10
Кемеровская область
Полысаевская городская 72,45%-73,22% 20 УИКов (100%) 2,3E-14
Топкинская 80,57%-81,93% 34 УИКов (69%) 4,0E-08
Юргинская городская 80,48%-82,47% 40 УИКов (98%) 6,6E-07
Березовская городская 72,46%-73,41% 17 УИКов (68%) 4,0E-08
Анжеро-Судженская городская 72,16%-74,15% 45 УИКов (75%) 4,6E-05
Мысковская городская 71,76%-72,75% 18 УИКов (72%) 6,0E-05
Республика Башкортостан
Стерлитамакская городская 54,41%-56,4% 97 УИКов (84%) 2,1E-12
Октябрьская 52,74%-53,68% 30 УИКов (73%) 4,5E-10
Салаватская городская 50,99%-51,05% 12 УИКов (19%) 1,2E-08
Уфа, Калининская 47,54%-49,04% 52 УИКов (76%) 1,1E-07
Уфа, Кировская 46,21%-48,16% 56 УИКов (74%) 3,5E-06
Уфа, Орджоникидзевская 49,92%-50,1% 15 УИКов (23%) 4,3E-06
Стерлибашевская 61,73%-62,71% 16 УИКов (48%) 6,6E-06
Уфа, Демская 50,96%-51,42% 14 УИКов (42%) 1,0E-05
Республика Дагестан
Дахадаевская 91,07%-92,45% 42 УИКов (75%) 2,6E-08
Сулейман-Стальская 89,85%-90,35% 23 УИКов (55%) 1,9E-07
Сергокалинская 95,89%-96,06% 13 УИКов (45%) 3,1E-07
Республика Ингушетия
Назрановская 70,24%-71,05% 23 УИКов (79%) 7,4E-09
Малгобекская городская 72,34%-73,7% 19 УИКов (90%) 5,3E-07
Сунженская 73,93%-74,1% 10 УИКов (38%) 1,6E-06
Республика Татарстан (Татарстан)
Зеленодольская городская 79,97%-80,14% 15 УИКов (39%) 4,3E-08
Нурлатская 98,97%-99,84% 43 УИКов (98%) 9,0E-07
Набережные Челны, Комсомольская 79,54%-80% 23 УИКов (49%) 3,5E-06
Лениногорская городская 86,93%-87,12% 11 УИКов (46%) 6,4E-06
Елабужская городская 84,78%-86,01% 31 УИКов (79%) 8,3E-06
Казань, Приволжская 74,82%-75,32% 30 УИКов (34%) 2,2E-05
Казань, Советская 74,04%-76,04% 78 УИКов (75%) 4,7E-05
Саратовская область
Саратов, Заводская 61,69%-62,82% 54 УИКов (76%) 5,5E-13
Саратов, Кировская 62,14%-62,29% 17 УИКов (27%) 2,8E-09
Саратов, Октябрьская 61,99%-62,81% 30 УИКов (56%) 2,5E-07
Саратов, Ленинская 61,48%-63,46% 83 УИКов (73%) 2,6E-06
Саратов, Фрунзенская 62,14%-62,34% 9 УИКов (36%) 1,0E-05
Тюменская область
Тюмень, Центральная 47,72%-47,96% 26 УИКов (36%) 2,1E-09
Тюмень, Центральная 38,21%-38,66% 30 УИКов (41%) 2,1E-09
Тюмень, Восточная 48,9%-50,13% 41 УИКов (71%) 2,1E-07
Тюмень, Ленинская 48,37%-48,46% 10 УИКов (22%) 1,2E-06
Тюмень, Калининская 48,96%-49,44% 28 УИКов (35%) 1,7E-06
Ханты-Мансийский автономный округ – Югра
Нефтеюганская 91,95%-92,03% 9 УИКов (36%) 2,8E-06
Чеченская Республика
Урус-Мартановская 97,37%-97,66% 36 УИКов (100%) 1,7E-19
Шалинская 95,42%-95,66% 27 УИКов (100%) 1,2E-19
Ножай-Юртовская 95,7%-96,21% 32 УИКов (100%) 1,8E-18
Гудермесская 97,53%-97,91% 45 УИКов (96%) 3,2E-16
Наурская 96,35%-96,55% 19 УИКов (100%) 9,7E-15
Грозный, Заводская 95,19%-95,39% 15 УИКов (100%) 1,7E-12
Шелковская 95,6%-96,17% 26 УИКов (100%) 4,7E-12
Сунженская 93,52%-93,72% 6 УИКов (86%) 2,9E-05

Примечательно, что за пределами вышеперечисленных 11 регионов случилось только два совпадения, вероятность которых получается меньше 0,1% - в одном из районов Челябинска 8 участков попали в диапазон от 31,79% до 31,88% за Единую Россию (вероятность такого совпадения в 4 раза выше, чем у замыкающего приведенную ниже таблицу "сгустка" в городе Мыски) , а в Большемурашкинском районе Нижегородской области сразу 9 участков (из 19) показали результат ЕР от 65,00% до 65,50% - но последний случай это как раз тоже явная фальсификация.

Про некоторые из "сгустков", попавших в таблицу выше, хочется сказать подробнее

(1) Город Прохладный в Кабардино-Балкарии. Безусловный рекордсмен, где все 20 участков уложились в диапазон от 78,35% до 78,46% за Единую Россию (не спрашивайте меня, почему именно 78,4% - не знаю). Там еще и явка почти совпадает (разброс от 88,6% до 90,3%), и проценты за другие партии (например, у КПРФ везде 18,8%, и только на одном участке 1 лишний голос - так что получилось 18,9%; у "эсеров" 2,0% плюс минус 0,1%; на четвертом месте везде "зеленые" везде с 0,3%; у Яблока ни одного голоса во всем городе; также в городе ни одного недействительного и ни одного попутавшего КПРФ и КПКР)
(2) Центральный район Тюмени. Это единственный ТИК, в котором обнаружилось сразу два "сгустка". Но примечательно даже не это, а то, какие именно проценты там рисовались. Более трети участков (36%) попали по голосованию за ЕР в диапазон чуть шире 0,2% - от 47,72% до 47,96%. Рисовали менее 48% - тогда как в большинстве других "сгустков" у Единой России 70% и более. Но это еще не все: в том же Центральном районе еще 30 участков (41% от всех УИКов района) показали результат за ЕР между 38% и 39% - что как раз примерно соответствует среднему результату ЕР по нефальсифицированным участкам в крупных городах. Притом в сытой, осыпанной нефтяными деньгами Тюмени даже в центре города поддержка Единой России должна быть выше среднего - так что похоже, что на части участков в Центральном районе Тюмени ЕР нарисовали процент меньше реального (впрочем, при рисованной явке около 75-80% ЕР все равно осталась в выигрыше по количеству полученных голосов). При 38,х% за Единую Россию совпадают и результаты других партий - у эсеров всегда 22% с копейками, у КПРФ 21%, у ЛДПР 17%, у остальных не более 0,2%.
Замечательная иллюстрация рисования результатов - участок 2220. Там при вводе данных промахнулись, и у КПРФ и эсеров оказалось по 0 голосов, тогда как их стандартные результаты - 21% и 22% - сместились на одну строчку вверх и оказались записаны соответственно на Яблоко и Патриотов России. Понятно, что это просто ошибка при вводе данных - но показательно, что подобные ошибки встречаются только там, где рисовали результаты.
В завершение темы Тюмени - "сгустки" есть и в других районах города, но только по одному на район. И в отличие от Саратова, где во всех районах "метились" в одинаковый процент, в Тюмени в каждом районе была своя цель - где-то 48,4%, где-то 49-50%. Но всегда около 50%, чуть ниже
(3) башкирский Стерлитамак - рекордсмен среди ТИКов по количеству совпадающих участков: 97 из 116. Город отличается второй раз подряд - в 2011 г. там на большинстве участков была явка 75% и за ЕР 75%. Теперь все скромнее - только 55%. Высвободившиеся проценты не стали распылять по разным партиям или оставлять на усмотрение избирателям - а записали КПРФ, у которой на 85 участках из 97 результат составил фантастические 31% плюс-минус 0,5%. Подробнее у kireev
(4) Уфа. Аналог Тюмени - "сгусток" в каждом или почти каждой районе, у каждого района своя "цель", но это всегда число около 50% (47-48% в Кировском районе до 51% в Демском). Особо примечателен Орджоникидзевский район, где 15 участков не просто совпали в узком диапазоне шириной 0,2%, но еще и диапазон этот оказался ровно на 50%. Похожая на Уфу картина - только чуть более высокие проценты за ЕР - и в башкирских "сгустках" за пределами Уфы (например, в Салавате и Октябрьском)
(5) Саратов. Тут нужны пояснения. Во-первых, использованный мною алгоритм ищет "сгустки" в пределах ТИКа, а не города. Поэтому 107 саратовских участков с попаданием в 62,2% в таблице показаны 5 отдельными строчками. Во-вторых, алгоритм заточен под обнаружение максимально больших "сгустков" с аномально большой плотностью распределения. Поэтому если в диапазоне шириной скажем 2% обнаруживается аномально много участков, то дальнейший анализ будет вестись по этому диапазону - а не по более узкому (и менее вероятному), но включающему в себя меньшее количество участков диапазону в 1% или меньше. Соответственно, указанные в таблице границы диапазонов для районов Саратова шире, чем реальная ширина "сгустка" (которая составляет 0,11% - 62,135% до 62,245%)

Как считается вероятность случайного совпадения?
Шаг 1. Если представить голосование на каждом участке как биномиальное распределение, то у нас есть матожидание - средний результат ЕР по группе участков с похожими результатами и есть количество "испытаний" (количество проголосовавших). Далее по формуле биномиального распределения считаем вероятность, что количество "успехов" (голоса за ЕР) попадет в искомый интервал [все считается в экселе через формулу биномиального распределения - БИНОМРАСП]. По сути мы считаем, что доля голосов за ЕР в "выборке" (на конкретном участке) будет отличаться от доли голосов за ЕР в "генсовокупности" (все совпадающие участки) не более чем на 1/2 ширины диапазона

Шаг 2. После того, как мы посчитали вероятность попадания результат ЕР на отдельном участке в определенный диапазон (у каждого участка эта вероятность будет своя, можно взять среднюю по всей группе совпадающих участков), мы можем посчитать вероятность того, что в целом по ТИКу из m участков n участков попадет в искомый диапазон

ВАЖНО: моя оценка строится на допущении, что отклонения результатов голосования по участкам носят случайный характер (как будто избирательный участок - это случайная выборка из генеральной совокупности). Это предположение пусть и не соответствует действительности, но оно максимально лояльно к избиркомам и дает самую высокую оценку вероятности попадания результата в одно и то же значение. Любая модель, включающая учет социально-демографических и экономических различий между участками, покажет большую дисперсию результатов и еще меньшую вероятность кучкования результатов вокруг одного числа

Непосредственно поиск "сгустков" осуществлялся путем подсчета для каждого участка количества других участков в том же ТИКе, которые по результату Единой России отстают от него не более чем на 2%, на 1%, на 0,5%, на 0,2% или 0,1% (для каждого размера шага делались свои подсчеты). Далее для каждого совпадения нескольких участков ТИКа в одном диапазоне считалась вероятность того, что это получилось случайно. Если в одном ТИКе получалось несколько наборов участков с вероятностью совпадения менее 0,01%, то выбирался диапазон, включающий наибольшее количество участков. Далее проводился повторный (финальный) подсчет вероятности случайного совпадения - исходя не из стандартной, а из фактической ширины диапазоны. В ряде случаев из выявленных скоплений участков вручную исключались УИКи, которые формально попадают в тот же диапазон - но по проценту за ЕР сильно отстают от основной масся участков внутри диапазона 

Володинские 62,2% в Саратове: математическое доказательство фальсификации для чайников

Последние дни много веселья про результаты выборов в Саратове, где более чем на четверти участков результат Единой России оказался ровно 62,2% с точностью плюс-минус несколько сотых процента. Вот тут наглядно. Особой пикантности придает тот факт, что в Думу от Саратовской области баллотировался Володин - зампред президентской администрации, куратор всех выборов и будущий спикер Госдумы

На уровне базовой вменяемости понятно, что не может быть такое совпадение результатов на десятках участков. Но люди просят ДОКАЗАТЕЛЬСТВ. Ну что же, объясняю на пальцах и с цифрами. Математическое доказательство того, что результаты выборов по Саратову фальсифицированы

Для начала представьте себе огромный контейнер, в котором много-много (больше 100 тысяч) шаров. Белые и черные. Черных больше - 62,2% от всех. Шары равномерно и добросовестно перемешаны - т.е. в любой части контейнера соотношение белых и черных шаров примерно одинаковое
Теперь мы вслепую достаем шары из этого контейнера и раскладываем по кучкам. Пусть в каждой кучке у нас будет 1340 шаров. Сколько в каждой кучке будет черных шаров? Можем ли мы быть уверены, что в каждой кучке доля черных шаров будет именно 62,2%, а не скажем 62,0%, 62,4% или 65,0%? Тут нам на помощь приходит математика биномиального распределения. Биномиальное распределение - это такое случайное распределение, у которого может быть только два значения (0 или 1, "да" или "нет") и у которого есть определенная вероятность, что случится исход "да". Вокруг этого построен большой и важный раздел теории вероятности, и здесь используется четкая и легко доказуемая математика
Прежде чем с помощью тервера отвечать на условно сложный вопрос про 1340 шаров, давайте посмотрим на простую ситуацию - вытаскиваем 2 шарика. У нас может быть всего 4 комбинации: черный-черный, черный-белый, белый-черный, белый-белый. Вероятность, что будет 2 белых шара, примерно 15% (37,8% в квадрате), вероятность, что будет 2 черных шара, чуть меньше 40% (62,2% в квадрате). Остальные примерно 45% - это вероятность того, что будет 1 белый шар и 1 черный шар (нам не важно, в каком порядке мы их вытащим). Если у нас 3 шарика, то комбинаций уже 8, вероятность 3 белых шаров около 6%, вероятность 3 черных шаров около 35%, а скорее всего у нас будет 1 или 2 черных шара. Ну и так далее.
Есть понятные и достаточно легко выводимые формулы (вот например не очень заумное описание), есть функция в Excel под названием BINOMDIST (БИНОМРАСП), которая позволяет рассчитать вероятность для любого количества успешных исходов при определенном количество "попыток" (в нашем примере это вытаскиваемые шары) и определенной вероятности.
Например, если мы вытащили 1340 шариков из большого контейнера, в котором доля черных шаров составляет 62,2%, то вероятность, что в кучке окажется менее 60% черных шаров составляет 5,2%, а что более 65% - 1,8%. Менее 62% получится с вероятностью 43%, более 63% - с вероятностью 29% (и соответственно только 28% исходов придется на диапазон от 62% до 63%). Вероятность же того, что при округлении до десятых процента у нас получится ровно 62,2%, совсем небольшая - такой результат получится только если черных шаров будет 833 или 834, а вероятность любого из этих исходов составляет примерно 2,2% (4,5% в сумме). То есть только в каждой 22-ой кучке у нас доля черных шаров (округленная до десятых долей процента) будет такой же, как во всем контейнере - в остальных кучках она будет немного (на десятые доли процента или на несколько процентов) больше или меньше; в половине случаев отклонение будет 1% или более.

А теперь вместо шаров подставим избирателей. Кучки = избирательные участки, 1340 = среднее количество избирателей, проголосовавших на саратовских участках; 62,2% = результат Единой России на сомнительных участках; контейнер = все саратовские участки, где повторяется результат 62,2% (а точнее от 62,135% до 62,245%). Здесь мы на самом деле делаем два важных допущения В ПОЛЬЗУ предположения о честности саратовских избиркомов: во-первых, мы допускаем, что за Единую Россию в сумме по обсуждаемым участкам действительно проголосовало 62,2% избирателей (т.е. что в "контейнере" доля черных шаров действительно 62,2%); во-вторых, мы допускаем, что участки одинаковые по характеристикам избирателей, т.е. что белые и черные "шары" хорошо перемешаны и отличия между "кучками" по доле черных шаров случайны. На самом деле оба допущения конечно же не соответствуют действительности, но нам важно доказать, что даже при максимально лояльных к избиркомам допущениям полученные в Саратове результаты статистически невероятны (если мы предположим, что на самом деле вероятность голосования за Единую Россию в целом по городу не 62,2%, а меньше или больше, или если мы предположим, что между отдельными избирательными участками есть фундаментальные различия по составу электората, наша оценка вероятности попадания результата ЕР на конкретном участке в 62,2%, а точнее в диапазон 62,135%-62,245%, резко упадет). Вероятность (попадания точно в 62,2%) на уровне 4,5%, которая у нас посчиталась выше, - это максимально возможная, максимально лояльная к избиркомам оценка.
Итак, если в городе (районе, группе избирательных участков) за Единую Россию в среднем голосует 62,2%, то на участке с 1340 избирателями вероятность попадания результата (с точностью до десятых процента) в 62,2% составляет 4,5%. А вот на участке с 1341 избирателями вероятность такого попадания уже составляет всего лишь 2,2% - потому что в искомый диапазон попадает уже не 2 числа (833 и 834), а только одно (834). Если взять официальные данные по количеству проголосовавших по каждому из 107 прославившихся участков (а там по официальным цифрам голосовало от 550 до 1922 человек на каждом участке), то в среднем по этим участкам вероятность попадания результата ЕР в диапазон от 62,135% до 62,245% составляет 3,4% (разброс от 1,9% до 5,3%)

На картинке показано распределение саратовских участков по явке - с группировкой по "бинам" шириной в 0,1%. И для сравнения синенький холмик - распределение, которое должно было получиться, если бы все участки Саратова были бы примерно одинаковые, и различия между ними носили случайный характер (в реальности, с учетом экономических и социальных различий между районами города, "холмик" должен был бы быть еще более низким и широким)



Выше мы посчитали по отдельным участкам. А чтобы от этого перейти к оценке вероятности в целом по Саратову, мы смоделируем еще одно биномиальное распределение. В первом распределении у нас исходом было голосование или неголосование конкретного избирателя за Единую Россию. Во втором распределении таким исходом уже является попадание или непопадание результата ЕР на конкретном участке в 62,2%. Участков в Саратове 346, из них на 107 участках результат Единой России составил от 62,136% до 62,245%, вероятность попадания участка в этот диапазон в среднем 3,4%. При такой вероятности подобных участков должно было бы быть в Саратове около 12. А их оказалось 107! 95 сверхнормативных попаданий. Эксель даже не может посчитать вероятность такого "везения" - в какой-то момент он округляет до нуля. Но эксель может посчитать, что вероятность 10 и более попаданий сверх нормы (22 УИКа и более) составляет 0,4%, вероятность 20 попаданий сверх нормы уже в 9300 раз меньше - только 0,000045% (1 раз на 2,2 миллиона голосований). Максимум, что может посчитать эксель - 46 попаданий из 346: вероятность 1 на 180 триллионов. Дальше можно только примерно оценивать - для 107 попаданий у меня получилась вероятность примерно 10 в степени -44. Примерно как если бы в рулетке одно и то же число выпало 28 раз подряд. Вот у единоросов в Саратове точно такая же феноменальная стабильность и везение

Еще раз: вероятность того, что популярность в Саратове результата ЕР 62,2% получилась случайно (а не в результате рисования цифр) составляет не более 10-44

А вещь еще в Саратове было 35 участков, где результат Единой России чуть больше 62,2% - от 62,25% до 62,40%. Таких 35 участков. Вероятность, что эти 35 участков скучковались случайно, - 0,0001% или 1 случай на 945 тысяч. Так что математически фальсификации в Саратове доказываются даже не на 107 участках, а как минимум на 142 участках - это почти половина города.

P.S. Спасибо заинтересованному читателю, который не поленился продублировать мои расчеты. Похоже, что я сильно завысил вероятность саратовского совпадения. Для 107 участков вероятность совпадения получается не 10-44, а видимо что-то около 10-70 или 10-80

</sup>

О нарисованных результатах президентских выборов в Сирии

Я таки действительно смеялся. Надо же умудрится, чтобы в двух разных местах планеты с интервалом всего в месяц фальсификаторы попалились на одном и том же. Да здравствует математика!

Originally posted by kireev at О нарисованных результатах президентских выборов в Сирии
Вы будете смеяться, но результаты президентских выборов в Сирии тоже нарисовали!

via http://papa-lyosha.livejournal.com/47045.html

О выборах в Сирии




Рома Тумайкин обнаружил, что результаты выборов в Сирии также нарисованы, как и в Луганске.
Они тоже вычисляли число проголосовавших, по заданным процентам. Причем они оказались настолько тупы, что не заметили, что в результате их вычислений, сумма  голосов за всех кандидатов и недействительных и  общее число "проголосовавших" не совпадает!  Причем разница (один человек) как раз такая, какая получается при округлении после вычисления процентов, что выдает их с головой. Такого не было даже в Дагестане!

Collapse )

Саморазоблачающий протокол

Когда вчера при моем участии всплыли замечательные "странности" результатов луганского референдума (см. 1 и 2), мне прислали ссылку на ИСТОРИЧЕСКИЙ ДОКУМЕНТ

Я про протокол ЦИК Луганской области - lugansk-online.info/referendum

Это исторический и уникальный документ. Организаторы голосования подписали протокол, который явно показывает, что "результаты" референдума они взяли с потолка. Притом они умудрились проколоться не один и не два раза - они "палятся" в протоколе через строчку

В качестве пособия для будущих фальсификаторов - шесть ошибок, допущенных луганскими товарищами:

  1. в точности совпали количество избирателей в списках и количество бюллетеней, переданных в участковые комиссии
    количество избирателей - величина, которая меняется в течение дня голосования (избирателей вычеркивают из списков как умерших или уехавших; еще больше людей включают в дополнительные списки - и многие журналисты и избиратели отмечали, что на этом референдуме многие голосовали по допспискам). Соответственно, нельзя было заранее выдать каждому участку ровно столько бюллетеней, сколько там будет избирателей на момент окончания голосования - потому что второе число не было известно заранее
    Если же по отдельным участкам количество избирателей в списке и количество полученных УИКом бюллетеней не совпадают, то и вероятность того, что эти два числа совпадут в масштабах области, стремится к нулю

  2. количество бюллетеней, выданных в помещении для голосования, в точности (расхождение 0,3 человека) совпадает с результатом умножения количества избирателей на "круглый" показатель явки 75,2000%
    вероятность случайного возникновения такого совпадения - примерно 1/1800

  3. количество обнаруженных в бюллетенях урнах в точности соответствует количеству выданных бюллетеней
    якобы ни один из 1.36 миллиона избирателей не испортил бюллетень и не унес его как сувенир домой, и ни одна комиссия не ошиблась ни при подсчете выданных бюллетеней, ни при подсчете бюллетеней в урнах

  4. сумма действительных и недействительных бюллетеней совпадает с количеством бюллетеней в стационарных урнах (а должно совпадать с суммой стационарных и переносных урн)
    количество бюллетеней, выданных вне участков (почти 16 тысяч), видимо забыли учесть в формулах, которые считали количество действительных и недействительных; если бы реально суммировались данные участков и территориальных комиссий, было бы невозможно "потерять" 16 тысяч голосов

  5. доля недействительных бюллетеней в %% от суммы действительных и недействительных также является круглым процентом, правда не с одним, а с 2 знаками после запятой - 0,74% (0,740021%)
    вероятность такого случайного совпадения - примерно 1/136. Примечательно, что доля недействительных в Донецкой и Луганской областях совпали (0,74% в обоих случаях)

  6. количество голосов за независимость в точности (расхождение 0,3 человека) совпадает с результатом умножения количества действительных бюллетеней на "круглый" процент 96,2000%
    вероятность такого случайного совпадения примерно 1/1300
    вероятность, что оба ключевых числа (см. пункты 2 и 6) будут совпадать с круглыми процентами, составляет примерно 1 раз на 2,3 миллиона

Появление всех этих странностей в одном протоколе может объясняться только одним - результаты выборов определялись не на основе данных от участковых комиссий. Они рисовались руководством ЛНР исходя из своих представлений о том, какие результаты нужны. Насколько эти придуманные цифры далеки от реальных результатов - мы не знаем

P.S. прежде чем начнете опровергать обоснованность какого-либо из 6 пунктов, подумайте, а готовы ли вы объяснить все 6 странностей



Update для истории: на том же самом прокололись рисовальщики результатов президентских выборов в Сирии
http://papa-lyosha.livejournal.com/47045.html

Upd2: аналогично прокололись на "выборах главы ДНР" а еще раньше - на референдуме о присоединении к России в Севастополе

Upd3: romanik нашел фото протокола (по исходной ссылке в посте его давно уже снесли)


from Roman Udot @FB

Там же наглядная картинка со стрелочками

О неправдоподобной динамике явки по районам и городам Крыма

Крымчане, добро пожаловать в Чуровленд

Originally posted by kireev at О неправдоподобной динамике явки по районам и городам Крыма

Собрал в одну таблицу результаты явки по часам по городам и районам Крыма. Данные публиковались на сайте крым-информ (пророссийском, сразу отвечаю на вопрос). Результатов по Черноморскому р-ну на 18 не было почему-то, но финальные результаты появились.
на 12:00
http://www.c-inform.info/mainnews/id/76
на 15:00
http://www.c-inform.info/mainnews/id/79
на 18:00
http://www.c-inform.info/mainnews/id/81
финальные цифры на 20 часов
http://www.c-inform.info/news/id/770

Я сделал и таблицу динамики явки. То есть какая доля людей, пришедших на участки, сделала это с 8 до 12 часов, с 12 до 15 часов и т.д. Вот тут начинается самое интересное. Чаще всего выглядит ужасно, неправдоподобно и это явное свидетельство манипуляций.  Самый большой наплыв людей идет с 10 до 14 - 15 часов, а потом идет спад. Но не могут 9% от всех пришедших за день проголосовать в 15 до 18 часов и 20% с 18 до 20 часов, как было в Евпатории. Так люди в массовом порядке на выборы не ходят. Мне пытались объяснить, что это такое важное, ну такое важное событие, что людям просто нетерпелось проголосовать за вхождение в состав России. Но это не может объяснить, что, скажем, именно в Евпатории вдруг проявился взрыв нетерпения с 18 до 20 ч., а с 15 до 18 ч. его особо не было. Это не может объяснить, что в одном из трех районов Симферополя Железнодорожном 92,4% людей проголосовали до 15 часов, а потом вдруг люди закончились и весь остальной день на выборы дошли лишь 7,6%, при том, что в двух других районах почти 30%. Это необъяснимо никакими этническими составами населения районов и никакой важностью выборов. И таких примеров множество. Мне говорили, что Керчь настолько пророссийская и поэтому там сразу 68% проголосовали с 8 до 12 ч. Но при этом в пределах целого большого города явка с 15 до 18 ч. не может вдруг вырасти по сравнению с 12 - 15 ч. Если такая мощная явка утром, то потом должно быть затухание явки. При этом отдельные участки можно объяснить какими-то факторами, но естественными причинами невозможно объяснить всю эту картину.

Слышу еще одно возражение: да кому там важна эта явка по часам! Примерно пишут и все тут. Но ведь это данные не по участкам, а по целым районам. В них много участков. Если бы писали примерно и независимо друг от друга, разве могли бы быть такие различия по районам? Почему вдруг участки Железнодорожного р-на Симферополя сговорились записать всех до 15 часов, а в Киевском и Центральном вдруг нет? Как ни крути, манипуляции.

crimea_turnout

Но может быть это везде так? Нет, не везде. Я об этом подробно писал после думских и президентских выборов в России. Такое нарушение динамики явки по часам чаще всего вело к явным аномалиям и в результатах. И наоборот, правильная динамика чаще всего вела и к результатам без аномалий. Я решил взять для сравнения какую-нибудь область России (только, где не было фальсификаций) с последних президентских выборов. На украинских выборах, к сожалению, данные по явке по часам представлены лишь по округам, а они прилично больше районов. Поэтому я обратился к России. Я взял Иркутскую потому что она сопоставима с Крымом по населению и на всех выборах была достаточно чистой. Вот сравните: тут все плавно, красиво, правильно. Утром больше селяне голосуют, вечером больше горожане.

irkuts_turnout

Я бы извинился перед теми, кто радуется результатам референдума, что порчу им праздник, но не буду, потому что знаю, что большинству из них, собственно, плевать на то, были ли результаты референдума настоящими или нет.

фальсификация международного масштаба (или Они не читали Драгунского)

На днях по всему миру разошлись результаты опроса YouGov про Most admired people. Меня сразу смутили результаты, но только сейчас я случайно заметил прямые доказательства фальсификаций результатов. Следим за цифирками

1. Обратите внимание: в топ-10 по Китаю разница между 9-м и 10-м местами 0,22% (1,29%-1,07%). У 7-го и 8-го одинаковые результаты - на 0,43% больше, чем у 9-го. Заметьте - 0,43% примерно в 2 раза больше, чем 0,22%. А скажем между Обамой и Путиным разница снова 0,22%
Такая тяга к 0,22% неслучайна: если чуть помоделировать результаты, то окажется, что все проценты по Китаю кратны 0,2146%. Это означает, что 100% соответствуют 466 ответам. То есть в Китае на вопрос о вызывающем наибольшее восхищение политике ответило всего 466 человек, из которых 5 проголосовали за Брюса Ли, 6 за Пэн Лиюань (певица и по совместительству генерал-майор жена председателя КНР Си Цзиньпина), по 8 человек за Майкла Джордана и Стивена Хокинга, и так далее. За Путина 40 человек, за Обаму 41 человек, за Гейтса 88. Все просто и реконструируемо
Из общего ряда выбивается только Си Цзиньпинь (муж той самой певицы и главный человек в Китае с марта прошлого года). У него 9,06% голосов, согласно отчету YouGov. Но: при делении целого числа на 466 нельзя получить 9,06%! Если поделить 42, то получим 9,013%. Если поделить 43, получим 9,227%

ОК, может быть случайная опечатка? Проверим

2. И в локальный китайский топ-10, и в общемировой топ-30 попали 3 китайца - уже упомянутые Пэн Лиюань и Си Цзиньпинь, а также самый богатый китаец Ли Кашин (Li Ka-shing). В китайском топе миллионер опережает певицу ровно в 2 раза - 3,22% против 1,29%. И мы уже знаем, что в абсолютных числах это соответственно 15 и 6 ответов.
"Удивительное" совпадение - в мировом рейтинге разница между ними опять ровно в 2,5 раза: 1,05% и 0,42%. Логично предположить, что эта пропорция сохранилась в силу того, что за пределами Китая ни один человек не назвал ни Ли, ни Пэн.

Если этих людей называли только в Китае, то дальше мы можем посчитать (поделив например 1,05% на 3,22%), что доля китайских ответов в общемировых результатах YouGov составляет 32,6% (+/- 0,2%) - что примерно пропорционально численности населения (спасибо leonidstorch, который первым предположил это - я сначала не поверил, но цифры подтверждают правоту этой догадки).
Проверим на третьем китайце. Результат Си Цзиньпиня в целом по миру - 2,86%. Если предположить, что все это - голоса респондентов из самой Поднебесной, то тогда надо поделить на 0,326 и получить что-то около 8,8% (от 8,72% до 8,83%). Но YouGov говорит, что в Китае у Си Цзиньпиня 9,06% - которые при умножении на 0,326 должны были бы дать 2,95%. Нестыковочка

И в этом месте есть теоретически два возможных объяснения:
1) можно предположить, что доля Китая в общих результатах не 32,6%, а около 31,5% или даже меньше, и что Ли Кашина и Пэн Лиюань называли некоторые респонденты за пределами Китая (а Цзиньпиня - не называли). Тогда цифры могут сойтись - но только вы можете поверить, что жена президента КНР и главный китайский миллиардер в мире более известны, чем сам президент КНР?

Я не могу. И эта версия все равно не объяснит нам, как получилось 9,06% при делении на 466 (см. п. 1)
2) может все проще? Когда посчитали результаты по Китаю, то оказалось, что у Обамы и Цзиньпиня поровну - по 8,8%. Но нехорошо получается - что же это, заморский президент китайцам столь же мил, как и родной лидер? Решили чуток накинуть, чтобы не разжигать. Второпях забыли две вещи: что результаты должны быть кратны 0,2146% и что пропорциональную прибавку надо дать китайскому лидеру в общемировых результатах

Короче, очень некрасивая история получается. Ручная корректировка результатов. Я не знаю, кто и на каком уровне в YouGov устроил такую пакость - пусть сами разбираются

А дальше установленный факт фальсификации результатов опроса по Китаю порождает вопросы про результат Путина. Давайте посчитаем: у Путина в Китае 8,58% - при умножении на 32,6% (на самом деле 32,5%) это дает 2,8% общемирового рейтинга. А в целом по миру у Путина результат 3,8%. Если вычесть Китай, то по остальным странам у Путина всего 1,5-1,6% - место в конце первой десятки (и то почти исключительно благодаря России). То есть своим успехом (третьим местом) Путин обязан в первую очередь результатам опроса по Китаю.

Но если результаты по Китаю фальсифицированы в пользу местного лидера, то где гарантия, что результат Путина в этой стране - настоящий? Это как с российскими избиркомами - после того, как несколько раз поймал их на безусловных фальсификациях, появляются основания и многие прочие странности результатов выборов объяснять ловкостью рук многочисленных чуровых

Эхх, не буду скромничать

Originally posted by kireev at Итоги конкурса прогнозов результатов выборов мэра Москвы
Пришло время подвести итоги Конкурса прогнозов результатов выборов мэра Москвы. В нем уверенную победу одержал большой любитель электоральной статистикиbarouh .Поздравляю его с заслуженной победой! Грамота "Лучший прогнозист ЖЖ 2013" теперь Ваша!

Последнее место ожидаемо занял oleg_kozyrev c суммой отклонений почти 100%. Мы так до конца и не поняли перепутал ли он проценты и кандидатов, но большинство, включая меня, все же склонялись к мысли, что таковым действительно был его прогноз. Так или иначе, "розовые очки" теперь его.

Результат Навального превзошел средние ожидения прогнозистов, но все же был ожидаем для целой группы участников. Как я уже писал, по Навальному было серьезное расхождение мнений. Одна группа давала ему 12%, 13%, 15%, а другая 25%, 26%, 27%. Истина, однозначно оказалась на стороне второй группы. А результат Навального лучше всех предсказал dimamish, который дал ему 27,1%. В результат Собянина же с точностью до десятой попал Eugene Ustinov. Еще интересно, что 1,5% - был самый распространенный прогноз для процента недействительных бюллетеней и он же и оказался верным!

В таблицу я включил и финальные опросы и прогнозы ФОМ, Комкон, Левада-Центра и ВЦИОМ. В такой последовательности и распределились их места. Правда, Комкон и Левада-Центр делали опросы и у них не было недействительных бюллетеней. А ФОМ и ВЦИОМ делали прогнозы и у них были недействительные бюллетени. Все четыре компании с треском провалились в своих опросах и прогнозах. Лучший из них ФОМ занял бы 76-е место, то есть во второй половине таблицы, а ВЦИОМ и вовсе был бы близок к хвосту.

Сам я оказался на непривычно для себя низком 33-м месте (правда, из 132 прогнозов): обычно я гораздо выше или же вообще лидер. Это хорошо, что под конец я все же увеличил процент за Навального с 21,2% до 22,2%, а Собянину наоборот снял с 54,4% до 53,4%. Как всегда я правильно улавливаю тенденцию, но недооцениваю ее силу. Поэтому я искренне завидую людям, которые ВОПРЕКИ опросам, суммарно предсказывавшим Навальному даже чуть меньше 20%, все же дали ему не просто больше, как я, а прилично больше. То есть аплодирую их смелости в прогнозах, которая в данном случае оправдалась.

Таблица результатов под катом. Напомню, что при равном отклонении выше в ней стоят те, кто сделал прогноз раньше.

109587_original 109521_original

Collapse )

дела давно минувших дней

Я тут у себя на книжной полке откопал сборник Центра Карнеги 2000 года издания - а в нем свою статью про фальсификации на парламентских выборах 1999 года. Насколько я знаю, это единственная более-менее научная публикация про фальсификации на тех выборах.

Текст отсканировал (спасибо компании GF) и выложил:
Парламентские выборы-1999: статистические аномалии

Сейчас это уже конечно во многом смотрится как музейный артефакт, как иллюстрация тогдашних подходов к выявлению фальсификаций с помощью количественных методов. С точки зрения того, как это все анализируется и дискутируется сейчас, уровень аргументации 12-летней давности выглядит очень слабым: много допущений, предположений и оборотов типа "очевидно". Побочным эффектом десятилетия путинских фальсификаций стал существенный прогресс методик электоральных исследований :)
(относительная слабость аргументации в моей статье 2000 г. отчасти еще объясняется и тем, что тогда были доступны данные только по ТИКам (городам и районам), а начиная с выборов 2003 г. публикуются данные по участкам, что резко повышает эффективность количественных методов)

В любом случае мне самому было очень интересно читать этот старый текст. Там есть методические любопытности. И еще интереснее читать заключение - как тогдашняя ситуация отличается от нынешней:
"наиболее крупные фальсификации наблюдались в Татарстане и Башкирии — здесь в пользу ОВР было сфальсифицировано как минимум 300 тыс. голосов " [а теперь счет идет на миллионы]
"именно «Единство» понесло максимальные потери [из-за фальсификаций]: в республиках его голоса «украл» ОВР, а в ряде «русских» регионов — КПРФ"
И банально-провидческое: "низкая оценка масштаба фальсификаций на парламентских выборах не должна обольщать ... статистический анализ выборов 1999 г. позволяет говорить о расширении географии фальсификаций — к автономиям с традиционно подконтрольным властям голосованием добавился ряд «русских» регионов"

Вклад Холманских в победу Путина

Давно ничего не писал про электоральную статистику. А это неправильно. 4 марта, а тем более 4 декабря, от нас все дальше - но это были не последние выборы, и тему фальсификаций (их выявления и борьбы с ними) нельзя «замыливать». Ну и научный интерес остается…

Итак, поехали. Сегодня – про эффект Уралвагонзавода. В свете недавного назначения Холманских – вполне актуально.

На графике показано соотношение голосования за "Единую Россию" в декабре 2011 и за Путина в марте 2012. Каждая точка - один город. Включены только города, по которым нет оснований предполагать значимые фальсификации. Как нетрудно заметить, большинство городов Свердловской области (красные точки) заметно выделяются из общей массы - в Свердловской области прибавка голосов у Путина по сравнению с ЕР была существенно больше (примерно на 10%), чем в остальной России.

распределение городов России по %% ЕдРа и Путина


Мне кажется, что можно достаточно уверенно утверждать, что именно пиар-история вокруг Уралвагонзавода и уральских работяг (названных Жириновским дебилами и превращенных официальной агитмашиной в символ поддержки Путина), обеспечила Путину эти дополнительные 10% голосов, пусть и только в пределах одного региона. Так что Холманских свое дело сделал.

Некоторые подробности: для начала я «собрал» массив из городов, в которых, судя по формальным статистическим признакам, и в декабре, и в марте результаты выборов считались честно. Я взял города, в которых СКО (среднеквадратичное отклонение) и для голосования за ЕР, и для голосования за Путина не превышало 7% (я уже писал тут в ЖЖ раньше, что именно 7% является, судя по всему, верхним порогом для «естественного» СКО, тогда как большая дисперсия может получаться только из-за фальсификаций на части участков). Дополнительно исключил 20 городов с неправдоподобно высокими, более 60%, результатами «Единой России» (из этих 20 городов с маленькой дисперсией и высоким голосованием за ЕР, только в ямальском Губкине у ЕР «всего» 65%, а в остальных 19 городах – от 73% до 99,5%). В итоге набралось 248 городов.
Collapse )

По этим 248 городам я сравнил процент голосов за ЕР и процент голосов за Путина. Коэффициент корреляции между двумя голосованиями составил +0,70. Уравнение, описывающее линейный тренд: y=0,65x+0,36 (x – ЕР, y – Путин). Если это уравнение перевести в слова, то получается, что в среднем Путин получал 100% голосов ЕР (0,65+0,36=1,01) и 36% от голосов, отданных за другие партии (тут для простоты игнорируем тот факт, что явка между декабрем и мартом тоже менялась).


Collapse )

Потом посчитал отклонения отдельных точек (городов) от линии тренда. Наибольшие отклонения как раз фиксировались для городов Свердловской области. Разделил все точки на две группы - Свердловская область и остальная Россиия - и посчитал корреляции и тренды по ним отдельно. Результат - на приведенном выше графике.

Collapse )

Приведенные на графике уравнения линейных трендов, посчитанные раздельно для двух групп городов, как раз и показывают, что в Свердловской области прирост голосования за Путина относительно Единой России был примерно на 10% выше, чем в среднем по России.Результат Путина был выше результата ЕР в среднем на 33 процентных пункта по городам Свердловской области и на 23 процентных пункта - по остальным нефальсифицированным городам России. То же самое, посчитанное иначе: если по городам других регионов «путинская» прибавка (по сравнению с результатом ЕР) составляла в среднем 35% от суммы голосов за прочие партии, то в городах Свердловской области – аж 50%.



Collapse )

однородно/неоднородно, устойчиво/неустойчиво

Как вы наверное помните, после декабрьских выборов я нарисовал по 402 городам график соотношения среднего (по городу) результата «Единой России» и среднеквадратичного отклонения (т.е. степени однородности голосования за ЕдРо по участкам города). Из того графика вырисовывались интересные наблюдения и выводы на тему того, где именно в декабре фальсифицировали выборы

Collapse )

При всех различиях в визуализации, все эти графики говорят нам об одном и том же - об уменьшении на президентских выборах количества статистических аномалий: средний уровень дисперсии ниже, чем в декабре; городов, попадающих в основной («нормальный») кластер с достаточно однородным и относительно невысоким голосованием за власть, стало значительно больше, чем в декабре. Например, количество городов с СКО более 7% сократилось с 120 до 62, а с СКО более 10% - с 76 до 8.

Можно копнуть дальше, и посмотреть, как менялась (не)однородность результатов голосования по отдельным городам. На следующем графике показано СКО для декабрьских выборов (голосование за Единую Россию, ось X) и СКО для мартовских выборов (голосование за Путина, ось Y). Для наглядности я обвел рамками четыре основные группы точек.

сравнение дисперсии 2011 и 2012
(версия графика без рамочек)

В большинстве городов и в декабре, и в марте разброс результатов между участками был небольшим (СКО менее 7% для думских выборов и 6% для президентских), притом внутри этой группы (расположенной внутри синего овала) прослеживается четкая корреляция между уровнями однородности выборов в декабре и в марте. Иными словами, если естественная картина не искажается фальсификациями, то уровень «внутригородской дисперсии» является достаточно стабильной характеристикой.

Группа точек в темно-красной рамке – это города, в которых и в декабре, и в марте отмечалась высокая неоднородность голосования. Попросту говоря, это города, для которых есть основания говорить о заметных фальсификациях на обоих выборах. Впрочем, даже внутри этого прямоугольника большинство точек тяготеет к его нижней части, т.е. к уровню СКО на мартовских выборах в 6-8%, что говорит как минимум о снижении уровня фальсификаций по сравнению с декабрем.

Но вот например в Петербурге (большая точка с красной рамкой наверху графика) неоднородность результатов выборов по сравнению с декабрем практически не сократилась :(. А вот вторая укрупненная точка, расположенная внутри желтого прямоугольника - Москва - дает нам классический пример резкого сокращения СКО: за три месяца столица «вдруг» стала в электоральном плане намного более однородной.

Притом Москва – самый заметный, но не единичный пример резкого роста однородности голосования. Аналогичную ситуацию мы видим в Магнитогорске, городах Владимирской области, Туапсе, Шахтах, Сызрани, ряде городов Республики Коми.

Ну и четвертая группа на графике (красная рамка) – это города, в которых неоднородность результатов выборов заметно выросла в марте по сравнению с декабрем и достигла уровня, нехарактерного для честного подсчета голосов. Городов в этой группе относительно немного – меньше двух десятков – притом «механика» попадания в эту группу у разных городов разная: в одних случаях причиной является рост фальсификаций (например, Ханты-Мансийск, Аша в Челябинской области), а в других случаях – наоборот, нарушение однородности фальсификаций при заметном снижении их общего уровня (Саров, Прохладный, Кизляр).