ЖЖ ушел в пике?
https://www.rank2traffic.com/livejournal.com

(это таблица к предыдущему посту)
"Рейтинг" районов по доле пятиэтажек, вошедших в список для голосования по включению в программу "реновации"
( рейтингCollapse )Вчера пол-ночи сидел, игрался данными, а сейчас наконец урвал время все это более-менее причесать и описать. Итак, мини-исследование того, какие именно пятиэтажки (и малоэтажки) вошли в опубликованный 2 мая список домов, по которым будет проводиться "голосование" (в кавычках, потому что правовой статус у него нулевой) по включению в программу "реновации"
Спасибо podmoskovnik за предоставленные (собранные и публично выложенные) данные!
Краткое резюме: получается, что попадание или непопадание пятиэтажки в "список на реновацию" зависит от:
Открытыми остаются вопросы, как на попадание в список влияет реальное техническое состояние дома (нет качественных данных для оценки), уровень протестов в районе (аналогично нет данных) и стоимость квадратного метра в пятиэтажках района (данные есть - но нет времени посчитать)
Еще есть странный эффект, что в список на реновацию чаще попадали дома с хорошей энергоэффективностью и реже - дома с плохой энергоэффективностью. Но тут нужны мозги людей, которые лучше понимают, что влияет на этот показатель и как его считают чиновники. Я тут всего лишь могу посчитать цифры (что я и сделал)
Кому лень читать весь текст- в конце рейтинг районов, отсортированных по доле пятиэтажек (и домов 3-4 этажей), попавших в список
Уж коли зашла речь про невероятные совпадения, когда куча УИКов в одном районе или городе показывают одинаковые результаты, применительно к выборам 2016 года и 2011 года, то интересно посмотреть на эту тему в ретроспективе. Оказывается, kobak это посчитал еще 4 года назад - но все это время результаты пылились в почтовых ящиках и ни разу опубликованы не были. С разрешения автора исправляю
Итак, список ТИКов с аномально низкой для случайного распределения дисперсией (p<0,0001). Дисперсия считалась по половине участков каждого ТИКа - по тем участкам, на которых результат ЕР ближе к медиане. Соответственно, "сгустки", в которые попадает менее половины участков района, в этот список не вошли (поэтому в частности тут нет питерских совпадений 2012 года и есть некоторые несовпадения с моими списками)
Но тренд все равно хорошо видно: в 2000 еще таких однотипных рисовок результатов не было, в 2003 они появились и далее становились все более распространенными. Так, в 2008 они впервые появились за пределами республик - в Кемеровской области. Тренд казалось бы был переломлен в 2012 году, когда количество ТИКов с массовыми однотипными рисовками результатов сократилось в 3 раза.

Но как мы теперь знаем, это был не перелом тренда - а временное отступление. В 2016 году количество рисованных ТИКов выросло снова к уровням 2008 и 2011 годов или даже выше (прямое сопоставление - где больше - пока никем не сделано; я пишу о 50 ТИКах с аномальными "сгустками" в 2016 году, но я использую немного иную методику, и часть выявленных мною "сгустков" алгоритм Кобака не увидел бы)

| ТИК | диапазон | кол-во и доля УИКов | вероятность |
| Кабардино-Балкарская Республика | |||
| Прохладненская городская | 78,35%-78,46% | 20 УИКов (100%) | 5,3E-27 |
| Эльбрусская | 78,43%-79,72% | 21 УИКов (100%) | 3,6E-10 |
| Нальчикская городская | 76,03%-77,97% | 86 УИКов (84%) | 2,3E-07 |
| Карачаево-Черкесская Республика | |||
| Черкесская городская | 76,41%-78,14% | 51 УИКов (98%) | 6,1E-12 |
| Прикубанская | 83,08%-83,71% | 18 УИКов (78%) | 3,3E-10 |
| Кемеровская область | |||
| Полысаевская городская | 72,45%-73,22% | 20 УИКов (100%) | 2,3E-14 |
| Топкинская | 80,57%-81,93% | 34 УИКов (69%) | 4,0E-08 |
| Юргинская городская | 80,48%-82,47% | 40 УИКов (98%) | 6,6E-07 |
| Березовская городская | 72,46%-73,41% | 17 УИКов (68%) | 4,0E-08 |
| Анжеро-Судженская городская | 72,16%-74,15% | 45 УИКов (75%) | 4,6E-05 |
| Мысковская городская | 71,76%-72,75% | 18 УИКов (72%) | 6,0E-05 |
| Республика Башкортостан | |||
| Стерлитамакская городская | 54,41%-56,4% | 97 УИКов (84%) | 2,1E-12 |
| Октябрьская | 52,74%-53,68% | 30 УИКов (73%) | 4,5E-10 |
| Салаватская городская | 50,99%-51,05% | 12 УИКов (19%) | 1,2E-08 |
| Уфа, Калининская | 47,54%-49,04% | 52 УИКов (76%) | 1,1E-07 |
| Уфа, Кировская | 46,21%-48,16% | 56 УИКов (74%) | 3,5E-06 |
| Уфа, Орджоникидзевская | 49,92%-50,1% | 15 УИКов (23%) | 4,3E-06 |
| Стерлибашевская | 61,73%-62,71% | 16 УИКов (48%) | 6,6E-06 |
| Уфа, Демская | 50,96%-51,42% | 14 УИКов (42%) | 1,0E-05 |
| Республика Дагестан | |||
| Дахадаевская | 91,07%-92,45% | 42 УИКов (75%) | 2,6E-08 |
| Сулейман-Стальская | 89,85%-90,35% | 23 УИКов (55%) | 1,9E-07 |
| Сергокалинская | 95,89%-96,06% | 13 УИКов (45%) | 3,1E-07 |
| Республика Ингушетия | |||
| Назрановская | 70,24%-71,05% | 23 УИКов (79%) | 7,4E-09 |
| Малгобекская городская | 72,34%-73,7% | 19 УИКов (90%) | 5,3E-07 |
| Сунженская | 73,93%-74,1% | 10 УИКов (38%) | 1,6E-06 |
| Республика Татарстан (Татарстан) | |||
| Зеленодольская городская | 79,97%-80,14% | 15 УИКов (39%) | 4,3E-08 |
| Нурлатская | 98,97%-99,84% | 43 УИКов (98%) | 9,0E-07 |
| Набережные Челны, Комсомольская | 79,54%-80% | 23 УИКов (49%) | 3,5E-06 |
| Лениногорская городская | 86,93%-87,12% | 11 УИКов (46%) | 6,4E-06 |
| Елабужская городская | 84,78%-86,01% | 31 УИКов (79%) | 8,3E-06 |
| Казань, Приволжская | 74,82%-75,32% | 30 УИКов (34%) | 2,2E-05 |
| Казань, Советская | 74,04%-76,04% | 78 УИКов (75%) | 4,7E-05 |
| Саратовская область | |||
| Саратов, Заводская | 61,69%-62,82% | 54 УИКов (76%) | 5,5E-13 |
| Саратов, Кировская | 62,14%-62,29% | 17 УИКов (27%) | 2,8E-09 |
| Саратов, Октябрьская | 61,99%-62,81% | 30 УИКов (56%) | 2,5E-07 |
| Саратов, Ленинская | 61,48%-63,46% | 83 УИКов (73%) | 2,6E-06 |
| Саратов, Фрунзенская | 62,14%-62,34% | 9 УИКов (36%) | 1,0E-05 |
| Тюменская область | |||
| Тюмень, Центральная | 47,72%-47,96% | 26 УИКов (36%) | 2,1E-09 |
| Тюмень, Центральная | 38,21%-38,66% | 30 УИКов (41%) | 2,1E-09 |
| Тюмень, Восточная | 48,9%-50,13% | 41 УИКов (71%) | 2,1E-07 |
| Тюмень, Ленинская | 48,37%-48,46% | 10 УИКов (22%) | 1,2E-06 |
| Тюмень, Калининская | 48,96%-49,44% | 28 УИКов (35%) | 1,7E-06 |
| Ханты-Мансийский автономный округ – Югра | |||
| Нефтеюганская | 91,95%-92,03% | 9 УИКов (36%) | 2,8E-06 |
| Чеченская Республика | |||
| Урус-Мартановская | 97,37%-97,66% | 36 УИКов (100%) | 1,7E-19 |
| Шалинская | 95,42%-95,66% | 27 УИКов (100%) | 1,2E-19 |
| Ножай-Юртовская | 95,7%-96,21% | 32 УИКов (100%) | 1,8E-18 |
| Гудермесская | 97,53%-97,91% | 45 УИКов (96%) | 3,2E-16 |
| Наурская | 96,35%-96,55% | 19 УИКов (100%) | 9,7E-15 |
| Грозный, Заводская | 95,19%-95,39% | 15 УИКов (100%) | 1,7E-12 |
| Шелковская | 95,6%-96,17% | 26 УИКов (100%) | 4,7E-12 |
| Сунженская | 93,52%-93,72% | 6 УИКов (86%) | 2,9E-05 |
Как считается вероятность случайного совпадения?
Шаг 1. Если представить голосование на каждом участке как биномиальное распределение, то у нас есть матожидание - средний результат ЕР по группе участков с похожими результатами и есть количество "испытаний" (количество проголосовавших). Далее по формуле биномиального распределения считаем вероятность, что количество "успехов" (голоса за ЕР) попадет в искомый интервал [все считается в экселе через формулу биномиального распределения - БИНОМРАСП]. По сути мы считаем, что доля голосов за ЕР в "выборке" (на конкретном участке) будет отличаться от доли голосов за ЕР в "генсовокупности" (все совпадающие участки) не более чем на 1/2 ширины диапазона
Шаг 2. После того, как мы посчитали вероятность попадания результат ЕР на отдельном участке в определенный диапазон (у каждого участка эта вероятность будет своя, можно взять среднюю по всей группе совпадающих участков), мы можем посчитать вероятность того, что в целом по ТИКу из m участков n участков попадет в искомый диапазон
ВАЖНО: моя оценка строится на допущении, что отклонения результатов голосования по участкам носят случайный характер (как будто избирательный участок - это случайная выборка из генеральной совокупности). Это предположение пусть и не соответствует действительности, но оно максимально лояльно к избиркомам и дает самую высокую оценку вероятности попадания результата в одно и то же значение. Любая модель, включающая учет социально-демографических и экономических различий между участками, покажет большую дисперсию результатов и еще меньшую вероятность кучкования результатов вокруг одного числа
Непосредственно поиск "сгустков" осуществлялся путем подсчета для каждого участка количества других участков в том же ТИКе, которые по результату Единой России отстают от него не более чем на 2%, на 1%, на 0,5%, на 0,2% или 0,1% (для каждого размера шага делались свои подсчеты). Далее для каждого совпадения нескольких участков ТИКа в одном диапазоне считалась вероятность того, что это получилось случайно. Если в одном ТИКе получалось несколько наборов участков с вероятностью совпадения менее 0,01%, то выбирался диапазон, включающий наибольшее количество участков. Далее проводился повторный (финальный) подсчет вероятности случайного совпадения - исходя не из стандартной, а из фактической ширины диапазоны. В ряде случаев из выявленных скоплений участков вручную исключались УИКи, которые формально попадают в тот же диапазон - но по проценту за ЕР сильно отстают от основной масся участков внутри диапазона
Последние дни много веселья про результаты выборов в Саратове, где более чем на четверти участков результат Единой России оказался ровно 62,2% с точностью плюс-минус несколько сотых процента. Вот тут наглядно. Особой пикантности придает тот факт, что в Думу от Саратовской области баллотировался Володин - зампред президентской администрации, куратор всех выборов и будущий спикер Госдумы
На уровне базовой вменяемости понятно, что не может быть такое совпадение результатов на десятках участков. Но люди просят ДОКАЗАТЕЛЬСТВ. Ну что же, объясняю на пальцах и с цифрами. Математическое доказательство того, что результаты выборов по Саратову фальсифицированы
Для начала представьте себе огромный контейнер, в котором много-много (больше 100 тысяч) шаров. Белые и черные. Черных больше - 62,2% от всех. Шары равномерно и добросовестно перемешаны - т.е. в любой части контейнера соотношение белых и черных шаров примерно одинаковое
Теперь мы вслепую достаем шары из этого контейнера и раскладываем по кучкам. Пусть в каждой кучке у нас будет 1340 шаров. Сколько в каждой кучке будет черных шаров? Можем ли мы быть уверены, что в каждой кучке доля черных шаров будет именно 62,2%, а не скажем 62,0%, 62,4% или 65,0%? Тут нам на помощь приходит математика биномиального распределения. Биномиальное распределение - это такое случайное распределение, у которого может быть только два значения (0 или 1, "да" или "нет") и у которого есть определенная вероятность, что случится исход "да". Вокруг этого построен большой и важный раздел теории вероятности, и здесь используется четкая и легко доказуемая математика
Прежде чем с помощью тервера отвечать на условно сложный вопрос про 1340 шаров, давайте посмотрим на простую ситуацию - вытаскиваем 2 шарика. У нас может быть всего 4 комбинации: черный-черный, черный-белый, белый-черный, белый-белый. Вероятность, что будет 2 белых шара, примерно 15% (37,8% в квадрате), вероятность, что будет 2 черных шара, чуть меньше 40% (62,2% в квадрате). Остальные примерно 45% - это вероятность того, что будет 1 белый шар и 1 черный шар (нам не важно, в каком порядке мы их вытащим). Если у нас 3 шарика, то комбинаций уже 8, вероятность 3 белых шаров около 6%, вероятность 3 черных шаров около 35%, а скорее всего у нас будет 1 или 2 черных шара. Ну и так далее.
Есть понятные и достаточно легко выводимые формулы (вот например не очень заумное описание), есть функция в Excel под названием BINOMDIST (БИНОМРАСП), которая позволяет рассчитать вероятность для любого количества успешных исходов при определенном количество "попыток" (в нашем примере это вытаскиваемые шары) и определенной вероятности.
Например, если мы вытащили 1340 шариков из большого контейнера, в котором доля черных шаров составляет 62,2%, то вероятность, что в кучке окажется менее 60% черных шаров составляет 5,2%, а что более 65% - 1,8%. Менее 62% получится с вероятностью 43%, более 63% - с вероятностью 29% (и соответственно только 28% исходов придется на диапазон от 62% до 63%). Вероятность же того, что при округлении до десятых процента у нас получится ровно 62,2%, совсем небольшая - такой результат получится только если черных шаров будет 833 или 834, а вероятность любого из этих исходов составляет примерно 2,2% (4,5% в сумме). То есть только в каждой 22-ой кучке у нас доля черных шаров (округленная до десятых долей процента) будет такой же, как во всем контейнере - в остальных кучках она будет немного (на десятые доли процента или на несколько процентов) больше или меньше; в половине случаев отклонение будет 1% или более.
А теперь вместо шаров подставим избирателей. Кучки = избирательные участки, 1340 = среднее количество избирателей, проголосовавших на саратовских участках; 62,2% = результат Единой России на сомнительных участках; контейнер = все саратовские участки, где повторяется результат 62,2% (а точнее от 62,135% до 62,245%). Здесь мы на самом деле делаем два важных допущения В ПОЛЬЗУ предположения о честности саратовских избиркомов: во-первых, мы допускаем, что за Единую Россию в сумме по обсуждаемым участкам действительно проголосовало 62,2% избирателей (т.е. что в "контейнере" доля черных шаров действительно 62,2%); во-вторых, мы допускаем, что участки одинаковые по характеристикам избирателей, т.е. что белые и черные "шары" хорошо перемешаны и отличия между "кучками" по доле черных шаров случайны. На самом деле оба допущения конечно же не соответствуют действительности, но нам важно доказать, что даже при максимально лояльных к избиркомам допущениям полученные в Саратове результаты статистически невероятны (если мы предположим, что на самом деле вероятность голосования за Единую Россию в целом по городу не 62,2%, а меньше или больше, или если мы предположим, что между отдельными избирательными участками есть фундаментальные различия по составу электората, наша оценка вероятности попадания результата ЕР на конкретном участке в 62,2%, а точнее в диапазон 62,135%-62,245%, резко упадет). Вероятность (попадания точно в 62,2%) на уровне 4,5%, которая у нас посчиталась выше, - это максимально возможная, максимально лояльная к избиркомам оценка.
Итак, если в городе (районе, группе избирательных участков) за Единую Россию в среднем голосует 62,2%, то на участке с 1340 избирателями вероятность попадания результата (с точностью до десятых процента) в 62,2% составляет 4,5%. А вот на участке с 1341 избирателями вероятность такого попадания уже составляет всего лишь 2,2% - потому что в искомый диапазон попадает уже не 2 числа (833 и 834), а только одно (834). Если взять официальные данные по количеству проголосовавших по каждому из 107 прославившихся участков (а там по официальным цифрам голосовало от 550 до 1922 человек на каждом участке), то в среднем по этим участкам вероятность попадания результата ЕР в диапазон от 62,135% до 62,245% составляет 3,4% (разброс от 1,9% до 5,3%)
На картинке показано распределение саратовских участков по явке - с группировкой по "бинам" шириной в 0,1%. И для сравнения синенький холмик - распределение, которое должно было получиться, если бы все участки Саратова были бы примерно одинаковые, и различия между ними носили случайный характер (в реальности, с учетом экономических и социальных различий между районами города, "холмик" должен был бы быть еще более низким и широким)

Выше мы посчитали по отдельным участкам. А чтобы от этого перейти к оценке вероятности в целом по Саратову, мы смоделируем еще одно биномиальное распределение. В первом распределении у нас исходом было голосование или неголосование конкретного избирателя за Единую Россию. Во втором распределении таким исходом уже является попадание или непопадание результата ЕР на конкретном участке в 62,2%. Участков в Саратове 346, из них на 107 участках результат Единой России составил от 62,136% до 62,245%, вероятность попадания участка в этот диапазон в среднем 3,4%. При такой вероятности подобных участков должно было бы быть в Саратове около 12. А их оказалось 107! 95 сверхнормативных попаданий. Эксель даже не может посчитать вероятность такого "везения" - в какой-то момент он округляет до нуля. Но эксель может посчитать, что вероятность 10 и более попаданий сверх нормы (22 УИКа и более) составляет 0,4%, вероятность 20 попаданий сверх нормы уже в 9300 раз меньше - только 0,000045% (1 раз на 2,2 миллиона голосований). Максимум, что может посчитать эксель - 46 попаданий из 346: вероятность 1 на 180 триллионов. Дальше можно только примерно оценивать - для 107 попаданий у меня получилась вероятность примерно 10 в степени -44. Примерно как если бы в рулетке одно и то же число выпало 28 раз подряд. Вот у единоросов в Саратове точно такая же феноменальная стабильность и везение
Еще раз: вероятность того, что популярность в Саратове результата ЕР 62,2% получилась случайно (а не в результате рисования цифр) составляет не более 10-44
А вещь еще в Саратове было 35 участков, где результат Единой России чуть больше 62,2% - от 62,25% до 62,40%. Таких 35 участков. Вероятность, что эти 35 участков скучковались случайно, - 0,0001% или 1 случай на 945 тысяч. Так что математически фальсификации в Саратове доказываются даже не на 107 участках, а как минимум на 142 участках - это почти половина города.
P.S. Спасибо заинтересованному читателю, который не поленился продублировать мои расчеты. Похоже, что я сильно завысил вероятность саратовского совпадения. Для 107 участков вероятность совпадения получается не 10-44, а видимо что-то около 10-70 или 10-80
</sup>


предыдущий рекорд от 1982 года (мой последний дошкольный год :) был превзойден уже в 6 утра
(кросспост в ФБ - https://www.facebook.com/notes/boris-ovchinnikov/про-активного-гражданина/10153191256792304)
Попробовал собрать воедино информацию и аргументацию относительно реальной посещаемости проекта «Активный Гражданин». Внимание к цифрам это проекта в начале недели было привлечено удивительно высокими цифрами количества проголосовавших по вопросу о переименовании станции метро Войковская (http://ag.mos.ru/poll/view/1428)
Итак, что мы знаем: