?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Шерсти клок - на 90 тысяч строк
barouh
От путинской затеи с видеокамерами на участках получился любопытный "клок шерсти" (ну помимо некоторого количества видеороликов разной степени пристойности и криминальности): по моей наводке добрые (и умные) люди выкачали с сайта webvybory.ru весь массив данных по адресам и геокоординатам участков, на которых были установлены камеры

Всего - более 91 тысячи участков!

Надо сказать, что до сих пор в распоряжении исследователей не было единого массива данных по адресам участков. Приходилось рыскать в поисках разрозненных данных по отдельным регионам и районам. Теперь же - ура - есть единый массив. С этими данными можно строить много всякой новой аналитики, включая сравнение городов, больших сел и мелких деревень, анализ различий в голосовании между пригородами и "медвежьими углами" и так далее

Более того, насколько я понимаю, выкачанный с циковского сайта массив - это вообще едва ли не самый подробный (из публично доступных) массив данных по географии населения (взрослого населения, если быть точным). Например, можно построить "рейтинг" из более чем 5500 населенных пунктов, в которых было образовано более чем по 1 избирательному участку (т.е. в которых проживает более чем по 3 тысячи избирателей)

А еще было бы здорово найти добровольцев, которые бы сделали гео-машап - наложение результатов выборов на Яндекс.Карты. Любопытный сервис получился бы

  • 1

Re: Насколько я себе представляю

Исходные данные были такие:

места для голосования отсюда http://gis-lab.info/qa/webvybory2012.html (версия для PostGIS)

границы адм. единиц внутри Москвы отсюда: http://gis-lab.info/data/yav/adm/latest/adm8_municipal.7z (линк со страницы http://gis-lab.info/qa/osm-adm.html ) Это производная OSM.

> Я правильно понимаю, что там показаны участки не только Москвы, но и ближнего Подмосковья (попадающие в этот же прямоугольник?)

Я отбирал территории, принадлежащие Москве, по коду OKTMO с цифрами 301-398 и 901-927 на позициях с 3 по 5. Я не знаю, что обозначают эти цифры, но на Москву получилось похоже, хотя может и не все правильно. Вот скрипт для GRASS, который эту карту строит: http://sorokine.info/vorvybory/vormoskva.grass.sh Он сперва выдергивает одну административную единицу; затем выбирает точки мест голосования, которые в нее попадают; потом строит полигоны только для этих точек; потом врезает полигоны в границе адм. единицы; ну и в конце собирает их в одну карту.

> 1а. А почему один кусок на карте пустой? (кажется, это Преображенский район)

Это ошибка топологии в исходном слое границ. Ее легко исправить.

> 1б. На картинке есть "жирные" крестики - или несколько крестиков, налезающих друг на друга. Это участки в одном здании, которые пока условно разнесены в пространстве?

точно нет, видимо это эффект от нескольких очень близких крестиков

> 1в. Данные о землепользовании вы не использовали, я правильно понимаю?

нет, не использовал

> Их тяжело добавить? Их нет в нужном качестве?

Это нужно изучать содержимое OSM. Какие-то данные на эту тему в ней есть, но надо разбираться.

> 1г. По картинке хорошо видны промзоны и парки - и видно, что почти всегда они пририсовываются большим аппендиксом к помещению для голосования, которое расположено в самом углу таких "мегаучастков". То есть получается, что можно "математически" исключить незаселенные территории - просто сказав, что радиус участка не может быть например больше расстояния от ближайшего участка (или полутора расстояний, или что угловые точки не могут быть дальше 1,5 расстояний от соседнего участка). ИМХО, если это можно реализовать - и картинка сразу станет красивее, и "соседства" будут ловиться проще

У меня есть еще побочный продукт построения полигонов в виде их центройдов (не показаны на карте). Расстояние от центройда до места голосования тоже может быть хорошим показателем.

> 2. Скажите e-mail (или напишите на b-ovchinnikov -at- yandex.ru) - я пришлю файл с результатами и координатами.Муниципальные районы и городские округа

спасибо, напишу

> 3. Как я понимаю, для Москвы у вас был файл с границами города. А по другим городам аналогичные данные есть?

на ГИС-лабе есть границы по Москве и Питеру плюс некий слой под названием "Муниципальные районы и городские округа" (на http://gis-lab.info/qa/osm-adm.html ), что в не не знаю.

Re: Насколько я себе представляю

Письмо жду

Про показ Москвы и не Москвы - я спрашивал не про границы города (они кажется показаны правильно), а про показанные участки: таме много "крестиков" за пределами административных границ города

Про центроиды: может быть, можно попробовать и так посчитать. Вам виднее

Глянул бегло слой под названием "Муниципальные районы и городские округа" - насколько я понимаю, там границы всех муниципальных образований (районов и городов), при этом нет границ районов внутри города. Но если на примере Москвы научиться через максимальный радиус или расстояние до центроидов научиться обрезать нежилые районы, наверное можно будет строить вполне адекватные карты по другим городам просто исходя из общих границ города

Re: Насколько я себе представляю

Есть кое-какие результаты. Я пока детали не проверял, могут быть ошибки, но в целом картина имеет смысл. Файлы для QGIS и несколько карт находятся здесь: http://sorokine.info/vorvybory/pres2012vormoskva0328/ Для работы с QGIS надо все файлы сгрузить в одну директорию и открыть pres2012vormoskva-shp.qgs По идее должно работать.

Готовые карты:

prc_voted.pdf процент проголосовавших от числа всех зарегистрированных

prc_*.pdf процент голосов за каждого из кандидатов с адаптивной цветовой шкалой. Сразу бросилось в глаза, что для Путина, Жириновского, и Прохорова хорошо видна зависимость от района. Для Миронова такой зависимости не видно, но оно и понятно т.к. его результаты на грани погрешности. Однако почему такая пестрая карта у Зюганова при его высоком результате я не понимаю.

uiks-per-poly.pdf колчество УИКов на полигон. Полигоны с очень большом числом УИКов есть следствие ошибок в данных и обработке, буду разбираться.

про первые результаты

ух, здорово

Я пока не стал это "рекламировать" - потому что если получится это причесать в ближайшее время, то лучше наверное в широкую циркуляцию пускать уже в причесанном виде

И я посмотрел только картинки - "внутрь" не влезал

Теперь про конкретику:
(1) я смотрел количество участков с совпадающими координатами И адресами - максимум по Москве 5 участков в одной точке, и таких два случая на всю Москву. Все остальное - это или ошибки разбора данных и "полигонизации", или отсутствие в исходном массиве точных данных по координатам: в некоторых районах часть участков (или даже все участки) записывались скопом на одну условную точку (географический центр района). Как это "лечить" - не знаю. Вручную добавлять координаты участков с неточными координатами?
(2) еще забыл предупредить, что в некоторых случаях для участков, находящихся в одном здании, указывались разные координаты (отличающиеся четвертым-пятым знаком после запятой). Т.е. видимо они точно замеряли координаты одного и другого крыла школы - но понятно, что расположение точек голосования относительно друг друга ничего не говорит о расположении соответствующих "полигонов" относительно друг друга. Тут для исправления надо или суммировать не только участки с одинаковыми координатами, но и участки с одинаковыми адресами. Или округлять координаты (до скольких знаков после запятой - сейчас точно не помню), хотя последнее поможет лишь отчасти: разница в координатах между двумя крыльями одного здания и двумя соседними зданиями может быть одного порядка
(3) про визуальную сторону - а почему пропорции Москвы искажены? она как бы сплюснута. Это сильно мешает восприятию
(4) а еще восприятию мешают точки участков за пределами административных границ города - их нельзя убрать/отфильтровать?
(5) на путинском графике для максимальных значений заливка участков и границы участков сливаются - так что получается ощущение одного большого темного района, а не многих небольших одноцветных
(6) как определяется границы цветов? сложный алгоритм? задается вручную? (кстати, пестрость графика Зюганова возможно объясняется тем, что у него действительно достаточно равномерная поддержка по городу, а узость отдельных цветовых диапазонов приводит к достаточно большой степени случайности в попадании участка в одну или другую цветовую градацию
(7) есть участки, по которым нули у всех, включая Путина. Например, между Ярославской и Лосиным Островом. Это надо проверять

p.s.(8) в градации не должен использоваться белый цвет - должно быть разделение между цветом "пустоты" (отсутствия данных, участков в нулевыми данными) и низкими результатам

Я много написал на тему "как должно быть". Я увы не готов это все делать сам - но если есть конкретные вещи, по которым я могу помочь, то я готов участвовать в доводке

Edited at 2012-03-29 08:54 pm (UTC)

  • 1