?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Шерсти клок - на 90 тысяч строк
barouh
От путинской затеи с видеокамерами на участках получился любопытный "клок шерсти" (ну помимо некоторого количества видеороликов разной степени пристойности и криминальности): по моей наводке добрые (и умные) люди выкачали с сайта webvybory.ru весь массив данных по адресам и геокоординатам участков, на которых были установлены камеры

Всего - более 91 тысячи участков!

Надо сказать, что до сих пор в распоряжении исследователей не было единого массива данных по адресам участков. Приходилось рыскать в поисках разрозненных данных по отдельным регионам и районам. Теперь же - ура - есть единый массив. С этими данными можно строить много всякой новой аналитики, включая сравнение городов, больших сел и мелких деревень, анализ различий в голосовании между пригородами и "медвежьими углами" и так далее

Более того, насколько я понимаю, выкачанный с циковского сайта массив - это вообще едва ли не самый подробный (из публично доступных) массив данных по географии населения (взрослого населения, если быть точным). Например, можно построить "рейтинг" из более чем 5500 населенных пунктов, в которых было образовано более чем по 1 избирательному участку (т.е. в которых проживает более чем по 3 тысячи избирателей)

А еще было бы здорово найти добровольцев, которые бы сделали гео-машап - наложение результатов выборов на Яндекс.Карты. Любопытный сервис получился бы

  • 1

Re: Насколько я себе представляю

Информация об улицах и номерах домов есть в других местах, нестандартизированная и только по отдельным регионам (напр. Москва)

По полигоны - надо учитывать, что площадь участков и "плотность" сетки участков очень сильно отличаются даже в пределах одного города. А тем более в сельской местности
К тому же, в городах часто два, а то и больше участков, располагаются в одной точке

Имхо, полигоны - это лишнее. Достаточно столбиков, пропорциональных проценту голосов, или кружочков разного цвета с площадью, пропорциональной количеству избирателей

Re: Насколько я себе представляю

Боюсь из этой идеи мало что получится, яндекс-карты по многим не очень крупным населенным пунктам просто не имеют детализации по улицам. Например в Тверской области около 40 населенных пунктов с 2 и более УИК, но детализация по улицам есть на яндекс.карты есть только по Твери. Доходит до того, что приходится добывать карты из туристических брошюр чтобы только составить карту по результатам выборов в небольшом городе из 20-30 уик

Re: Насколько я себе представляю

Так координаты участков уже есть в избиркомовском массиве - т.е. привязку можно делать не по адресу, а просто по долготе-широте


Re: Насколько я себе представляю

Центры избирательных участков ничего не дают, нужны именно полигоны. Зачастую так бывает, что в одной школе 3-4 УИК, притом что территории некоторых из них совешенно не соответствуют их центру

Re: Насколько я себе представляю

Данных по составу участков у нас все равно единым массивом нет. Есть лишь по отдельным регионам - и там замучаешься приводить к единому стандарту и совмещать с Яндексом (в котором, как мы помним, улицы и дома тоже есть далеко не по всем городам, даже не по всем областным центрам)

А если рисовать полигоны гипотетически, исходя из расстояния между участками, то при наличии нескольких участков в одной точке мы получим совсем кривую картинку - поскольку нельзя аналитически понять, какой из 2 совпадающих участков "слева" на карте, а какой "справа"

Re: Насколько я себе представляю

> По полигоны - надо учитывать, что площадь участков и "плотность" сетки участков очень сильно отличаются даже в пределах одного города.

Это не проблема. Полигоны нужно строить в пределах административной единицы, границы которой участки не пересекают (района?). Также следует вычесть незаселенные территории (водные поверхности, леса и пр.). Можно ограничить макс. расстояние от дорожной сети. Вроде бы все эти данные есть в OSM.

> Имхо, полигоны - это лишнее.

Полигоны полезны не столько для визуализации, сколько для анализа. Слишком большая разница между соседними участками должна вызывать подозрение или нуждаться в объяснении. Зная соседство участков, разницу можно проверить простым запросом и сразу для всей страны.

> Достаточно столбиков, пропорциональных проценту голосов, или кружочков разного цвета с площадью, пропорциональной количеству избирателей

Столбики и прочие картодиаграмы хорошо работают пока их на карте не много, штук двадцать. В одной Москве участков наверно тысячи. Тут лучше работает либо цвет, либо много-много простых символов. Еще есть такой способ -- нарисовать для каждого участка розу ветров присвоив каждому кандидату свое направление и отложив по нему число голосов. Такие карты довольно-таки читаемы.

> Информация об улицах и номерах домов есть в других местах, нестандартизированная и только по отдельным регионам (напр. Москва)

А у вас ссылочки не будет? Извлечение адресов может оказаться проще, чем кажется.

Re: Насколько я себе представляю

1. Вопрос чайника - что такое OSM?
И тут надо ведь исключать не только воду и леса, но и промзоны, парки и т.п.
Я не спорю, что это можно сделать - но это потребует куда больших временных усилий, чем реализация варианта с точками

2. Предполагаемое соседство участков (именно предполагаемое - поскольку мы не знаем точной конфигурации, да и вопрос, что считать соседством - например, считать ли соседними два участка, разделенные большой автомагистралью или железной дорогой) представляется мне менее надежной характеристикой, чем расстояние между участками. При этом расстояние уже известно, а соседство еще надо рассчитывать и проверять

3. Что столбики и ко наглядны только при небольшом количестве объектов - согласен. Да, цветные кружки нагляднее
В любом случае карты по участкам интересны не столько в масштабе страны или Москвы, сколько в масштабе ТИКов. То есть как правило это десятки участков. В исключительных случаях (города-миллионники) - несколько сотен участков

4. Пример по Москве: http://mosgorizbirkom.ru/list-Inside-doc-WholePage.aspx?RgmFolderID=0ca2051d-085f-4228-b283-af0b0b582c3c
Если посмотреть внимательно, то можно увидеть, что даже в пределах Москвы в разных округах разный формат записи адресов

По другим регионам в лучшем случае на сайте регионального избиркома есть zip, в который собраны отдельными файлами (в разных форматах) описания участков по ТИКам, каждый ТИК - отдельный файл
В худшем случае надо искать данные по сайтам местных администраций и СМИ - и в этом случае списки участков с большой вероятностью находятся только по областным центрам

Re: Насколько я себе представляю

> 1. Вопрос чайника - что такое OSM?

OSM=OpenStreetMap, http://www.openstreetmap.org/index.html?lat=56.91&lon=42.2&zoom=6

> И тут надо ведь исключать не только воду и леса, но и промзоны, парки и т.п.

В OSM десятка полтора видов земплепользования. Чтобы увидеть полный список кликните на "Map Key" в левой колонке на странице ОСМ.

> Я не спорю, что это можно сделать - но это потребует куда больших временных усилий, чем реализация варианта с точками

Несильно больших -- в обычной ГИС типа GRASS или ArcGIS построить полигоны, а потом вычесть из них землепользование это примерно 3 команды.

> 2. Предполагаемое соседство участков представляется мне менее надежной характеристикой, чем расстояние между участками.

По хорошему с случае с выборами надо исследовать и то, и другое. Построение зависимости между разницей показателя от удаленности предполагает определенную гладкость (отсутствие "скачков", "гребней", и пр.) поверхности показателя. В случае же выборов мы имеем смешанную ситуацию: в пределах некоторых территорий показатели будут вполне гладко меняться, а потом будут всякие скачки обычно там, где сильно меняется социальный состав населения. При исследовании же соседства такие места буду хорошо заметны.

Потом с расстоянием еще есть некоторые проблемы. Иногда близкие на карте районы оказываются очень мало связаны, пример в Москве -- Курьяново и Каширка. Т.е. использовать расстояние по дорожной сети может иметь больше смысла, чем расстояния по прямой.

> В любом случае карты по участкам интересны не столько в масштабе страны или Москвы, сколько в масштабе ТИКов.

А еще более интересны они на границах ТИКов чтобы понять как и почему разнятся результаты близких ТИКов.

> 4. Пример по Москве: http://mosgorizbirkom.ru/list-Inside-doc-WholePage.aspx?RgmFolderID=0ca2051d-085f-4228-b283-af0b0b582c3c Если посмотреть внимательно, то можно увидеть, что даже в пределах Москвы в разных округах разный формат записи адресов

Спасибо! Piece оf cake! Я там заметил 3 системы привязки -- по улице-дому-корпусу, по корпусу в Зеленограде, и (редко) по названию учреждения. Программа разборки списка адресов на Перле или Питоне уложится ну строк в 20 от силы. OSM по Москве содержит контуры зданий с номерами и корпусами. Т.е., построить границы участков по Москве работы примерно на день.

Re: Насколько я себе представляю

LiveJournal только что съел мой длинный ответ. Если коротко:

к 1. OSM=OpenStreetMap, и там есть много полезных данных, в т.ч. по воде/лесу/промзонам и пр.

к 2. С расстоянием проблем не меньше, чем с соседством, надо смотреть и то, и другое

к 4. На сайте избиркома достаточно информации, чтобы построить границы УИКов в Москве совместив эту информацию с OSM.

Re: Насколько я себе представляю

прежде чем съесть длинный ответ, LJ успел прислать мне сообщение с его текстом. Но потом и сам коммент восстановился - см. http://barouh.livejournal.com/402630.html?thread=705990#t705990

Edited at 2012-03-19 12:24 pm (UTC)

Re: Насколько я себе представляю

видимо, это какая-то система модерации, но вроде бы все мои комментарии видны

Re: Насколько я себе представляю

Это типа защита от спама - автоматическое определение "подозрительных" комментариев. Не знаю, как у других, у меня она работает очень криво - отсекает вполне нормальные комментарии. И при этом судьба этих подозрительных комментариев неочевидна ни для меня, ни для их авторов

Re: Насколько я себе представляю

а. Про OSM понял. Правда, на нашел там на сайте map key - но это наверное детали

б. Понятно, что рассчитать полигоны - это вполне внятная и вменяемая задача. Но при этом мне кажется, что куда больше времени и усилий понадобится для проверки (через анализ отдельных территорий) того, насколько адекватными получатся результаты

в. Надо еще учитывать, что принципы построения полигонов должны быть разными для разных типов поселений: в городах, где несколько избирательных участков и где известны как границы города, так и разбивка по видам землепользования, один алгоритм; а в сельской местности, где каждый участок может включать несколько деревень, нужны уже видимо другие критерии
(в связи с этим вопрос: я правильно понимаю, что для сельской местности в OSM есть только границы сельских поселений, координаты - но не границы некоторых деревень и уличная сетка более крупных поселений? Сужу по http://www.openstreetmap.org/?lat=56.9624376296997&lon=37.5810527801514&zoom=13 - району своей дачи)

г. В любом случае применительно к расчету полигонов есть большая проблема, что делать с УИКами, имеющими общий адрес для голосования (т.е. для ситуаций, когда у нас несколько точек имеют одинаковые координаты)
Считать общий полигон для этих участков и суммарные результаты выборов по ним?

е. При всем вышеобозначенном скепсисе, если кто-то попытается посчитать полигоны - будет здорово и интересно. Я готов помогать-участвовать в плане адаптации данных по участкам и по результатам выборов

ж. Точно также будет здорово, если кто-нибудь "отрисует" результаты выборов разноцветными точками - мне по-прежнему это кажется самым простым и быстрым вариантом, который при этом не отменяет остальные

з. Мне не понятно, почему полигоны (и соседство) лучше для анализ контрастов между близлежащими участками, чем просто расстояния?

и. Про учет преград и расчет расстояний по дорогам - насколько я понимаю, адекватно посчитать расстояния по дороге можно будет только для некоторых крупных городов. Более того, и в этих случаях есть существенные подводные камни типа того, что участки часто располагаются в глубине кварталов (и официальная автомобильная дорога может быть на порядок длиннее пешего маршрута) и что дорога может быть как связывающим элементом, так и - в случае больших магистралей - естественной границей

к. Про отрисовку границ участков по спискам домов - это просто еще один вариант, не заменяющий первые два (расчетные полигоны и точки), но позволяющий получить более точную картинку по отдельным территориям
Если кто-то сделает такую разбивку для Москвы, то с удовольствием включусь в процесс, в т.ч. с точки зрения поиска данных по другим городам

Re: Насколько я себе представляю

Я построил полигоны для Москвы, shp файл и картинка в этой директории: http://sorokine.info/vorvybory/ Хотел было покрасить по результатам выборов, однако не смог связать результаты по УИКам (отсюда http://people.apache.org/~shade/articles/elections2011/) с координатам УИКов (отсюда http://gis-lab.info/qa/webvybory2012.html). Там в таблице есть какой-то 14-значный код УИКа, но я так и не разобрался что с ним делать. Если где-то есть координаты мест голосования с результатами по УИКam в одной таблице, то такую карту можно считать построенной.

Что касается полигонов vs расстояний vs реальных границ участков, то тут всегда приходится делать компромисс между доступностью данных, трудоемкостью, и огрехами метода. Полигоны построить проще всего и хорошо понятно какие с ними проблемы. Ясно, что будут случаи, когда они не работают как в сельской или горной местности. При ста тысячах точек проверить правильность каждого полигона просто не реально. Значит надо искать сильно выпадающие случаи и смотреть что там происходит.

В случае одной точки голосования для нескольких УИКов их результаты следует суммировать (при использовании полигонов). На ГИС-лабе есть программа, которая их слегка раздвигает, но в таком виде они годны только для визуализации. Этой проблемы не будет если использовать реальные границы участков.

С расстояниями проблема такая: мы заранее знаем, что в распределении голосов есть резкие границы (например, между разными по составу населения территориями). Однако, мы не знаем где эти границы проходят когда мы считаем расстояния. В принципе можно (и нужно) пробовать разные комбинации административных единиц, разные макс. расстояния и пр. Однако, это все требует времени.

Re: Насколько я себе представляю

1. Картину посмотрел. Здорово. Я правильно понимаю, что там показаны участки не только Москвы, но и ближнего Подмосковья (попадающие в этот же прямоугольник?)
1а. А почему один кусок на карте пустой? (кажется, это Преображенский район)
1б. На картинке есть "жирные" крестики - или несколько крестиков, налезающих друг на друга. Это участки в одном здании, которые пока условно разнесены в пространстве?
1в. Данные о землепользовании вы не использовали, я правильно понимаю? Их тяжело добавить? Их нет в нужном качестве?
1г. По картинке хорошо видны промзоны и парки - и видно, что почти всегда они пририсовываются большим аппендиксом к помещению для голосования, которое расположено в самом углу таких "мегаучастков". То есть получается, что можно "математически" исключить незаселенные территории - просто сказав, что радиус участка не может быть например больше расстояния от ближайшего участка (или полутора расстояний, или что угловые точки не могут быть дальше 1,5 расстояний от соседнего участка). ИМХО, если это можно реализовать - и картинка сразу станет красивее, и "соседства" будут ловиться проще

2. Скажите e-mail (или напишите на b-ovchinnikov -at- yandex.ru) - я пришлю файл с результатами и координатами. Сразу вопросы: пока интересует только Москва или можно сразу все регионы? И удобнее абсолютные цифры (количество голосов) или процентные значения за кандидатов? xls годится - или нужен текстовый файл?

3. Как я понимаю, для Москвы у вас был файл с границами города. А по другим городам аналогичные данные есть?
Просто если технология есть (а она уже проклевывается), то хочется иметь возможность быстро рисовать аналогичные картинки и по другим городам (и не только городам)

4. Про резкие границы в распределении голосов - на самом деле, я таких резких границ внутри городов не замечал. Если не брать больницы-СИЗО-общежития, а также военные части и участки на вокзалах, то в целом электоральная география достаточно "плавная". И скорее можно говорить не о резких границах, а о выбивающихся случаях (для примера - в моих краях такой случай это участок из "сталинского" квартала на набережной Яузы у Электрозаводской, который голосует не как другие участки дальнего конца Басманного района, а как участки в черте Садового кольца)

  • 1