?

Log in

No account? Create an account

Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Шерсти клок - на 90 тысяч строк
barouh
От путинской затеи с видеокамерами на участках получился любопытный "клок шерсти" (ну помимо некоторого количества видеороликов разной степени пристойности и криминальности): по моей наводке добрые (и умные) люди выкачали с сайта webvybory.ru весь массив данных по адресам и геокоординатам участков, на которых были установлены камеры

Всего - более 91 тысячи участков!

Надо сказать, что до сих пор в распоряжении исследователей не было единого массива данных по адресам участков. Приходилось рыскать в поисках разрозненных данных по отдельным регионам и районам. Теперь же - ура - есть единый массив. С этими данными можно строить много всякой новой аналитики, включая сравнение городов, больших сел и мелких деревень, анализ различий в голосовании между пригородами и "медвежьими углами" и так далее

Более того, насколько я понимаю, выкачанный с циковского сайта массив - это вообще едва ли не самый подробный (из публично доступных) массив данных по географии населения (взрослого населения, если быть точным). Например, можно построить "рейтинг" из более чем 5500 населенных пунктов, в которых было образовано более чем по 1 избирательному участку (т.е. в которых проживает более чем по 3 тысячи избирателей)

А еще было бы здорово найти добровольцев, которые бы сделали гео-машап - наложение результатов выборов на Яндекс.Карты. Любопытный сервис получился бы

  • 1

Re: Насколько я себе представляю

Границ участков нет - есть только координаты точек (помещений доя голосования). Притом координаты иногда неправильные, а иногда всю кучу участков в небоьшом городке привязывают к одной условной точке

Просто нарисовать 90 тысяч столбиков имхо неинтересно. Если делать, то с простым суженипм карты до региона, района или населенного пункта

Re: Насколько я себе представляю

Вокруг точек участков можно построить полигоны Вороного и их закрасить в разные цвета. Это даст визуально правильную картину на масштабе слекга мельче участка.

Если есть информация об улицах и номерах домов, которые входят в участок, то их можно совместить с OpenStreetMap и таким образом синтерполировать границы участка.

Re: Насколько я себе представляю

Информация об улицах и номерах домов есть в других местах, нестандартизированная и только по отдельным регионам (напр. Москва)

По полигоны - надо учитывать, что площадь участков и "плотность" сетки участков очень сильно отличаются даже в пределах одного города. А тем более в сельской местности
К тому же, в городах часто два, а то и больше участков, располагаются в одной точке

Имхо, полигоны - это лишнее. Достаточно столбиков, пропорциональных проценту голосов, или кружочков разного цвета с площадью, пропорциональной количеству избирателей

Re: Насколько я себе представляю

Боюсь из этой идеи мало что получится, яндекс-карты по многим не очень крупным населенным пунктам просто не имеют детализации по улицам. Например в Тверской области около 40 населенных пунктов с 2 и более УИК, но детализация по улицам есть на яндекс.карты есть только по Твери. Доходит до того, что приходится добывать карты из туристических брошюр чтобы только составить карту по результатам выборов в небольшом городе из 20-30 уик

Re: Насколько я себе представляю

Так координаты участков уже есть в избиркомовском массиве - т.е. привязку можно делать не по адресу, а просто по долготе-широте


Re: Насколько я себе представляю

Центры избирательных участков ничего не дают, нужны именно полигоны. Зачастую так бывает, что в одной школе 3-4 УИК, притом что территории некоторых из них совешенно не соответствуют их центру

Re: Насколько я себе представляю

Данных по составу участков у нас все равно единым массивом нет. Есть лишь по отдельным регионам - и там замучаешься приводить к единому стандарту и совмещать с Яндексом (в котором, как мы помним, улицы и дома тоже есть далеко не по всем городам, даже не по всем областным центрам)

А если рисовать полигоны гипотетически, исходя из расстояния между участками, то при наличии нескольких участков в одной точке мы получим совсем кривую картинку - поскольку нельзя аналитически понять, какой из 2 совпадающих участков "слева" на карте, а какой "справа"

Re: Насколько я себе представляю

> По полигоны - надо учитывать, что площадь участков и "плотность" сетки участков очень сильно отличаются даже в пределах одного города.

Это не проблема. Полигоны нужно строить в пределах административной единицы, границы которой участки не пересекают (района?). Также следует вычесть незаселенные территории (водные поверхности, леса и пр.). Можно ограничить макс. расстояние от дорожной сети. Вроде бы все эти данные есть в OSM.

> Имхо, полигоны - это лишнее.

Полигоны полезны не столько для визуализации, сколько для анализа. Слишком большая разница между соседними участками должна вызывать подозрение или нуждаться в объяснении. Зная соседство участков, разницу можно проверить простым запросом и сразу для всей страны.

> Достаточно столбиков, пропорциональных проценту голосов, или кружочков разного цвета с площадью, пропорциональной количеству избирателей

Столбики и прочие картодиаграмы хорошо работают пока их на карте не много, штук двадцать. В одной Москве участков наверно тысячи. Тут лучше работает либо цвет, либо много-много простых символов. Еще есть такой способ -- нарисовать для каждого участка розу ветров присвоив каждому кандидату свое направление и отложив по нему число голосов. Такие карты довольно-таки читаемы.

> Информация об улицах и номерах домов есть в других местах, нестандартизированная и только по отдельным регионам (напр. Москва)

А у вас ссылочки не будет? Извлечение адресов может оказаться проще, чем кажется.

Re: Насколько я себе представляю

1. Вопрос чайника - что такое OSM?
И тут надо ведь исключать не только воду и леса, но и промзоны, парки и т.п.
Я не спорю, что это можно сделать - но это потребует куда больших временных усилий, чем реализация варианта с точками

2. Предполагаемое соседство участков (именно предполагаемое - поскольку мы не знаем точной конфигурации, да и вопрос, что считать соседством - например, считать ли соседними два участка, разделенные большой автомагистралью или железной дорогой) представляется мне менее надежной характеристикой, чем расстояние между участками. При этом расстояние уже известно, а соседство еще надо рассчитывать и проверять

3. Что столбики и ко наглядны только при небольшом количестве объектов - согласен. Да, цветные кружки нагляднее
В любом случае карты по участкам интересны не столько в масштабе страны или Москвы, сколько в масштабе ТИКов. То есть как правило это десятки участков. В исключительных случаях (города-миллионники) - несколько сотен участков

4. Пример по Москве: http://mosgorizbirkom.ru/list-Inside-doc-WholePage.aspx?RgmFolderID=0ca2051d-085f-4228-b283-af0b0b582c3c
Если посмотреть внимательно, то можно увидеть, что даже в пределах Москвы в разных округах разный формат записи адресов

По другим регионам в лучшем случае на сайте регионального избиркома есть zip, в который собраны отдельными файлами (в разных форматах) описания участков по ТИКам, каждый ТИК - отдельный файл
В худшем случае надо искать данные по сайтам местных администраций и СМИ - и в этом случае списки участков с большой вероятностью находятся только по областным центрам

Re: Насколько я себе представляю

> 1. Вопрос чайника - что такое OSM?

OSM=OpenStreetMap, http://www.openstreetmap.org/index.html?lat=56.91&lon=42.2&zoom=6

> И тут надо ведь исключать не только воду и леса, но и промзоны, парки и т.п.

В OSM десятка полтора видов земплепользования. Чтобы увидеть полный список кликните на "Map Key" в левой колонке на странице ОСМ.

> Я не спорю, что это можно сделать - но это потребует куда больших временных усилий, чем реализация варианта с точками

Несильно больших -- в обычной ГИС типа GRASS или ArcGIS построить полигоны, а потом вычесть из них землепользование это примерно 3 команды.

> 2. Предполагаемое соседство участков представляется мне менее надежной характеристикой, чем расстояние между участками.

По хорошему с случае с выборами надо исследовать и то, и другое. Построение зависимости между разницей показателя от удаленности предполагает определенную гладкость (отсутствие "скачков", "гребней", и пр.) поверхности показателя. В случае же выборов мы имеем смешанную ситуацию: в пределах некоторых территорий показатели будут вполне гладко меняться, а потом будут всякие скачки обычно там, где сильно меняется социальный состав населения. При исследовании же соседства такие места буду хорошо заметны.

Потом с расстоянием еще есть некоторые проблемы. Иногда близкие на карте районы оказываются очень мало связаны, пример в Москве -- Курьяново и Каширка. Т.е. использовать расстояние по дорожной сети может иметь больше смысла, чем расстояния по прямой.

> В любом случае карты по участкам интересны не столько в масштабе страны или Москвы, сколько в масштабе ТИКов.

А еще более интересны они на границах ТИКов чтобы понять как и почему разнятся результаты близких ТИКов.

> 4. Пример по Москве: http://mosgorizbirkom.ru/list-Inside-doc-WholePage.aspx?RgmFolderID=0ca2051d-085f-4228-b283-af0b0b582c3c Если посмотреть внимательно, то можно увидеть, что даже в пределах Москвы в разных округах разный формат записи адресов

Спасибо! Piece оf cake! Я там заметил 3 системы привязки -- по улице-дому-корпусу, по корпусу в Зеленограде, и (редко) по названию учреждения. Программа разборки списка адресов на Перле или Питоне уложится ну строк в 20 от силы. OSM по Москве содержит контуры зданий с номерами и корпусами. Т.е., построить границы участков по Москве работы примерно на день.

Re: Насколько я себе представляю

LiveJournal только что съел мой длинный ответ. Если коротко:

к 1. OSM=OpenStreetMap, и там есть много полезных данных, в т.ч. по воде/лесу/промзонам и пр.

к 2. С расстоянием проблем не меньше, чем с соседством, надо смотреть и то, и другое

к 4. На сайте избиркома достаточно информации, чтобы построить границы УИКов в Москве совместив эту информацию с OSM.

Re: Насколько я себе представляю

прежде чем съесть длинный ответ, LJ успел прислать мне сообщение с его текстом. Но потом и сам коммент восстановился - см. http://barouh.livejournal.com/402630.html?thread=705990#t705990

Edited at 2012-03-19 12:24 pm (UTC)

Re: Насколько я себе представляю

видимо, это какая-то система модерации, но вроде бы все мои комментарии видны

Re: Насколько я себе представляю

а. Про OSM понял. Правда, на нашел там на сайте map key - но это наверное детали

б. Понятно, что рассчитать полигоны - это вполне внятная и вменяемая задача. Но при этом мне кажется, что куда больше времени и усилий понадобится для проверки (через анализ отдельных территорий) того, насколько адекватными получатся результаты

в. Надо еще учитывать, что принципы построения полигонов должны быть разными для разных типов поселений: в городах, где несколько избирательных участков и где известны как границы города, так и разбивка по видам землепользования, один алгоритм; а в сельской местности, где каждый участок может включать несколько деревень, нужны уже видимо другие критерии
(в связи с этим вопрос: я правильно понимаю, что для сельской местности в OSM есть только границы сельских поселений, координаты - но не границы некоторых деревень и уличная сетка более крупных поселений? Сужу по http://www.openstreetmap.org/?lat=56.9624376296997&lon=37.5810527801514&zoom=13 - району своей дачи)

г. В любом случае применительно к расчету полигонов есть большая проблема, что делать с УИКами, имеющими общий адрес для голосования (т.е. для ситуаций, когда у нас несколько точек имеют одинаковые координаты)
Считать общий полигон для этих участков и суммарные результаты выборов по ним?

е. При всем вышеобозначенном скепсисе, если кто-то попытается посчитать полигоны - будет здорово и интересно. Я готов помогать-участвовать в плане адаптации данных по участкам и по результатам выборов

ж. Точно также будет здорово, если кто-нибудь "отрисует" результаты выборов разноцветными точками - мне по-прежнему это кажется самым простым и быстрым вариантом, который при этом не отменяет остальные

з. Мне не понятно, почему полигоны (и соседство) лучше для анализ контрастов между близлежащими участками, чем просто расстояния?

и. Про учет преград и расчет расстояний по дорогам - насколько я понимаю, адекватно посчитать расстояния по дороге можно будет только для некоторых крупных городов. Более того, и в этих случаях есть существенные подводные камни типа того, что участки часто располагаются в глубине кварталов (и официальная автомобильная дорога может быть на порядок длиннее пешего маршрута) и что дорога может быть как связывающим элементом, так и - в случае больших магистралей - естественной границей

к. Про отрисовку границ участков по спискам домов - это просто еще один вариант, не заменяющий первые два (расчетные полигоны и точки), но позволяющий получить более точную картинку по отдельным территориям
Если кто-то сделает такую разбивку для Москвы, то с удовольствием включусь в процесс, в т.ч. с точки зрения поиска данных по другим городам

Re: Насколько я себе представляю

Я построил полигоны для Москвы, shp файл и картинка в этой директории: http://sorokine.info/vorvybory/ Хотел было покрасить по результатам выборов, однако не смог связать результаты по УИКам (отсюда http://people.apache.org/~shade/articles/elections2011/) с координатам УИКов (отсюда http://gis-lab.info/qa/webvybory2012.html). Там в таблице есть какой-то 14-значный код УИКа, но я так и не разобрался что с ним делать. Если где-то есть координаты мест голосования с результатами по УИКam в одной таблице, то такую карту можно считать построенной.

Что касается полигонов vs расстояний vs реальных границ участков, то тут всегда приходится делать компромисс между доступностью данных, трудоемкостью, и огрехами метода. Полигоны построить проще всего и хорошо понятно какие с ними проблемы. Ясно, что будут случаи, когда они не работают как в сельской или горной местности. При ста тысячах точек проверить правильность каждого полигона просто не реально. Значит надо искать сильно выпадающие случаи и смотреть что там происходит.

В случае одной точки голосования для нескольких УИКов их результаты следует суммировать (при использовании полигонов). На ГИС-лабе есть программа, которая их слегка раздвигает, но в таком виде они годны только для визуализации. Этой проблемы не будет если использовать реальные границы участков.

С расстояниями проблема такая: мы заранее знаем, что в распределении голосов есть резкие границы (например, между разными по составу населения территориями). Однако, мы не знаем где эти границы проходят когда мы считаем расстояния. В принципе можно (и нужно) пробовать разные комбинации административных единиц, разные макс. расстояния и пр. Однако, это все требует времени.

  • 1