Вялые Записки Скучного Человека

журнал Бориса Овчинникова

Previous Entry Share Next Entry
Как активный гражданин, напишу про "Активного гражданина"
barouh

(кросспост в ФБ - https://www.facebook.com/notes/boris-ovchinnikov/про-активного-гражданина/10153191256792304)

Попробовал собрать воедино информацию и аргументацию относительно реальной посещаемости проекта «Активный Гражданин». Внимание к цифрам это проекта в начале недели было привлечено удивительно высокими цифрами количества проголосовавших по вопросу о переименовании станции метро Войковская (http://ag.mos.ru/poll/view/1428)
Итак, что мы знаем:


  • За первый день (2 ноября) проголосовала (согласно данным, отображавшимся самим сервисом Активный Гражданин) 101 тысяча, за второй день еще 65 тысяч (данные https://vk.com/album-102586843_223467437). За 4 ноября и первую половину 5-го ноября – еще примерно 25 тысяч

  • Количество активных пользователей сервиса 2-3 ноября было в пределах стандартных значений, количество поданных голосов также не аномально – в истории сервиса неоднократно были голосования, по которым заявлялось количество проголосовавших более 200 и даже 400 тысяч

  • Посещаемость сайта ag.mos.ru составляет сотни тысяч посещений в месяц – сервис SimilarWeb (http://www.similarweb.com/website/ag.mos.ru#overview) дает оценки в диапазоне от 390 тысяч за июнь до 720 тысяч за сентябрь (данные за октябрь еще не опубликованы), что соответствует примерно 15-25 тысячам посещений в сутки

  • По данным Яндекс.Метрики (https://twitter.com/emoskva/status/661625449227943937), посещаемость сайта выше – на глазок я бы сказал, что в среднем 25-30 тысяч посетителей в сутки (а посещений еще чуть больше). 2 ноября, в первый день обуждаемого голосования, посещаемость заметно выросла – примерно до 75 тысяч. Рекорд месяца

  • При этом большая часть посещаемости приходится не на страницы голосований, а на стартовую страницу сайта и на каталог вознаграждений. Это видно и из собственной статистики проекта - https://twitter.com/emoskva/status/661625449227943937, и из статистики SimWeb - https://www.facebook.com/photo.php?fbid=10153711134223684. Леонид Волков приводит непонятно откуда полученный скриншот, по которому у самой страницы голосования по Войковской только 19 тысяч посещений в понедельник и менее 9 тысяч во вторник (http://www.leonidvolkov.ru/p/78/)

  • Оценки SimilarWeb не учитывают пользователей мобильных приложений проекта. При этом точно можно сказать, что у версии для Android сотни тысяч скачиваний (в Google Play указано «Installs 100,000 - 500,000» - https://play.google.com/store/apps/details?id=ru.mos.polls). Аналогичные независимые данные по приложению для iOS отсутствуют. Можно было бы предположить, что у версии для iOS в разы меньше установок (исходя из того, что в Москве в 2,5-3 раза больше пользователей Android – см. http://www.liveinternet.ru/stat/ru/oses.html?slice=msk – и того, что у iOS-приложения всего 78 оценок в AppStore против 14 тысяч оценок у аналога в Google Play). Однако твит @emoskva (https://twitter.com/emoskva/status/661565664763764736 ) показывает примерное равенство двух версий – в Google Play за все время 378 тысяч установок, в AppStore – 402 тысячи «единиц» (из скриншота непонятно, что это за «единицы»)

  • Всего у АГ около 1.2 млн регистраций (предположу, что под регистрация понимаются зарегистрированный номер мобильного телефона). См. тут: https://twitter.com/emoskva/status/662298482070437888

  • Из того же твита со скриншотом внутренней системы аналитики АГ видно, что количество активных пользователей (хотя бы раз за день зашли в систему) варьируется от 50 до 120 тысяч в сутки. При этом надо учитывать, что «активными пользователями» будут считаться и боты – если они есть в системе


В качестве интермедии я бы хотел выразить искреннюю и без всякого сарказма благодарность твиттер-аккаунту московского IT-департамента (https://twitter.com/emoskva). Представленные скриншоты и пояснения не снимают многих вопросов, но по крайней мере делают дискуссию предметной

А теперь о том, почему все равно трудно поверить в цифры, заявляемые в рамках проекта Активный гражданин

  1. 50-100 тысяч голосующих в сутки – это очень много. Такая активность была бы заметна не только в статистике самого проекта, но и по внешним источникам – разговорам людей, упоминаниям в социальных сетях, опросам. Для сравнения – в магазинах франчайзинговой сети Перекресток Экспресс в Москве и области в день совершается чуть более 100 тысяч покупок. В финале конкурса Голос.Дети было послано 700 тысяч SMS со всей страны (это при многомиллионной ТВ-аудитории). Полагаю, что при этом среди моих или ваших знакомых найти покупателей Перекресток Экспресс или участников голосования в Голос.Дети проще, чем найти голосовавших в Активном Гражданине до 2 ноября (дополнение от 07.11: признаю, что это самый слабый из аргументов - он основан на субъективных наблюдениях; но его слабость не отменяет те странности статистики, которые обсуждаются в следующих пунктах)

  2. Если верить цифрам АГ, то получается, что каждый день голосует 5-10% от всех когда либо зарегистрировавшихся в проекте. Люди, знакомые с созданием и продвижением мобильных приложений, подтвердят, что это фантастически высокий уровень активности. Большинство людей, установив приложение, или вообще его не открывают, или забрасывают уже через несколько дней. Например, у Uber в Штатах ежедневная аудитория (не заказывающие, а хотя бы открывающие приложение) составляет то ли 8%, то ли менее 5% от всех установивших приложение (https://www.quettra.com/blog/rise-of-uber-in-the-usa/). Трудно поверить, что у АГ аналогичный уровень активности

  3. Судя по данным Яндекс.Метрики (https://twitter.com/emoskva/status/661625449227943937), более двух третей месячной аудитории сайта – это новые, впервые пришедшие на сайт люди. Таких за месяц набралось 395 тысяч – по 13 тысяч в сутки. 2 ноября их было 45 тысяч. Подавляющее большинство из них не зарегистрированы в АГ – и соответственно не голосуют. Количество подаваемых через сайт голосов очевидно в разы меньше количества посетителей за сутки

  4. Даже если взять собственные цифры ДИТ по количеству активных пользователей – 119,5 тысяч за 2 ноября (данные за 3 ноября игнорирую, поскольку они могут быть за неполные сутки) – трудно их совместить с количеством проголосовавших (101 тысяча). Получается, что из всех зашедших в систему более 80% приняло участие в одном конкретном голосовании – а на все остальные варианты поведения (как то «зашел, но отвлекся и забыл проголосовать», «зашел, но не решил, как голосовать», «зашел, но не смог проголосовать» - а многие десктопные пользователи кстати жаловались на глюки и невозможность проголосовать, «зашел просто посмотреть статистику голосования», «зашел посмотреть каталог вознаграждений», «зашел принять участие в другом голосовании», «случайно запустил приложение», «страница автоматически открылась при переоткрытии браузера» и т.д.) остается менее 20%. Фантастическая конверсия заходов на сайт (или открытий приложения) в голосование

  5. Голосование по Войковской – первое за последнее время голосование в АГ, которое привлекло такое широкое внимание. Это видно и в статистике проекта: выросла примерно в 2 раза посещаемость сайта (см. ссылку в предыдущем пункте), резко улучшились позиции приложения в рейтинге Google Play (http://bit.ly/1kdGAq8), прирост общего количества регистраций с обычного для понедельников уровня в 1000-1500 в день скакнул до 9000 за 2 ноября. Но количество «активных пользователей» осталось на том же уровне, что и в предыдущие понедельники – когда никаких привлекающих внимание аудитории голосований не было. Наиболее вероятное объяснение этого феномена – количество голосов и «активных пользователей» рисуется с потолка, вне зависимости от реальной ситуации

  6. В данных по количеству проголосовавших прослеживается удивительно стабильный «уровень поддержки». Например, количество активных пользователей никогда (за период с 12 октября) не опускается ниже 50 тысяч – но очень часто оказывается чуть больше 50 тысяч. Например, по субботам всегда 53-54 тысячи пользователей – независимо от того, насколько высокой или низкой была активность накануне, в пятницу (а для пятниц при этом разброс большой - от 61 до 103 тысяч). 2 ноября, в первый день голосования по Войковской, вплоть до 10 вечера каждые 10 минут голосовало не менее чем по 900 человек (только в периоды технических проблем показатели были ниже). По 700-900 проголосовавших за 10 минут не было зафиксировано ни разу, зато в интервал от 922 до 970 проголосовавших за 6 часов (с 5 до 11 вечера) попало сразу 16 десятиминутных отрезков из 36. Тут аномально то, что количество проголосовавших за временной интервал легко «скачет» вверх относительно стандартного уровня, но никогда не опускается вниз. 3 ноября была аналогичная картина, только «пол» сократился аккурат в 2 раз – с 900 до 450 голосов за 10 минут.
    При естественном голосовании можно было бы ожидать одного из двух: если бы голосовали в основном постоянные пользователи АГ, то количество голосующих постепенно бы затухало: чем больше времени проходит с момента открытия голосования, тем меньше шансов, что найдется пользователь, который еще не проголосовал. Если же голосуют в основном «новички», привлеченные обсуждениями в соцсетях и СМИ, то тогда на графике мы должны были бы увидеть много резких всплесков разной амплитуды (совпадающие с временем публикации того или поста) и постепенно снижение после каждого всплеска. Но мы видим нечто третье - постоянный уровень голосования, который прерывается отдельными пиками, после которых количество голосующих быстро возвращается аккурат к прежнему «плато». Люди так себя не ведут, и интернетные медийные и вирусные эффекты так не работают.

  7. Кстати, о пиках. Помимо картинки с внутренней статистикой проекта (https://twitter.com/emoskva/status/661826439369629696 - к сожалению, показаны данные только за 3 ноября, но не за 2 ноября), есть еще цифры, собранные активистами движения против переименования Войковской (https://vk.com/album-102586843_223467437) – они каждые 10 минут дергали страницу голосования и вытаскивали оттуда цифры по голосованию. За 3 ноября данные двух источников примерно совпадают – за одним существенным исключением: по версии ДИТ, между 13.00 и 18.00 было три всплеска активности голосования, с пиками в 100-120, изредка до 140 голосов в минуту. В версии «провойковцев» пик был один, между 13:20 и 14:40, зато очень мощный – до 2-2,5 тысяч голосов за 10-минутные отрезки (200-250 в минуту). И я честно говоря не вижу аргументов, почему надо верить ДИТу, а не внешнему мониторингу «провойковцев».

  8. На протяжении всего голосования практически не меняются проценты голосов «за» и «против». По закону больших чисел это вполне возможно – проценты должны стабилизироваться уже на нескольких тысячах голосов. Но только при условии, что голосующие утром и голосующие вечером, голосующие в начале голосования и голосующие под влиянием поднявшегося в соцсетях и СМИ обсуждения – это примерно одинаковые люди. Но это условие вряд ли соблюдается – хотя бы в силу того, что посты в соцсетях должны «волнами» приводить людей то с одной позицией, то с другой. Был бы под рукой массив с данными по выборам КС оппозиции – сравнил бы, посмотрел бы, какая там была динамика у топовых кандидатов.

  9. Многие обратили внимание на то, что сумма округленных процентов голосов за 4 предложенных варианта ответа была то 97-98%, то 100%. При единых правилах округления (и подсчете цифр, а не их рисовании) такого быть не должно. Прозвучавшее объяснение – что сначала система показывала целые проценты, то есть округлялось в меньшую сторону, а потом прямо по ходу голосования поменяли на округление до ближайшего целого – теоретически может быть правдой. Хотя конечно удивляет, что данную нелогичность округления не заметили пользователи и не скорректировали разработчики во время предыдущих, якобы столь же популярных голосований



К сожалению, ситуация патовая – я не верю, что ДИТ пойдет на раскрытие информации по голосованию (включая как собственные статистические данные проекта, так и данные внешних измерений вроде Яндекс.Метрики) в том объеме, который способен снять подозрения в фальсификации. Отдельные скриншоты не могут быть убедительным доказательством чистоты статистики. Активный гражданин остается «черным ящиком», основные метрики которого – в первую очередь количество проголосовавших – невозможно проверить извне.
При этом речь же идет не только о том, действительно ли у Активного гражданина так много голосующих пользователей. Если есть основания (а они к сожалению есть) предполагать, что фальсифицировано количество поданных голосов, то это автоматом означает, что и результаты голосования могут фальсифицироваться – притом практически в неограниченном масштабе

Posts from This Journal by “фальсификации” Tag


  • 1
Прокомментирую сам себя:
представьте себе, что прошли некие выборы. Наблюдателей на участках не было, списки избирателей и заполненные бюллетени проверить нельзя, данные по отдельным участкам недоступны. При этом заявляется очень высокая явка – хотя судя по разговорам коллег и людей на улицах, эти выборы мало кому интересны. Окончательные результаты выборов с точностью до 1-2 процентов совпадают с теми, которые были оглашены предварительно после подсчета голосов по десятой части участков. В ответ на недоуменные вопросы оппозиции чиновники показывают фотографии людей на участках и статистику пешеходных потоков рядом с избирательными участками. Какие вы видете основания верить в то, что заявленные явка и результаты выборов соответствуют реальным? Я не вижу

(а еще можно вспомнить, что начальники ДИТа - то есть Собянин и ко - это как раз те люди, под началом которых в Москве состоялись масштабные фальсификации думских выборов)

>>>сумма округленных процентов голосов за 4 предложенных варианта ответа была то 97-98%, то 100%.

Есть скриншот, где сумма - 101%.

Если они стали округлять до ближайшего целого, то 101% - не криминал. Вот если бы до 102% разогнали, было бы круто :)

В моем понимании "до ближайшего" означает, что 36,4 округляется до 36, а 63,6 - до 64. На то они и ближайшие. Тогда 101% получиться не может.

То что вы подумали - это округление до следующего целого, но в нем как-то мало смысла, и я не слышал, чтобы таким округлением широко пользовались. Для денежных величин это иногда имеет смысл, для процентов - вряд ли.

Действительно. Спасибо, Рома.

Так там 4 слагаемых. Может быть 35.6, 50.6, 7.6 и 6.2. В сумме после округления 36+51+8+6=101 (а если число кратно 8, то и 102 может получиться - например 37.5 + 37.5 + 12.5 + 12.5)

Если я правильно понимаю, возможная ошибка при округлении (если не брать в расчет вариант с ровными половинами процента) составляет n/2-1, где n - количество альтернатив (долей, на которые делятся 100%)

Как-то была идея вычислить вероятности конкретных ошибок для разных случаев (геометрической интерпретацией это относительно просто сделать), руки не доходили.

Ага, или наоборот, чтобы получилась ошибка k, надо чтоб было 2k+1 долей. Например, чтобы при округлении до целых получилось 146%, теоретически достаточно 2*46+1 = 93 доли :)

А данные Алексы чо никто не приплетает?

Хотя по идее это 1001 аргумент, того что все и так поняли:(

А чего там Алекса показывает?
SimilarWeb и Webomer дают имхо более адекватные данные по России - и показывают больше данных
И в любом случае все они не считают мобильный трафик

АГ-, не АГ, а вот мне и всем LJ_Cut пожалуйста удобнее будет, iyp.

А что, кто-то еще читает через френдленту?
При прямой ссылке lj-cut вроде как не нужен

Ну да, есть такие старомодные и допотопные ископаемые старого образца:)

Зачем нужен ЖЖ без френдленты?

Доказательство очевидного — воры не только из бюджета воруют, но еще и обманывают.
За детали спасибо.

Ну не знаю. У меня процентов 50 знакомых в возрасте от 25 до 35 лет активно пользуются приложением и уже по несколько раз меняли баллы на подарки...
А вот людей, которые бы посылали платные смс в голосовании в 'Голосе', не знаю ни одного...

Так что статистика на 'знакомых' может быть очень обманчива.

Согласен, что статистика "на знакомых" может быть обманчива - но это не отменяет все остальные аргументы

  • 1
?

Log in