CaPtCHa: докажите, что вы не политолог

Это многабукафф по свежим следам встречи в Центральной Избирательной Комиссии РФ, где Элла Памфилова и её сотрудники встречались с политологами в среду 23.09.20.

Разговор планировался вообще о развитии выборных технологий в ЦИКе, но в первую очередь – о скандале с «капчей», которую ЦИК выставил на каждой ссылке в своих электоральных данных. Меня туда пригласили как стороннего эксперта, высказать мнение о технических аспектах этой истории.

Я действительно был там совершенно внешним элементом: я не работаю с ЦИК, не являюсь политологом, не зарабатываю на выборах и т.п. Но, поскольку я в силу моей героической-биографии кое-что знаю про поисковых роботов и выкачку сайтов, мне там было что прокомментировать. Поскольку “политологи” уже начали привычно перевирать в сети, что я там сказал и вырывать слова из контекста, ниже я расскажу, из-за чего весь сыр-бор, что там было, и что говорили выступившие и я сам. Извините за лонгрид.

Надо сказать, что я довольно долго отнекивался от приглашения – во-первых, по той причине,  которой я уже сказал (я к выборам не имею отношения и стараюсь не впутываться в эту стрёмную тему), во-вторых, потому что я считал, что защищать эту скандальную капчу от ЦИКа нет смысла – она реально неудобная и неуклюжая (про это скажу позже). Однако, перед самой встречей я поговорил с теми, кто в ЦИКе отвечает за техническую сторону дела – я хотел понять, какая именно у них была модель угроз, от чего они защищались таким неудачным способом. И примерно понял технические обоснования и мотивы – про это тоже ниже.

На самой встрече, которая так и называлась на большом экране «Встреча Э.А.Памфиловой с политологами», сначала выступила сама Элла Александровна, потом Михаил Анатольевич Попов (глава Федерального центра информатизации при Центральной избирательной комиссии РФ), рассказавший про технические аспекты управления сайтом и данными ЦИКа и мотивы установки капчи. Потом выступали эти самые политологи, а потом уже я. Потом было ещё несколько выступлений и обмен мнениями. Сама встреча затянулась на 3,5 часа, с 15 до 17.30.

Что рассказал Михаил Попов про сайт ЦИКа:

  • Всего там хранятся данные про 110 тысяч голосований, с 2010 года;
  • Избирательных участков – 96 тысяч, в каждом конкретном голосовании участвует обычно 30-40 тысяч;
  • Документов на сайте – 4 миллиарда;
  • Загрузка сайта ЦИКа в дни голосования растёт на 2-3 порядка, минимум в 100 раз;
  • Атаки на сайт ЦИКа идут непрерывно, с разных концов мира, самая длинная на сейчас – 50 часов подряд;
  • Доля автоматических обращений на сайт (парсеров и индексных роботов) – примерно 15-20% (пишу по памяти);
  • Основные страны, откуда заходят парсеры – США (61%), Европа – ещё 14%, Азия – 2%, Россия – 23% (эту раскладку я пишу по памяти, но общее соотношение такое).

Попов рассказал, что если раньше производительность сайта была в «зелёной зоне», то сейчас она уже подошла к красной отметке, так что службы, поддерживающие сайт, уже испытывают острое беспокойство. Он коснулся причин введения обсуждаемой капчи на сайте: основная задача технических служб ЦИКа и его подрядчиков – обеспечить бесперебойную работу сайта и доступность данных избирателям именно в дни голосования. Дать данные политологам – задача далеко не первого приоритета.

Дальше горячо выступали политологи, в первую очередь Григорий Мельконьянц (российский правозащитник, сопредседатель движения в защиту прав избирателей «Голос»), потом Екатерина Шульман (к.п.н, доцент РАНХиГС), Евгений Минченко (вице-президент РАСО, лоббист, политолог) и другие. Потом минут 8-10 выступал я.

Пересказывать дословно выступления не буду, перейду к своим выводам – которые я частично озвучил в выступлении. Ниже – моё личное мнение внешнего наблюдателя, которое – внимание! – ни на что не влияет.

Про выступления политологов и наблюдателей за выборами

  1. Встреча с узкой тусовкой. Встреча так и называлась «Встреча с политологами». Это довольно важно. Я попросил в Крибруме посмотреть в соцсетях и микроблогах историю сетевого возмущения  и состав недовольных изобильной капчей на сайте ЦИКа. Это оказался довольно ограниченный размер медийного события, совершенно несравнимый по количеству сообщений и авторов, например, с хайпом вокруг выступлений Путина или приключений Ефремова или Навального. То есть буря в относительно небольшом стакане.

    Пишут в соцсетях о капче ЦИКа почти исключительно так называемые политологи, причём с превалированием «оппозиционных», то есть тех же Шульман и Мельконьянца, с небольшой примесью навальнеров из ФБК (интересно, что политологи в основном тусуются в Твиттере – очевидно, им нужна «быстрая среда», такой профессиональный перекос; так что и шум был в основном в Твиттере).

    Вообще-то жалоб «простых избирателей» в медийном шуме вокруг капчи – практически нет. Но этот относительно небольшой шум, тем не менее, явно влияет на ЦИК – так работают замкнутые «семантические капсулы» (или т.н. echo chambers), которые создаются в профессиональных тусовках.

  2. Подмена значений слов. Выступления политологов изобиловали формулами и выражениями наподобие «мы», “мы хотим”, «нам нужно», «обеспечить доверие», «легитимность выборов» и т.п. На мой взгляд, практически во всех выступлениях делалась попытка подмены значений существительных и местоимений, такая демагогия на уровне лексики.
    «Мы» в словах политолога, требующего доступа к данным, преподносится, подразумевается в смысле «мы, избиратели», хотя это требования политолога. «Доверие» – тоже подмена, преподносится как доверие избирателя, а на самом деле опять-таки про «доверие» политологов.
    На самом деле беспрепятственный, невозбранный доступ к Большим данным ЦИКа в реальном времени требуют именно политологи. Избиратель же и сейчас легко может посмотреть напрямую данные про свой избирательный участок, свой регион, вводя капчу один-два раза.
  3. Узурпация права говорить от имени избирателей. Несмотря на постоянные апелляции к избирателю в выступлениях –  “избиратель, мол, то, избиратель, де, это”, эти политологи, которых я наблюдал в ЦИКе, по сути представляют сами себя, а не избирателя.
    Массового избирателя вообще-то, на мой взгляд, представляют кандидаты, парламентские партии (ЕР, КПРФ, СР) и немножко непарламентские. Для того они и партии, в представительной демократии.
    Политологи же просто пытаются узурпировать это право говорить от имени массового избирателя – при том, что представляют они в лучшем случае себя, сколько-то своих волонтёров и своих клиентов и спонсоров.
    Я думаю, если опросить граждан России, имеющих право голосовать, выяснится, что примерно 99% из них никогда не слышали о “Голосе” и прочих “движениях по контролю за выборами” и “НКО”.
  4. Попытка шантажа. Постоянный рефрен про «открытость данных – это вопрос доверия» – это на самом деле неявная угроза. Почему? Вот почему: вообще-то все данные ЦИКа – и так уже открыты. Их можно посмотреть.
    Но их в этот раз нельзя было, как раньше, выкачать все разом, в реальном времени (точнее, можно при определённой хитрости и шустрости – и политологи выкачивали, «пробивая» капчу; сейчас они как раз глумятся в соцсетях про то, как они обманули глупый ЦИК, его айтишников:

    Про капчу ЦИКа. Устрица может соревноваться с подчинёнными Памфиловой в вопросах IT. Поэтому мы как получали автоматически данные, так и получаем.

    И вот их как раз не устраивает попытка ЦИКа воспрепятствовать пакетной выкачке. И именно поэтому они пишут про «потерю доверия избирателя». Это, конечно, манипуляция.
    Более того, есть ли вообще проблема доверия массового избирателя к результатам выборов, и как это доверие зависит от данных на сайте ЦИКа – это вопрос открытый. Опросы о доверии граждан к выборам показывают разное, насколько я читал – но точно не то, чем угрожают политологи.
    А манипулятивная безусловная увязка этого как бы «доверия избирателей» с возможностью скачивать Большие данные с сайта ЦИК политологами – это завуалированная угроза: «не дадите данных – будем дискредитировать ЦИК и выборы, будем писать про недоверие».
    И вот тут грустная правда об этой попытке шантажировать ЦИК состоит в том, что пытаться дискредитировать и делегитимизировать результаты выборов будут всё равно, как ни прогибайся и какие данные ни отгружай – об этом подробнее ниже.

Про плохую капчу на сайте ЦИКа в единые дни голосования

Капча, которую поставили практически на каждую ссылку на данные, действительно выглядела странно. Во-первых, зачем столько раз? Можно же было закрыть оконечные страницы с конкретными данными.
Во-вторых, сама по себе капча на сайте ЦИКа – одна из самых простых. Там 5 чётких цифр на светлом фоне. Скажем, нейронная библиотека Тессеракт от Гугла такую капчу распознаёт даже без обучения, то есть пробить эту капчу скриптом – вопрос получаса программирования. Что и сделали, очевидно, «политологи», включая члена «Голоса» Ивана Шукшина из Геленджика, который выкачал всё и выложил в сеть зеркало сайта ЦИКа.
Шукшин очень доволен собой, судя по интервью Медузе:

В итоге член совета движения «Голос» в Краснодарском крае, программист Иван Шукшин не стал ждать от ЦИК решения проблемы и самостоятельно нашел способ обойти капчу на сайте избиркома, после чего создал его «зеркало», то есть точную копию, с которой данные о результатах выборов уже можно скачивать беспрепятственно. Она заработала по адресу notelections.online. Шукшин заявил, что смог решить проблему за час…

«…Исследователям приходится самостоятельно выкачивать протоколы по каждому избирательному участку, так как ЦИК уже много лет отказывается выдавать их в нормальном виде, в хорошем формате типа .json. На сайте ЦИК есть раздел „Открытые данные“, но он сделан для галочки: в нем только старые, неактуальные, не подробные данные», — говорит Шукшин.
Он также отметил, что исследователей, которые постоянно качают данные с портала ЦИК с помощью роботов, максимум несколько десятков человек и они точно не могут создать такую критическую нагрузку, с которой сайт ЦИК не мог бы справиться. «Кроме того, ЦИК уже ввел ограничение по количеству запросов. Если раньше их сервер со стороны сайта выдерживал скачивание в 100 одновременных потоков, то сейчас там стоит ограничение в 1–2 потока, но даже этого им показалось мало, и вот тогда ввели капчу. В конечном итоге роботы, которые умеют разгадывать капчу, сейчас все равно имеют доступ к сайту. В итоге нагрузка только повышается: теперь робот или человек сначала запрашивает страницу с капчей, потом сервер проверяет эту капчу и только потом отдает результаты», — объясняет Шукшин.

Цель этой заплатки, по словам сотрудников ЦИКа, была – создать «вязкость» для внешних автоматических парсеров в дни голосования. Сделали заплатку наскоро, неаккуратно. Но, судя по шуму в комментариях, открытым письмам и т.п. – частично эту задачу решили, хоть и несколько топорным способом.

Кому и зачем нужны Большие данные ЦИКа?

Если задаться вопросом, кому нужны все Большие данные с сайта ЦИКа по конкретным дням голосования, по всем регионам и участкам, и притом быстро, в реальном времени, во время голосования, ответ дать нетрудно: это в первую очередь тусовка политологов.
Учёным и исследователям, о которых говорит, например, Шукшин выше, которые исследуют электоральные процессы вообще, такая срочность не нужна, им ничто не мешает получить эти данные через, скажем, неделю, и спокойно исследовать их.
Что это за политологическая тусовка? Это, скорее всего, никакие не исследователи. Частично, видимо, это политологи, которые кормятся на электоральном рынке. Их понять можно, они хотят давать своим клиентам рекомендации и аналитику с максимальной скоростью. Это их бизнес-требования. Но данные при этом эти бизнесмены хотят получать даром, быстро и оптом. Называя эту халяву «открытостью».
Вот цитата из их претензий:

«… эксперты попросили Эллу Памфилову прекратить использование на сайте комиссии технологии, резко усложнившей работу с ресурсом. По их подсчётам, для анализа данных по всей России нужно пройти тест CAPTCHA около 100 тысяч раз, потратив на это около 30 млн секунд, то есть почти год…»

«Работа с ресурсом» – это именно получение халявы в автоматическом режиме.
Вторая часть этой тусовки, я надеюсь, меньшая – это деятели наподобие движения «Голос».

Краткая историческая справка. «Голос» когда-то (с начала 2000-х) был ассоциацией (официальным юрлицом), получавшей деньги от USAID за «анализ» русских выборов. В 2012 году Григорий Мельконьянц публично и прямо говорил, что больше половины бюджета «Голоса» – от USAID (одного из многих известных кошельков ЦРУ).
Потом «Голосу» было предписано поставить на себя обозначение «Иностранный агент», требуемое по закону; «Голос» не выполнил этого предписания, был несколько раз оштрафован, а потом закрыт по решению суда в 2016 году. И возродился в юридически мутной форме «движения». Теперь «Голос» не имеет юрлица, не может иметь счетов, бюджета, собирать пожертвования. Однако “движение” «Голос» ведёт между тем широкую деятельность, нанимает наблюдателей, собирает волонтёров, путешествует по стране, имеет многочисленные сайты, печатает полиграфию и т.п. Наверно, всё это бесплатно.
В сети клевещут, что органы Крававаго Режыма несколько раз ловили курьеров Голоса с конвертами с необъяснимыми пачками евро, вёзших их из Литвы, где сидит реальная глава «Голоса» Лилия Шибанова, организатор практически всех НКО в России, которые занимаются «мониторингом» выборов. То есть деньги – по-прежнему оттуда же. Конец исторической справки

«Голос» ведёт «Карту нарушений», которая кишит фейками и просто выкриками о нарушениях на выборах, которые обычно не подтверждаются. Последняя история об этой Карте такова, что «Голос» вообще убрал с карты пометку «надёжный источник», потому что её невозможно было поставить на тот шлак, который выдаётся на карте за сообщения о нарушениях. Об этом в своём интервью Интерфаксу рассказала Элла Памфилова:

«…Теперь о “Карте нарушений”. Как показала практика последнего времени, качество сообщений на ней не выдерживает критики – значительное число сообщений (около половины) вообще не является сообщением о даже возможном нарушении. А находят подтверждения только порядка 4 процентов из всех сообщений. И до недавнего времени название было категорично: «Карта нарушений». Только после многочисленной критики, что это всего лишь сообщения о возможных нарушениях, немного поправили.
Сейчас на этом сайте размещено 1743 сообщения о возможных нарушениях в ходе ЕДГ. Но откуда они появились? Любой желающий может зайти и написать там все, что угодно. А если кто-то попытается опровергнуть фейковое сообщение и пришлет достоверный материал, никто его размещать не будет. И создатели этого сайта прекрасно об этом знают, но вводят общественность в заблуждение. И переобуваются по дороге. Раньше у них на сайте была отметка “надежный источник”, то есть проверенные источники информации, которым можно доверять. А 13-го сентября, когда они увидели, что ни одно сообщение не помечено меткой “Надежный источник” – они просто скрыли эту метку. Тем самым признали, что вся информация на сайте получена из ненадежных источников – кто-то что-то написал, что хотел. Приведу конкретный пример:

На карте нарушений “Голос” на региональных выборах в ЕДГ нет ни одного сообщения о возможном нарушении от надежных источников информации по состоянию на 12.00 мск 13.09.2020 г. Содержится только информация о 1262 возможных “нарушениях”, относящихся к Единому дню голосования 13 сентября 2020.

Из них на выборах губернаторов и законодательных органов регионов ни одно нарушение не помечено меткой “Надежный источник”.

Под надежным источником при этом подразумеваются СМИ и публичные персоны, верифицированные источники информации.
Откройте ссылку – сами убедитесь: достоверность никто не подтверждает, ответственность никто не несет, зато “Карта”, покрасневшая не от стыда, а от якобы нарушений, будоражит впечатлительную публику….»

То есть, на мой взгляд постороннего, тут просто клейма ставить негде на этих «политологах». И тем не менее, Элла Александровна Памфилова приглашает их на совещание со всем уважением. Мне кажется, это свидетельствует о довольно высокой степени медийной зависимости ЦИка от мнений политологической тусовки.

Для чего же “Голосу” большие данные ЦИКа? Ну, это очевидно – для делегитимизации выборов, заключаю я. У них такая задача. Они её решают последний десяток лет. Хоть раз “Голос” признавал результаты выборов приемлемыми? Похоже, нет. Что скажет “Голос” после любых выборов в России – всегда немного предсказуемо.
Это значит, что любой анализ любых данных в “Голосе” будет иметь заранее известный результат – будут статьи о нарушениях, нелегитимности выборов, «самые грязные выборы в истории» и т.п.
И вот эти ребята требуют от ЦИКа данных – всех-всех-всех и быстро, бегом-прыжками, а не то «произойдёт подрыв доверия». Комедия.

Нужно ли отдавать наружу Большие данные ЦИКа?

Ситуация, когда политологи без спроса самопальными парсерами выкачивают данные с сайта ЦИКа – ненормальная.
Во-первых, нагрузка. Нормальный поисковый робот, как у Яндекса или Гугла, не нагружает индексируемые сайты. Они качают аккуратно, не нагружают сайты, приходят по многу раз и т.п. Эта практика и технология вырабатывалась в поисковиках десяток лет как минимум.
Самодельные парсеры политологов, очевидно, не таковы (о чём и говорил Михаил Попов и чем хвалился Шукшин). Если даже обращений от парсеров всего 20%, эти 20% не размазаны по суткам, как обращения от живых пользователей, а сконцентрированы в плотные сессии в десятки минут, с выкачкой сотен страниц в секунду. Им надо быстро-быстро, хватай мешки, вокзал уходит. Дни голосования вот-вот закончатся. Они нагружают веб-сервер по максимуму, тем более, что для многих из них – это веб-сервер врага, которого надо ущучить, уличить, чего его жалеть-то.

Кроме того, людей, которые умеют выкачивать большие и очень большие сайты и объёмы данных правильно и аккуратно, просто в России не очень много. И мы знаем, где почти все они работают – в Яндексе, Мыле, в Крибруме и т.п.
Я практически уверен, что парсеры политологов – типичные бешеные роботы без «этичных» ограничений, сделанные торопливыми руками программистов-добровольцев.

Во-вторых, искажение данных. Когда самодельный парсер выкачал “за час” огромные данные, кое-как, с обрывами сессий, с прорывом защиты, с куражом «щас мы у них всё возьмём без спроса, пусть, гады, умоются» – откуда там аутентичность и целостность данных? А ведь эти данные будут потом использованы для «анализа», «выводов», «доверия».

Как надо выдавать данные ЦИКа тем, кто хочет их анализировать?

Можно предположить, что ЦИКу здесь на самом деле нужно решить две разные задачи:

  1. дать доступ любому избирателю к любым данным о голосовании, что и является искомой священной и истинной «открытостью» данных, требуемой по закону;
  2. сделать невозможной автоматическую бесконтрольную выкачку всех больших данных с сайта, но дать возможность их получения политологами и исследователями на определённых условиях.

Первое уже практически решено – данные о выборах давно уже доступны избирателям; сайт просто нужно сделать более удобным, о чём также шла речь на встрече.

Второе имеет множество вариантов исполнения.
Можно просто снять капчу везде – на чём и настаивают «политологи» Шульман и Мельконьянц (кавычки я ставлю неспроста, у них другая профессия, как я понимаю). Но обе проблемы с самопальным доступом («написал парсер и выкачал за час, вот так-то, <средний палец.jpg>») – то есть с бешенством роботов и искажением данных – это не полечит.
Можно убрать возможность быстро выкачать все данные непосредственно с сайта – чтобы отбить охоту у оналитегов качать данные парсерами, по беспределу с «заднего хода». Это задача вполне решаемая:

  • можно запретить выдачу страниц посетителю с большой скоростью: скажем, не чаще раза в секунду;
  • можно поставить сильную капчу, сделав её гораздо менее пробиваемой. Есть много мировых облачных сервисов с хорошей капчей – но ЦИК не может использовать сторонний сервис, не гарантирующий бесперебойность в дни голосований (к тому же зарубежный). Но есть и много доступных библиотек с капчей (например, «выберите все фотографии, где есть велосипед»), наподобие тех, которые используют интернет-гиганты уровня Гугла и Яндекса, что как бы намекает, что такую капчу пробить не так просто.
  • можно сделать доступ к сайту по ЕСИА с лимитом, скажем на 1000 или даже 10 000 страниц в день для пользователя с аккаунтом на госуслугах, это вообще решает все вопросы с самодельными парсерами и не ущемляет прав граждан на доступ к электоральным данным.

Моё личное мнение, что полные большие данные политологам и исследователям нужно выдавать либо архивом, либо потоком по API – но при условии аккредитации при ЦИКе. Если ты – спецслужба, аналитическое агентство, политологическое агентство, отраслевая ассоциация (например, РАСО), академическая структура, учёный – аккредитуйся и получай весь массив со скоростью, которую тебе позволяет твой канал.
Другое дело, что тусовка политологов, похоже, настолько плотная, что выданный одному политологу архив тут же или с некоторой задержкой окажется у всех.
Чтобы избежать такого неконтролируемого распространения, можно также положить данные не в архив, а в открытую облачную базу данных, выдающую исследователю любые выборки по данным по любым критериям, что позволяет проводить любые исследования, но не позволяет выкачать всю базу чохом по условному запросу «*».
Короче, технически задача – безусловно, решаемая в любых вариантах, но для выдачи ТЗ подрядчикам требуется политическое решение: а чего, собственно, хочется или требуется добиться в отношениях с политологической тусовкой, СМИ и избирателями. Я тут ЦИКу ничего посоветовать не могу и не должен, так как не в теме.

На встрече обсуждалось ещё много всего, в том числе нехватка версий протоколов (точнее, как бы хватка, но если помудрить с URL-ами в том же духе самодельного парсинга), необходимость предварительного и удалённого голосования, перенос даты ЕДГ и т.п. – но я об этом не пишу, потому что не разбираюсь в выборном процессе и своего мнения по этим вопросам не имею. Капча и доступ политологов к большим данным были всё же основной темой встречи.
Подведу итог тому, что я увидел и понял на встрече:

  • Требования политологов по свободному доступу ко всему массиву данных в реальном времени – это именно требования политологов, обусловленные их бизнес-задачами или требованиями клиентов и спонсоров. К реальным потребностям избирателей и граждан РФ это отношения не имеет.
  • Капча на сайте ЦИКа нужна, а бешеные парсеры – нет. Та капча, что была поставлена на каждый чих посетителя – неправильная, её уже сняли; но в целом она на сайте останется, в улучшенном виде.
  • Большие данные ЦИКа во всей  их совокупности массовому избирателю ни за чем не нужны; а средства посмотреть свои данные, данные своего или чужого УИКа, региона – уже есть. Сайт стоит сделать более удобным и понятным, кроме того, нужно сделать ясным круг полномочий и ответственности ЦИКа для посетителя сайта.
  • Большие данные ЦИКа в реальном времени стоило бы выдавать аккредитованным партнёрам. Критерии аккредитации нужно вырабатывать ЦИКу, но, скорее всего, мутные и юридически не оформленные профборцы с Крававым режимом их вряд ли пройдут. Мне лично их не жалко, после того, как я на их честные физиономии насмотрелся в среду.

Про “стоило бы сделать” – это мои личные фантазии, не имеющие отношения к реальности, поскольку я не работаю в ЦИКе или с ЦИКом, не знаю его обстоятельств и ограничений. Что будет сделано в реальности – не знаю.

Но я боюсь, что медийная зависимость ЦИКа (в целом довольно объяснимая) может привести к тому, что ЦИК в который раз «прогнётся» перед шумными «политологами»-пропагандистами и будет всячески ублажать их, за что в благодарность получит новую порцию проклятий и шантажа.

Потому что тусовки, диаспоры, майданы не ценят уступок и не делают уступок в ответ, они просто забирают уступленное и делают следующий шаг вперёд. Пока уступают – надо давить, таков их жизненный принцип.

Игорь Ашманов

40 комментариев | Подписаться на комментарии | Комментировать

Рубрика: ROEM