Comments 80
"сбор с его помощью аналитики досье на интернет-пользователей" - какие у автора есть аргументы в пользу этого (и подобных) утверждений?
А это разве надо доказывать? Достаточно зайти на https://myactivity.google.com/ и подобные или заказать у сервиса выгрузку данных о себе(не знаю у всех ли она есть). И будет очевидно, что данные собираются и их достаточно много. Хватает ли этого чтобы называться "досье"? Не знаю, но некоторым хватает для того чтобы быть против.
Да, надо. И раз обвиняется в подобном некоторый код - неплохо бы показать что вот, такой-то код делает это и вот это. Отправляются такие-то данные по таким-то адресам
И даже больше, пусть лучше 'враги' собирают досье, чем 'свои'
Открываете консольку хрома, обновляете страницу (прямо тут на хабре можно), ищете запросы с вхождением слова collect(GA).
Там и разрешение экрана, и информация о посещенной странице и еще много всего. Не знаю как у GA, но у Метрики например есть webvisor, которые еще и карту ваших кликов по странице снимает. Понятное дело что решение об установке и последующей аналитике принимает владелец сайта, но никто не мешает системе анализировать глобально по всему собранному массиву данных со всех сайтов в разрезе одного человека. На основе этого анализа строится контекстная реклама например.
Ставите адблокер и он режет GA и подобное перманентно. Естественно, адблокер может и сам воровать, но это уже другой вопрос.
Не доверяете адблоку - пилите своё расширение, заводите списочек url на которые хотите рубить запросы и вуаля - нет внешней аналитики. Чуток поковыряться - и получите защиту ещё и от внутренней. Вешаете ещё сверху clearURL и парочку подобных + прокси. Всё, базовая гигиена получиена.
В том-же Tor есть фича (помимо кучи других) - область просмотра контента специально чуть-чуть обрезана, чтобы ваше драгоценное расширение экрана не улетало куда не нужно.
Я своими глазами видел видео, как клиент водит мышкой по экрану, что нажимает и т. д. Т. е. каждое действие пишется, потом открывается браузер с параметрами как у клиента и производятся его действия с записью видео.
Это мы как отдел разработки смотрим, что там делают клиенты. Ну и менеджеры, куда без них. Таблица в БД с этой аналитикой занимает 60% от всей БД. Это, на секундочку, она сохраняется только за последние два-три месяца...
В контексте статьи речь идёт о государственных порталах, которыми в том числе пользуются люди, для которых Адблок - это что-то про ад. Нельзя от них ожидать, что они будут этим заниматься.
Люди, для которых адблок - это что-то про ад, но они пользуются электронными гос услугами вместо обычных - это люди, которым помогают дети/внуки, которые в состоянии поставить два расширения в хром.
Вот самостоятельно прийти к этим выводам и понять зачем и что они делают эти люди, увы, так просто не смогут, но вот перейти по ссылке и нажать на кнопку смогут. Особенно, если им эти ссылки дать и показать, что делать.
То есть на Ваш взгляд государственный (!) портал должен предлагать пользователям поставить сторонние (!!) расширения, которые непонятно кем (опенсорс = непонятно кто) разрабатываются, в долгосрочной перспективе непонятно что делают и работоспособность которых никем и ничем не гарантируется, и которые к тому же для разных платформ, браузеров и конфигураций настраиваются по-разному... Занятный подход.
Если Вам этот вариант кажется более простым, чем просто отключить счётчики - дело Ваше, но как по мне, это что-то просто чудовищное, и слава богу, что пока такой практики на госсайтах нет.
Нет, что вы. Вижу, что мы друг-друга не совсем поняли.
Я отталкиваюсь от концепции "сам себе не поможешь - никто не поможет". Я не защищаю сайт и посетителей от сторонних счётчиков. Я защищаю юзера (а не только его данные) от всех. И считаю сам сайт может быть не намного лучше, чем счётчики.
Конечно, чем меньше счётчиков на самом сайте - тем лучше. Но ожидать удаления инструментов слежки не предпринимая никаких действий со своей стороны, как минимум, - неразумно. Тем более, что с каждым годом средства базовой цифровой гигиены становятся всё доступнее.
Самим сайтам, безусловно, нужно, как минимум, отключить ПО для слежки от третьей стороны и запилить аналогичное самим. Но это ресурсы, которые можно сэкономить, взяв бесплатные сервисы. Собственно, этим активно и занимались.
Например вот, https://adguard.com/en/blog/tag/industry-news.html - 12 страниц статей, примеров, кусков кода, адресов и т.д.
Очень странно видеть требование принести пруфы работы AdTech индустрии (там уже целая индустрия давно сформировалась, на минуточку).
https://habr.com/ru/post/357352/
так устроен реальный мир (с)
Коллеги, а у меня до сих пор вопросы:
а) Зачем госсайтам (и сайтам разных "ЖКХ") счётчики?
б) Зачем сйтам государственных (и не только государственных) СМИ блоки партнёрской рекламы?
В общем,- статья прикольная,- потому что для меня откровение, что кто-то серьёзно занимается подобным :)))
Отвечу как человек, который имел отношение к "сайтам разных ЖКХ":
1) руководство желает знать, где сидит фазан реальную аудиторию своего сайта. В идеале - в процентах. К примеру, есть Водоканал,и, к примеру, там есть 100 000 абонентских лицевых счетов ФЛ. Если раздел для ФЛ посещает 40 000 людей в месяц (для передачи показаний в тч) - можно считать крупным успехом, выкладывать победные реляции (просить больше денег на сайт в следующем году), отбивать бюджет для работы с населением у СМИ (газеты, телевиденье, радио). Аналогично и для юриков.
2) замдиректор, которому подчиняются и пограмисты с сисадминами, и АСУТПшники, и связисты, тоже имеет свои моменты. К примеру, стата отлично показывает, когда сайт лежал - по факту, это внешний наблюдатель за непутёвыми сисадминами или внешним подрядчиком :)
3) PR-менеджер очень любит циферки с сайта, а точнее с публикаций а-ля "Водоканал поздравляет жителей города с Днём Города". И новостей.
4) счётчики предоставляют полезную информацию, с чего заходят потребители (какие ОС), с какими дисплеями, и т.п. - это важная информация, потому что в следующую итерацию закладывается что-то вроде "адаптивного дизайна, поддержа браузеров Safari и Google Chrome"
Сколько зашло людей для передачи показаний счетчиков прекрасно известно по количеству переданных показаний. Больше того, известны даже ФИО этих людей, что ни один счетчик не покажет.
Когда сайт лежал выясняется с помощью сервисов, которым совершенно не нужен код на самом сайте - он просто пингуется.
Это скорее ответ на вопрос: почему? а не: зачем? Ну да, за бюджетный счет можно позволить себе дармоеда по пиару с дежурными поздравлениями и статистикой их просмотров.
Единственный реальный довод "за", только с тем же успехом половина этих данных уже есть в логах веб-сервера. Вторую половину можно снять "локальным" счетчиком, который не будет дарить данные о посетителях сайта левым коммерсам.
Строго говоря, количество переданных показаний даёт лишь число тех, кто смог передать. Что не обязательно равно числу зашедших для передачи.
Да, но какие полезные данные Вы сможете снять счетчиком? Вот некто зашел на страницу передачи данных, а данные не передал - о чем это говорит? Да о чем угодно, от бота до несовместимости user-agent с сайтом. Последнее опять же будет видно в логах сервера или логе ошибок JS или что там может работать не так, а счетчик что покажет?
Яндекс Вебвизор показывает "запись" клиентских сессий. Вплоть до того, что у кого-то поехала верстка.
Если вы можете это посмотреть, то и пароль на бекенде плейнтектом записать в текстовый файлик сможете. Где дыра?
Неаккуратно? Да. Можно лучше? Тоже да. Можно так чтобы с гарантией понять что вот тут пароль, если создатель сайта пытается сделать так чтобы вы не поняли? Нет. Дыры не видно.
Вы уверены что компания которая способна на такое сделала любое более-менее приличное хранение паролей? Я вот совсем не уверен, скорее даже обратное. Значит пароли их пользователей и так практически всем желающим доступны и вероятно за ними не спрятано ничего ценного. Или это ценное уже утекло.
Я вообще давно уже не понимаю зачем пароль на рандомсайте. Ну сделайте вы вход через Гугл, Яндекс, ВК, Однокласники, Фейсбук и все остальное что там есть. Всем от этого только удобнее будет.
А зачем она типовому сайту? В смысле чтобы кто угодно что угодно на сайте писать не мог надо. А со сторону клиента зачем она?
Даже залогины на сайтах вроде Хабра не особо ценны. Страничку авторизации стоит оградить на всякий случай как бы чего не вышло. А остальное да ради бога. Там нет ничего ценного. И таких сайтов большинство.
Даже банк хочет знать что на его сайте делают пользователи. И кто эти пользователи. Особенно на лендингах всяких. Тут весь личный кабинет стоит исключить. Все что про счета и деньги. А остальное да ради бога, там опять нет ничего ценного что стоило бы защищать.
Конкретно по Яндексу:
1) там был и есть атрибут, который явно говорит - это конфиденциальная информация, ее не пишем.
2) если у вашего input соотв атрибут type равен password, то это тоже намекает, что лучше это поле не писать.
Конечно. Но кто читает инструкции? Помните скандал с каким-то из сайтов Навального и тем же Вебвизором? Там не было сделано ничего из этого. Все поля по всем формальным признакам можно и нужно было записывать.
А виноват конечно же Яндекс. Потому что не угадал что тут персональная инфа или пароль не выкинул поле из записи.
То есть по факту получается компромисс: или ты делаешь своё (затраты на разработку, и на поддржку(?) ) или используешь готовое чужое (но расплачиваешься своими деньгами и пользовательскими данными,- за поддержку).
Учитывая то, что многие сайты делаются из "конструкторов",- и бэк и морда,- то пазл складывается. Разработчику легче взять готовый элемент (даже с историческим мусором) и вставить в конечный проект.
В принципе, куче "оптимизаторов"/"руководителей" тоже легче работать с ограниченным набором отчётных форм/графиков для пропихивания обоснования своих зарплат.
Яндекс Вебвизор ЕМНИП стоит на 1 (прописью: одном) исследованном сайте, на остальных - "голая" Метрика.
Вы знакомы со словом "омниканальность"? Так вот, данные переданные по телефону (да, так тоже можно), с умных счётчиков и с сайта попадают в одну базу. При некотором желании, да, можно было бы прокидывать внутрь базы источник, но не сделали - а значит, есть система, которая считает количество внесенных данных с сайта, система, которая считает количество звонков, и количество обращений умных счётчиков. Жизнь - разнообразна, и решений у одной задачи может быть множество. Хоть и не всегда оптимальных.
Им нужно платить (хоть и не всем). Тут вы меняете данные на данные. Сервису пинга пинговать вас нет никакого смысла :) А процесс государственных закупок настолько муторный, что лучше заплатить со своего кармана (с зарплаты тысяч так в 30), если денег не жаль.
Этим страдают не только бюджетники (и нет, ЖКХ - не бюджетники - внезапно, но факт), но и вполне себе коммечерские предприятия.
В логах веб-сервера есть логи, но удобство отчётов, разрезов, метрик и тому подобное они не сделают. Люди вообще не дураки, и придумали и развивали счётчики долгое время.
Знаком, а причем тут она? Данные, переданные через сайт со счетчиком как-то отличаются от данных, переданных через такой же сайт, но без счетчика?
Им нужно платить (хоть и не всем).
Да пусть хоть чем страдают - вольному воля, но бюджет не должен оплачивать коммерческим компаниям составление досье на интернет-пользователей. Это их бизнес - они пусть и тратят ресурсы на свои хотелки.
Awstat и прочие веб-морды к логам - к Вашим услугам, в т.ч. и бесплатные. Самые умные - придумали локальные счетчики, которые делают все то же самое, но для себя, а не для себя и того дяди. Тот же Matomo имеет локальную версию.
Не отличаются, в том-то и дело. Предположим, что табличка имеет следующий вид:
ЛС | ХВС | ГВС|дата
-----------------------------
вот откуда прилетела запись в такую таблицу? Чтобы это отслеживать, сделано несколько систем, которые работы с источниками данных.
ЛС | ХВС | ГВС|дата|источник
------------------------------------------
Лучше было бы, конечно, но в этом мире слишком много исторически сложилось вещей. Поставлена задача - задача выполнена
Бесплатные сервисы имеют свойство умирать быстро и непредсказуемо, и предъявить нечего. Либо ты платишь - и получаешь сервис, либо не платишь - тогда ты товар. Либо не платишь, и тебя не монетизируют - увы, тогда
Еще раз повторяю - ЖКХ не являются бюджетными предприятиями. Это раз, но мелочь. Главное - счётчики не запрещены, а лишь ограничены закрытым списком "правильных" счётчиков, то это лишь передел рынка. Битрикс, и Спутник Ростелекома созданы явно не из альтруистических или государственнических побуждений, и обе компании - вполне себе коммерческие. Позже там и будут и другие счётчики коммерческих компаний.
Да, это жизнеспособные варианты, согласен. Но почему-то мало кто хочет замарачиваться.
Получать с помощью счётчиков информацию о количестве своих же абонентов, вместо добавить ещё одну колонку в свою же таблицу.. Ну ок.
Вот да, странно, мы с комментатором выше не можем понять, какую полезную информацию добавляет счетчик в колонку "источник".
Платные тоже. Вон в марте отозвали платные TLS-сертификаты, и предъявлять нечего. Вернее, неохота, хотя пострадавшие имеют ресурсы и могли бы неплохой хайп из этого раздуть, без преувеличений мирового масштаба.
Закон не запрещает размещать левые счетчики на сайтах ЖКХ.
Предположу, что в частности потому, что мало кто получал нагоняй и а-та-та за несоблюдение закона.
Счётчик это не просто +1.
Он позволяет отследить метрики, путь достижения цели.
Все системы с счётчиками нафаршированы конструкторами которые позволяют получить легко картину что с мобилок в два раза меньше людей отправили показания, вывод пора доработать мобильную версию.
Да все это можно реализовать внутренним счётчиком, но времени уйдет просто несравнимо много.
Все это узко специализированные продукты которые нужны для аналитики работы ресурса.
Есть кстати и опен сорс решения.
Позвольте, в исходном комменте речь шла о том, что водоканал желает знать, сколько клиентов пользуются ЛС для передачи показаний счетчиков воды. Не под чем сидят клиенты, а сколько их. Для этого счетчик не нужен от слова совсем - есть данные о логинах и оплате через ЛК.
Это задача из вакуума, реальность такова что "просто" не бывает.
Посмотрят логи, 100к входов,посмотрят данные по временным показаниям, получат 50к, куда делись эти 50к ?
Логи по умолчанию не позволяют отследить сессии.
С точки зрения бизнеса, аналитика это топливо развития любого веб портала.
И очень печально что гос порталы очень слабо это используют, коммерция тратит свои деньги на обработку данных этой аналитики,чтобы повысить свой доход путем оптимизаций.
Нельзя ставить крест на аналитике, она нужна. А создать свой полноценный инструмент для замены не так просто, как вам кажется.
Еще раз повторяю - ЖКХ не являются бюджетными предприятиями.
Зачем тогда в названии есть буквы ГБУ? Например, ГБУ "Жилищник" района Раменки. Насколько я понимаю, ГБУ - государственное бюджетное учреждение.
Ровно затем же что и всем остальным. Они хотят знать свою аудиторию. Руководство хочет иметь независимый и практически нефальсифицируемый источник данных об аудитории.
Сказали надо больше работать с молодежью. Окей они постят что-то, проводят что-то. А как понять молодежь туда пришла или нет? Счетчик.
Сделали новый раздел Лучшие люди наше города. За него платят, обновляют, стороння фирма работает и пишет бравурные отчеты об эффективности. Как узнать а он вообще нужен кому-то или нет? Счетчик. Логи подделать слишком просто.
Провели серию патриотических постов с расчетной аудиторией женщины 30 лет и планом воздействовать на семьи через них. Как узнать это вообще видели они? Счетчик.
Как начальству вверх отчитаться об успехах продвижения своей площадки? Так чтобы начальство поверило и дало больше денег? В в обратную сторону как начальство сверху поймет что там на местах изображают бурную деятельность в интернете, а на самом деле деньги просто воруют? Опять счетчик.
И тому подобное. Любую активность на незалогиновых разделах сайта просто так надежно не оценить без внешнего счетчика. И уж точно ее никак не валидировать, что это не подделка.
Госсайтам, как и любым другим проектам нужны не счетчики и рекламные блоки, им нужна аналитика. Дада, на ряде госсайтов так же как и на вполне коммерческих проектах ведется аналитика, АБ тестирование и даже воронки есть. И конверсию показывают. Понятно что далеко не всегда эта конверсия в деньги. Скорее в полученные услуги, и тп.
И если мы говорим не про районную управу где-то в далекой периферии, а современные и популярные госсайты, то под капотом там все точно так же как и сайтов без приставки "гос". Может цели чуть другие, бюрократии побольше, может где-то легаси в наследстве, но все тоже самое. Технологии они везде одни и те же.
Делали однажды госсайт для одного крупного ведомства, про него все слышали. В самом начале аналитики запросили выгрузку с яндекс-метрики, чтобы посмотреть тепловую карту, статистику и передать дизайнерам. Диалог:
- Дайте нам данные с яндекс-метрики.
- У нас её нет, только "Спутник"!
- Как "нет"? Вот же, в коде сайта есть!
- Ну ладно. Но официально - не пишите, что взяли с "Яндекса", у нас по бумагам есть только "Спутник".
Сайт АИС в марте взломали и раздали через него на десятки госсайтов картинку раскачивающего антивоенного содержания.
Что-то мне подсказывает, что взломать код счетчика могут вне зависимости от того, зарегистрирован он в неком реестре или нет.
Зачем вообще ставить на сайт сторонние счетчики? Лень сделать встроенный в сайт счетчик?
Независимая аналитика для клиентов. Иначе все микросайты с 100уников в день будут писать что они крупные порталы со 100тыс посещаемостью и реклама у них стоит мильярды, как проверить?
Государственные сайты разве должны зарабатывать на рекламе? Изначально же речь о госвебе была.
Ну наконец-то до них что то начало доходить...
падение на 41% общего количества сторонних хостов, с которых производятся загрузки, и на 23% сокращение количества уникальных хостов, а также администраторов этих хостов (-32%)
А как посчитали сокращение администраторов? И почему у них процент со знаком "минус", а не так, как у предыдущих параметров? Либо здесь что-то с формулировкой, либо я неправильно понимаю термин "администратор хоста" в данном контексте...
на официальных сайтах федеральных органов исполнительной власти (ФОИВ) допускается применение программного обеспечения (программного кода («счетчика посещений»), сведения о котором включены в единый реестр российских программ для электронных вычислительных машин и баз данных
Я правильно понял, что собирать досье на пользователей теперь смогут не все, а только те, кто зарегистрировался в реестре и согласился отправлять эти досье в ФСБ?
Увы, по сути Вы правы: включение в Реестр - это не глубокий анализ кода, а лишь его "депонировние" и исполнение ряда формальных требований. Из этого правда вытекает, что если в коде меняется хоть байт (исправили баг, например), это уже другой код, не включенный в Реестр, но донести знания об этой темной магии до контрольно-надзорных, при том, что "депонированный" код закрыт от публики...
Смешная статья. Автор не знает как работает аналитика, как ей пользоваться, как ограничивать отдаваемую статистику и для чего это все. Автор так же не знает как работают поисковые алгоритмы и зачем все это надо. Кстати, а кто мешает иметь сайт без счётчиков вообще, если так уж не нравится все это? Но это совсем не важно с учётом того, что Гугл уходит из России.
Согласен с автором наполовину.
Мне тоже не нравится всеобщее использование на сайтах (на только гос. ) посторонних счетчиков. Лучше не лениться и использовать для аналитики офлайн-счетчики типа piwik/matomoto.
НО если уж использовать облачные счетчики, то я как посетитель сайта предпочел бы, чтобы это был GA, а не что-то там сертифицированное. Во-первых, вероятность взлома GA заметно меньше. А во-вторых, он просто дальше. Еще лучше была бы аналитика производства Антарктиды, но пингвины пока ее не протестировали. Пусть будет GA.
Зачем ломать GA, если производитель сам может встроить в него какой-то "бонус"? Вот imageshack.us уже выдавал на российские IP вместо пользовательских картинок антивоенные. Никакого хакерства, только выражение солидарности и это все. Сегодня они с Украиной солидарны, завтра с АНБ, послезавтра один из сотрудников почувствует вкус к джихаду или еще в каком направлении умом тронется - нельзя быть немножечко беременной.
Простите, но при чем тут imageshack ? GA какие-нибудь "бонусы" выдает?
Я же не говорю, что GA -- идеальное решение. Для меня как для пользователя лучше были бы офлайн-счетчики. Но плохое решение на основе GA лучше, чем другие плохие решения. И вероятность взлома здесь тоже важна, вовсе не хочется, чтобы данные просто расползлись по всему свету. А солидарность с АНБ для россиян лучше, чем солидарность с КГБ. Для американцев, возможно, наоборот.
а мы – продолжаем тормошить надзорный орган
Правильное слово "теребить" ;)
Максимальное моё уважение автору. Это действительно проблема, причём не только техническая, а и технологическая, и отчасти политическая. И здорово, что её начали решать.
А что касается самих счётчиков, их количества и объёма данных, которые они отправляют "куда-то там", я бы перефразировал старую шутку: "человеку, имеющему доступ к логам прокси, бесполезно рассказывать о моральном облике коллектива и о безвредности счётчиков и метрик". Объём данных, отправляемых Яндексом "Большому Брату", просто изумляет. А при использовании Я.Браузера -- ошеломляет и сбивает с ног.
Не знаю, может случилось чего, но подтверждаю, что в начале марта по гос. и около-гос. сайтам прошла команда полностью выпилить гугол. Вплоть до замены карт на православные.
Почему счетчики до сих пор не импортозаместили?
товарищ автор, Яндекс Вас читает.
Статья 23 мая, заявление о регистрации Яндекс Метрики в реестре - 26го
Заявление о включении сведений о программном обеспечении в реестр российского программного обеспечения (digital.gov.ru)
))
Изгнание гугляндекса из госвеба