Lineri28 июн 2025 в 03:31

Мета-анализ Хабра 2024: так ли всё плохо?

Средний

8 мин

1.9K

Программирование * HabrСтатистика в ITСоциальные сети

Аналитика

✏️ Технотекст 8

+13

Комментарии 35

drr8593 28 июн 2025 в 04:49

Люди с самых древних времён интересовались тремя главными вопросами мироздания: почему горит огонь, какой формы земля и мёртв ли Хабр.

Написано слишком пафосно, как будто сейчас будет лонгрид экстра класса. Но.

Самый большой рейтинг на статье 638, самый маленький -93.

По вашим же ссылкам рейтинги статей другие: 752/-87.

Оформление упомянутого почему-то трижды репозитория — отсутствует, хотя бы в ридми ссылку на статью дали, если не в состоянии кроме лицензии что-то большее сообщить.Орфографию не помешало бы проверить: "так же" (также), "придел" (предел), "на последок" (напоследок). Перечисления пишутся через дефиз, а у вас после "во вторых" еще идет и "в восьмых".

Итог: весь пафос разбился вместе с качеством публикации, на Яндекс Дзен такое бы выкладывать. Но и без аналитики очевидно, что Хабр скатился (в ИИ), крепкие авторы ушли на другие площадки, поэтому статья соотв. ожиданиям.

pavelsha 28 июн 2025 в 04:56

Оформление упомянутого почему-то трижды репозитория — отсутствует, хотя бы в ридми ссылку на статью дали, если не в состоянии кроме лицензии что-то большее сообщить.Орфографию не помешало бы проверить: "так же" (также), "придел" (предел), "на последок" (напоследок). Перечисления пишутся через дефиз, а у вас после "во вторых" еще идет и "в восьмых

Кажется вот тут использование LLM помогло бы 😁😁😁

Lineri 28 июн 2025 в 05:00

Опять особенный авторский стиль не признают и называют ошибкой орфографии :(
По поводу рейтинга, в статье дважды было упомянуто что он рассчитывается по разному: на сайте используется весовая система где 1 голос может давать и +1 и +5, я же использовал обычную систему в виде 'рейтинг = количество плюсов - количество минусов'.
Не уверен что для репозитория нужно делать хоть какое либо оформление, как по мне это в целом не имеет смысла. Основную ценность из всего того что туда залито представляют сами статьи, которые в виде таблиц продублированы ещё на диск, остальное вероятно никогда не будет использовано.
И да, хотелось бы лонгрид, но к сожалению моё свободное время не позволяет вытворять нечто подобно поэтому пришлось ужаться максимально коротко.

pavelsha 28 июн 2025 в 08:22

Совет не в авторском стиле, а в вычитке статьи перед публикацией. Идеально вычитывать пару раз вслух.

Кстати, недавно Мартин Фаулер (https://martinfowler.com/) дал примерно такой совет у себя в блоге.

А если глаз замылился или считаете, что читать вслух — это признак шизофрении, то можно привлечь к вычитке ИскИн. Главное, сформулируйте конкретный промпт.

Onito 28 июн 2025 в 09:15

А куда ушли авторы? Я хочу вместе с ними)

Alf51 28 июн 2025 в 10:51

Оу ! Присоединяюсь ! Поделитесь источниками плиз

НЛО прилетело и опубликовало эту надпись здесь

evilAleksandr 28 июн 2025 в 20:17

Цифры в статьях могли поменяться, так как есть время между парсингом и публикацией статьи

pavelsha 28 июн 2025 в 04:53

Спасибо за проведенный анализ и сделанные выводы.

Правильно ли я понял, что, если упростить посыл вашей статьи до основных ощущений, то Хабр постепенно превращается в «поддельные ёлочные игрушки, которые сверкают, но не приносят радости»?

А происходит это из-за потока мусорных статей. При этом использование искусственного интеллекта при написании статей в среднем ухудшает ситуацию, но не так значительно, как ожидалось.

Lineri 28 июн 2025 в 05:08

В общем и целом да. ИИ позволяет быстро и без особых затрат накидать статей пустышек которые ещё будут в среднем незначительно выше рейтингом чем статьи без ИИ. Выпустить 10 статей ужасного качества сделанных с помощью ИИ быстрее чем написать одну статью среднего качества. Поэтому приходят разные нехорошие человеки которые это используют для своих грязных целей.

ky0 28 июн 2025 в 05:50

Не забывайте ещё человеков, которые и без всякого ИИ гонят одну за другой однотипные статьи. Что хуже, даже и не знаю...

BigBeaver 28 окт 2025 в 09:44

Так на их статьях ИИ и обучается=)

Exosphere 28 июн 2025 в 06:05

Ваш метод определения ИИ/ не ИИ выглядит хлипко (как и любой существующий на данный момент) - я почти еженедельно проверяю сервисы на корректность, много ошибок в обе стороны. Плюс-минус пока справляется Гигачек, но и он стал промахиваться.

Ну и так же ваш выпад про отсутствие модерации качества статей не выдерживает критики: мы стараемся не жестить, но очень много статей улетают в черновики из уже опубликованных, если в них есть реальные проблемы с ИИ и фактчекингом.

Lineri 28 июн 2025 в 07:01

Было бы хорошо если бы это и в самом деле было так, однако у меня складывается ощущение что модерация Хабра живёт в другом мирке отгородившись от сообщества и старательно не замечает проблемы. Большинство авторов могут позволять публиковать откровенный шлак сгенерированный нейронкой и эти статьи часто будут иметь положительный рейтинг. В статье есть два хороших примера: полностью написанная нейронкой статья, факты искажены, имена в некорректном контексте, небольшие ошибки характерные для нейронок, даже в комментариях на это указали; второй пример как раз когда окончание ссылок было с меткой '?utm_source=chatgpt.com'. Обе эти статьи доступны, обе имеют положительный рейтинг.
Претензия к определению ИИ - в точку. Именно поэтому он бесполезен для оценки конкретной статьи и может использоваться только на большей выборке. Меня огорчает не наличие контента от ИИ в статье, а статьи низкого качества, которые часто идут за ручку с использованием ИИ.

И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг. Так как нет препятствий, штампованных статей от нейронок становится всё больше и больше что видно по динамике за 2024 год. И по своему личному опыту могу сказать что это косвенно влияет на общее качество статей которое продолжает стабильно падать из года в гож. Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?

VADemon 30 июн 2025 в 12:36

А как ваша сеть отличит изначально русскую статью от плохо переведенной английской или корп-блоговой статьи, где еще пара "странных" параграфов с рекламой? Еще некоторые авторы, которые ~~переводят~~ копирайтят без указания источников или пряча их по тексту как @alizar (уверен, у него и так оповещения отключены).

Вот ref в ссылке -- для эвристики отлично сгожается.

Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?

А тут надо побыть с той стороны баррикад или ловить свежеспрятанные статьи, чтобы понять, что у них там на входе.

MEGA_Nexus 28 июн 2025 в 07:31

На самом деле я ожидал более губительных результатов для статей с использованием ИИ, а получил совершенно обратное.

Может быть причина вот в этом:

Всего охвачено id - 116,792 из них было доступно только 59,390 статей. То есть почти каждая вторая статья так и не будет опубликована, будет скрыта или удалена.

Ты делаешь выборку только по половине статей, т.к. вторая (очевидно худшая) половина была удалена, либо скрыта в черновики (автором или модератором). Поэтому по итогу у тебя получается всё не так плохо, т.к. твоя выборка содержит только те статьи, с которыми всё более менее хорошо. Это примерно как утверждать, что люди не сорят на улице, смотря на чистую улицу после того, как её тщательно убрали дворники.

Lineri 28 июн 2025 в 07:58

Да, думаю частично так и есть. Однако получить доступ к заблокированным статьям или хотя бы прикинуть сколько из них было сначала опубликовано, а уже потом скрыто - очень и очень сложно. Поэтому приходится исходить из того что есть. В статье по статистике от Хабра за 2024 указано что из 39776 публикаций только 1503 были возвращены в черновики, однако не очень понятны критерии по которым считается это число. В целом я придерживаюсь мнения что после публикации крайне небольшой процент статей скрывается хотя проверить это достоверно не выйдет. Огромная разница между пулом id и тем сколько статей реально было доступно можно объяснить тем что банально половина статей после сохранения черновика и присвоения id, никогда не будет опубликована. Id для каждой статьи уникальный и не переиспользуется, вероятно даже в случае удаления черновика с этим id.

MEGA_Nexus 28 июн 2025 в 07:53

И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг.

И вот здесь было бы неплохо взять список всех пользователей Хабра, кто хотя бы 1 раз в месяц на него заходит. Определить, какой процент из них чисто теоретически имеет возможность поставить минус статье, т.е. обладает нужным уровнем Кармы. Может оказаться, что таких пользователей достаточно мало, поэтому "народная модерация" из-за этого не работает.

Lineri 28 июн 2025 в 08:02

Хабр выпускает каждый год свою статистику в которой обычно это число указано. За 2024 год полноправных пользователей от общего числа всего 7%.

MEGA_Nexus 28 июн 2025 в 13:07

Тогда понятно почему "народная модерация" не работает. Голосовать может только "элита", часть которой составляют сотрудники корпоративных блогов.

BigBeaver 28 окт 2025 в 09:47

Да просто проходных статей так много сейчас, что голосовалка сломается все фильтровать - тупо палец устанет минусы жать, даже если бы кармы хватало на такой заряд

beskov 28 июн 2025 в 13:51

Полное отсутствие какой либо модерации качества статей постепенно приведёт в огромный поток мусорных статей с тонной бессмысленного текста.

Непонятно, как этот вывод получился из исследования.

Для построения прогноза нужно хотя бы 3 точки, а у вас непонятно что.

Кажется, что всё исследование задумано лишь для того, чтобы иметь формальный повод поныть «молодежь ест руками и не уважает старших» и про отсутствие вертухаев-модераторов.

adrozhzhov 28 июн 2025 в 14:08

Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word

Эта статья

https://habr.com/ru/companies/beeline_tech/articles/781944/

Объясняющая как же на самом деле человек слышит в скринридерах написанное (с созданным для демонстрации роликом на ты трубе) основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео) получила рейтинг 243

Что согласно этому

Console.WriteLine($"Статей от одиночных авторов в написании которых использовался ИИ: " +
 $"{(float)articles.Where(a => !a.IsCompany && a.UsingAi > 235).Count() / articles.Where(a => !a.IsCompany).Count():P}");

Ну 100% явный и безапеляционный AI-креатив.

Статья с опытом внедрения Контур Толк, малопопулярная при публикации, но у которой очень интересный хвост растет последние пару месяцев, полбалла не добрала до обвинения в AI-ности.

По паре примеров можно сделать простой человеческий вывод, что AI-классификация вероятно использовала в своей основе старый добрый алгоритм "пальцем в небо"

НЛО прилетело и опубликовало эту надпись здесь

Lineri 28 июн 2025 в 20:11

Да точность там и правда сомнительная. Но 2 примера из выборки в 38 тысяч? Серьёзно? Пара примеров из 38 тысяч это черипикинг, а не вывод. Даже если бы точность была 99,9% на такой выборке всё ещё будут десятки статей с некорректными результатами. То что на какой то статье не тот результат, который бы вам хотелось увидеть, это не проблема алгоритма, а исключительно ваша проблема. Выдёргивать 2 статьи из выборки в 38 тысяч и вместо аргументации, фактов, анализа и указания на ошибки в методологии, говорить лишь:

Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word...
... основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео)...

Я не очень понимаю каким образом это вообще может быть аргументом. Я ничего не говорю сейчас о самом докладе или статье, но сама аргументация полностью ошибочна. Если какая то идея прозвучала на популярным мероприятии, это не значит что она автоматически хорошая или верная. Даже в научных журналах часто публикуются сомнительные материалы, а тут логика даже ещё круче 'статья написана по докладу на СЕКР, если доклад был на СЕКР значит он хороший, а если доклад хороший то статья которая написана по этому докладу хорошая, а значит она не написана с помощью ИИ'. Это уровень аргументации на детской площадке, а не профессиональной дискуссии.

Лично я не готов рассматривать критику не подкреплённую фактами и на её основании полностью перепроверять результаты даже если сама идея в этой критике кажется 'логичной'. Пока полученные мной результаты не опровергнуты - я прав, а критика без фактов - обычные домыслы уровня каких-нибудь надписей на заборе.

Все данные в открытом доступе, в том числе дата сет. Ничего не мешает шаг за шагом повторить анализ и воспроизвести полученные результаты, но неужели вместо этого проще начать не подкреплённое конструктивными фактами шапкозакидательство? Если пальцем в небо - покажите, куда именно, вместе посмотрим на облачка. Если не можете, то может быть виноват не неправильный алгоритм?

adrozhzhov 28 июн 2025 в 21:27

У меня несколько статей в выборке, про которые я на 100% уверен в том, что AI не использовался. И для меня процент ложного срабатывания 20 (чуть чуть не дотянуло до 40). Только одна статья была безопасно далека от порога 235.

Поэтому лично у меня особого доверия результаты не вызывают. И на моём наборе оно пальцем в небо.

Про "AI"-статью. Она основана на опыте с коллегой, потерпевшем зрение. И рассказывает про особенности восприятия человеком написанного на слух. Реально самая человеческая статья признанна самой ai.

И да, статья на основе материалов доклада писалась в 19 году. Ко 2му четвергу октября, дню информирования о проблемах со зрением. До всех этих LLM. Я её тогда в едином линке впервые публиковал тогда. Для хабра в 23м году сам переработал.

alexhu 28 июн 2025 в 18:12

У меня вопрос - как вы сохраняли спарсенный код html ? Все мои попытки сохранить исходный html код в файле .csv закончились по сути неудачей. Сериализация не кодирует все символы, убрать символы - это поломать разметку, сделать экранирование - тоже не всегда помогает. В итоге сделал сохранение, но очень специфичный - на python всё делал.

Lineri 28 июн 2025 в 20:25

Не сталкивался с такой проблемой поэтому не могу ничего сказать. На Python я использовал только Selenium и работал со страницей через него. У меня само сохранение разделено на два этапа: сохранение http ответа и сохранение уже готовых данных.

Я получал простой http ответ в виде страницы, затем использовал библиотеку HtmlAgilityPack чтобы вырвать из кода страницы нужный элемент в котором находятся данные и сохранял html код только этого элемента дабы уменьшить занимаемое место.

После вручную из этого блока кода так же с помощью HtmlAgilityPack вырывал нужные мне значения в определённый элементах. Подставлял в переменные класса, и сам класс уже просто сохранял.

VADemon 30 июн 2025 в 12:41

Через HTML entities закодировать можно что угодно, но зачем? буханка-трамвай.жпег тем более в csv?

alexhu 3 июл 2025 в 06:10

Вот такой код кодирует html сущности:

import html

your_string = "<p>hello</p>"

# encoder

result = html.escape(your_string)

print(result)

Получаем

<p>hello&l t;/p>

- то есть в результате несколько точек с запятой, а этим разделителем я делю строки в файле .csv

По итогу написал своё решение по замене символов, готовых решений не нашёл.

VADemon 3 июл 2025 в 06:34

Верно. Но использовать можно запятую. И помимо этого, ЕМНИП, Libreoffice предлагает на выбор разделители: пробел, таб.

Зачем использовать построковый формат для хранения произвольного текста - мне всё ещё не понятно.

alexhu 3 июл 2025 в 06:45

Делал экспертную систему на основе текстовых данных - ну считайте примитивными экспериментами по машинному обучению и нейронкам. Нужны были именно тексты и нужен был исходный html и поэтому выбрал разделителем точку с запятой, от этого символа очищал текст. Вот потому остальные разделители и не подошли - это был компромисс на основе нескольких недель проб.

VADemon 3 июл 2025 в 06:49

Тогда, я понимаю, на лету преобразовывать в обычный HTML было бы накладно из-за изменений на принимающей стороне?

alexhu 3 июл 2025 в 07:02

Подготовка данных очень ресурсно - затратный процесс. Подготовка 160 Мб занимала 2,5 часа (python) на 4 ядрах i-5, Комп помощнее был занят, можно было распаралелить, только тут уже проблемы с балансировкой, нормализацией и сведением в общий файл. Поскольку по сути это разовый процесс, то делал так.

И поскольку у меня подготовка данных занимала пару часов, а перед этим показывали цифры в пару суток на гораздо более скромной по размеру базе, то наверное сделал неплохо.

evilAleksandr 28 июн 2025 в 20:22

Спасибо за репозиторий! Когда нибудь руки дойдут и сделаю UMAP анализ слов и частотный. Посмотрим что выйдет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий