Comments 33
Люди с самых древних времён интересовались тремя главными вопросами мироздания: почему горит огонь, какой формы земля и мёртв ли Хабр.
Написано слишком пафосно, как будто сейчас будет лонгрид экстра класса. Но.
По вашим же ссылкам рейтинги статей другие: 752/-87.
Оформление упомянутого почему-то трижды репозитория — отсутствует, хотя бы в ридми ссылку на статью дали, если не в состоянии кроме лицензии что-то большее сообщить.Орфографию не помешало бы проверить: "так же" (также), "придел" (предел), "на последок" (напоследок). Перечисления пишутся через дефиз, а у вас после "во вторых" еще идет и "в восьмых".
Итог: весь пафос разбился вместе с качеством публикации, на Яндекс Дзен такое бы выкладывать. Но и без аналитики очевидно, что Хабр скатился (в ИИ), крепкие авторы ушли на другие площадки, поэтому статья соотв. ожиданиям.
Оформление упомянутого почему-то трижды репозитория — отсутствует, хотя бы в ридми ссылку на статью дали, если не в состоянии кроме лицензии что-то большее сообщить.Орфографию не помешало бы проверить: "так же" (также), "придел" (предел), "на последок" (напоследок). Перечисления пишутся через дефиз, а у вас после "во вторых" еще идет и "в восьмых
Кажется вот тут использование LLM помогло бы 😁😁😁
Опять особенный авторский стиль не признают и называют ошибкой орфографии :(
По поводу рейтинга, в статье дважды было упомянуто что он рассчитывается по разному: на сайте используется весовая система где 1 голос может давать и +1 и +5, я же использовал обычную систему в виде 'рейтинг = количество плюсов - количество минусов'.
Не уверен что для репозитория нужно делать хоть какое либо оформление, как по мне это в целом не имеет смысла. Основную ценность из всего того что туда залито представляют сами статьи, которые в виде таблиц продублированы ещё на диск, остальное вероятно никогда не будет использовано.
И да, хотелось бы лонгрид, но к сожалению моё свободное время не позволяет вытворять нечто подобно поэтому пришлось ужаться максимально коротко.
Совет не в авторском стиле, а в вычитке статьи перед публикацией. Идеально вычитывать пару раз вслух.
Кстати, недавно Мартин Фаулер (https://martinfowler.com/) дал примерно такой совет у себя в блоге.
А если глаз замылился или считаете, что читать вслух — это признак шизофрении, то можно привлечь к вычитке ИскИн. Главное, сформулируйте конкретный промпт.

А куда ушли авторы? Я хочу вместе с ними)
Цифры в статьях могли поменяться, так как есть время между парсингом и публикацией статьи
Спасибо за проведенный анализ и сделанные выводы.
Правильно ли я понял, что, если упростить посыл вашей статьи до основных ощущений, то Хабр постепенно превращается в «поддельные ёлочные игрушки, которые сверкают, но не приносят радости»?
А происходит это из-за потока мусорных статей. При этом использование искусственного интеллекта при написании статей в среднем ухудшает ситуацию, но не так значительно, как ожидалось.
В общем и целом да. ИИ позволяет быстро и без особых затрат накидать статей пустышек которые ещё будут в среднем незначительно выше рейтингом чем статьи без ИИ. Выпустить 10 статей ужасного качества сделанных с помощью ИИ быстрее чем написать одну статью среднего качества. Поэтому приходят разные нехорошие человеки которые это используют для своих грязных целей.
Ваш метод определения ИИ/ не ИИ выглядит хлипко (как и любой существующий на данный момент) - я почти еженедельно проверяю сервисы на корректность, много ошибок в обе стороны. Плюс-минус пока справляется Гигачек, но и он стал промахиваться.
Ну и так же ваш выпад про отсутствие модерации качества статей не выдерживает критики: мы стараемся не жестить, но очень много статей улетают в черновики из уже опубликованных, если в них есть реальные проблемы с ИИ и фактчекингом.
Было бы хорошо если бы это и в самом деле было так, однако у меня складывается ощущение что модерация Хабра живёт в другом мирке отгородившись от сообщества и старательно не замечает проблемы. Большинство авторов могут позволять публиковать откровенный шлак сгенерированный нейронкой и эти статьи часто будут иметь положительный рейтинг. В статье есть два хороших примера: полностью написанная нейронкой статья, факты искажены, имена в некорректном контексте, небольшие ошибки характерные для нейронок, даже в комментариях на это указали; второй пример как раз когда окончание ссылок было с меткой '?utm_source=chatgpt.com'. Обе эти статьи доступны, обе имеют положительный рейтинг.
Претензия к определению ИИ - в точку. Именно поэтому он бесполезен для оценки конкретной статьи и может использоваться только на большей выборке. Меня огорчает не наличие контента от ИИ в статье, а статьи низкого качества, которые часто идут за ручку с использованием ИИ.
И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг. Так как нет препятствий, штампованных статей от нейронок становится всё больше и больше что видно по динамике за 2024 год. И по своему личному опыту могу сказать что это косвенно влияет на общее качество статей которое продолжает стабильно падать из года в гож. Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?

А как ваша сеть отличит изначально русскую статью от плохо переведенной английской или корп-блоговой статьи, где еще пара "странных" параграфов с рекламой? Еще некоторые авторы, которые переводят копирайтят без указания источников или пряча их по тексту как @alizar (уверен, у него и так оповещения отключены).
Вот ref в ссылке -- для эвристики отлично сгожается.
Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?
А тут надо побыть с той стороны баррикад или ловить свежеспрятанные статьи, чтобы понять, что у них там на входе.
На самом деле я ожидал более губительных результатов для статей с использованием ИИ, а получил совершенно обратное.
Может быть причина вот в этом:
Всего охвачено id - 116,792 из них было доступно только 59,390 статей. То есть почти каждая вторая статья так и не будет опубликована, будет скрыта или удалена.
Ты делаешь выборку только по половине статей, т.к. вторая (очевидно худшая) половина была удалена, либо скрыта в черновики (автором или модератором). Поэтому по итогу у тебя получается всё не так плохо, т.к. твоя выборка содержит только те статьи, с которыми всё более менее хорошо. Это примерно как утверждать, что люди не сорят на улице, смотря на чистую улицу после того, как её тщательно убрали дворники.
Да, думаю частично так и есть. Однако получить доступ к заблокированным статьям или хотя бы прикинуть сколько из них было сначала опубликовано, а уже потом скрыто - очень и очень сложно. Поэтому приходится исходить из того что есть. В статье по статистике от Хабра за 2024 указано что из 39776 публикаций только 1503 были возвращены в черновики, однако не очень понятны критерии по которым считается это число. В целом я придерживаюсь мнения что после публикации крайне небольшой процент статей скрывается хотя проверить это достоверно не выйдет. Огромная разница между пулом id и тем сколько статей реально было доступно можно объяснить тем что банально половина статей после сохранения черновика и присвоения id, никогда не будет опубликована. Id для каждой статьи уникальный и не переиспользуется, вероятно даже в случае удаления черновика с этим id.
И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг.
И вот здесь было бы неплохо взять список всех пользователей Хабра, кто хотя бы 1 раз в месяц на него заходит. Определить, какой процент из них чисто теоретически имеет возможность поставить минус статье, т.е. обладает нужным уровнем Кармы. Может оказаться, что таких пользователей достаточно мало, поэтому "народная модерация" из-за этого не работает.
Хабр выпускает каждый год свою статистику в которой обычно это число указано. За 2024 год полноправных пользователей от общего числа всего 7%.
Полное отсутствие какой либо модерации качества статей постепенно приведёт в огромный поток мусорных статей с тонной бессмысленного текста.
Непонятно, как этот вывод получился из исследования.
Для построения прогноза нужно хотя бы 3 точки, а у вас непонятно что.
Кажется, что всё исследование задумано лишь для того, чтобы иметь формальный повод поныть «молодежь ест руками и не уважает старших» и про отсутствие вертухаев-модераторов.
Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word
Эта статья
https://habr.com/ru/companies/beeline_tech/articles/781944/
Объясняющая как же на самом деле человек слышит в скринридерах написанное (с созданным для демонстрации роликом на ты трубе) основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео) получила рейтинг 243

Что согласно этому
Console.WriteLine($"Статей от одиночных авторов в написании которых использовался ИИ: " +
$"{(float)articles.Where(a => !a.IsCompany && a.UsingAi > 235).Count() / articles.Where(a => !a.IsCompany).Count():P}");
Ну 100% явный и безапеляционный AI-креатив.
Статья с опытом внедрения Контур Толк, малопопулярная при публикации, но у которой очень интересный хвост растет последние пару месяцев, полбалла не добрала до обвинения в AI-ности.
По паре примеров можно сделать простой человеческий вывод, что AI-классификация вероятно использовала в своей основе старый добрый алгоритм "пальцем в небо"
Да точность там и правда сомнительная. Но 2 примера из выборки в 38 тысяч? Серьёзно? Пара примеров из 38 тысяч это черипикинг, а не вывод. Даже если бы точность была 99,9% на такой выборке всё ещё будут десятки статей с некорректными результатами. То что на какой то статье не тот результат, который бы вам хотелось увидеть, это не проблема алгоритма, а исключительно ваша проблема. Выдёргивать 2 статьи из выборки в 38 тысяч и вместо аргументации, фактов, анализа и указания на ошибки в методологии, говорить лишь:
Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word...
... основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео)...
Я не очень понимаю каким образом это вообще может быть аргументом. Я ничего не говорю сейчас о самом докладе или статье, но сама аргументация полностью ошибочна. Если какая то идея прозвучала на популярным мероприятии, это не значит что она автоматически хорошая или верная. Даже в научных журналах часто публикуются сомнительные материалы, а тут логика даже ещё круче 'статья написана по докладу на СЕКР, если доклад был на СЕКР значит он хороший, а если доклад хороший то статья которая написана по этому докладу хорошая, а значит она не написана с помощью ИИ'. Это уровень аргументации на детской площадке, а не профессиональной дискуссии.
Лично я не готов рассматривать критику не подкреплённую фактами и на её основании полностью перепроверять результаты даже если сама идея в этой критике кажется 'логичной'. Пока полученные мной результаты не опровергнуты - я прав, а критика без фактов - обычные домыслы уровня каких-нибудь надписей на заборе.
Все данные в открытом доступе, в том числе дата сет. Ничего не мешает шаг за шагом повторить анализ и воспроизвести полученные результаты, но неужели вместо этого проще начать не подкреплённое конструктивными фактами шапкозакидательство? Если пальцем в небо - покажите, куда именно, вместе посмотрим на облачка. Если не можете, то может быть виноват не неправильный алгоритм?
У меня несколько статей в выборке, про которые я на 100% уверен в том, что AI не использовался. И для меня процент ложного срабатывания 20 (чуть чуть не дотянуло до 40). Только одна статья была безопасно далека от порога 235.
Поэтому лично у меня особого доверия результаты не вызывают. И на моём наборе оно пальцем в небо.
Про "AI"-статью. Она основана на опыте с коллегой, потерпевшем зрение. И рассказывает про особенности восприятия человеком написанного на слух. Реально самая человеческая статья признанна самой ai.
И да, статья на основе материалов доклада писалась в 19 году. Ко 2му четвергу октября, дню информирования о проблемах со зрением. До всех этих LLM. Я её тогда в едином линке впервые публиковал тогда. Для хабра в 23м году сам переработал.
У меня вопрос - как вы сохраняли спарсенный код html ? Все мои попытки сохранить исходный html код в файле .csv закончились по сути неудачей. Сериализация не кодирует все символы, убрать символы - это поломать разметку, сделать экранирование - тоже не всегда помогает. В итоге сделал сохранение, но очень специфичный - на python всё делал.
Не сталкивался с такой проблемой поэтому не могу ничего сказать. На Python я использовал только Selenium и работал со страницей через него. У меня само сохранение разделено на два этапа: сохранение http ответа и сохранение уже готовых данных.
Я получал простой http ответ в виде страницы, затем использовал библиотеку HtmlAgilityPack чтобы вырвать из кода страницы нужный элемент в котором находятся данные и сохранял html код только этого элемента дабы уменьшить занимаемое место.
После вручную из этого блока кода так же с помощью HtmlAgilityPack вырывал нужные мне значения в определённый элементах. Подставлял в переменные класса, и сам класс уже просто сохранял.
Через HTML entities закодировать можно что угодно, но зачем? буханка-трамвай.жпег тем более в csv?
Вот такой код кодирует html сущности:
import html
your_string = "<p>hello</p>"
# encoder
result = html.escape(your_string)
print(result)
Получаем
<p>hello&l t;/p>
- то есть в результате несколько точек с запятой, а этим разделителем я делю строки в файле .csv
По итогу написал своё решение по замене символов, готовых решений не нашёл.
Верно. Но использовать можно запятую. И помимо этого, ЕМНИП, Libreoffice предлагает на выбор разделители: пробел, таб.
Зачем использовать построковый формат для хранения произвольного текста - мне всё ещё не понятно.
Делал экспертную систему на основе текстовых данных - ну считайте примитивными экспериментами по машинному обучению и нейронкам. Нужны были именно тексты и нужен был исходный html и поэтому выбрал разделителем точку с запятой, от этого символа очищал текст. Вот потому остальные разделители и не подошли - это был компромисс на основе нескольких недель проб.
Тогда, я понимаю, на лету преобразовывать в обычный HTML было бы накладно из-за изменений на принимающей стороне?
Подготовка данных очень ресурсно - затратный процесс. Подготовка 160 Мб занимала 2,5 часа (python) на 4 ядрах i-5, Комп помощнее был занят, можно было распаралелить, только тут уже проблемы с балансировкой, нормализацией и сведением в общий файл. Поскольку по сути это разовый процесс, то делал так.
И поскольку у меня подготовка данных занимала пару часов, а перед этим показывали цифры в пару суток на гораздо более скромной по размеру базе, то наверное сделал неплохо.
Спасибо за репозиторий! Когда нибудь руки дойдут и сделаю UMAP анализ слов и частотный. Посмотрим что выйдет.
Мета-анализ Хабра 2024: так ли всё плохо?