Как стать автором
Обновить

Комментарии 26

Люди с самых древних времён интересовались тремя главными вопросами мироздания: почему горит огонь, какой формы земля и мёртв ли Хабр. 

Написано слишком пафосно, как будто сейчас будет лонгрид экстра класса. Но.

Самый большой рейтинг на статье 638самый маленький -93.

По вашим же ссылкам рейтинги статей другие: 752/-87.

Оформление упомянутого почему-то трижды репозитория — отсутствует, хотя бы в ридми ссылку на статью дали, если не в состоянии кроме лицензии что-то большее сообщить.Орфографию не помешало бы проверить: "так же" (также), "придел" (предел), "на последок" (напоследок). Перечисления пишутся через дефиз, а у вас после "во вторых" еще идет и "в восьмых".

Итог: весь пафос разбился вместе с качеством публикации, на Яндекс Дзен такое бы выкладывать. Но и без аналитики очевидно, что Хабр скатился (в ИИ), крепкие авторы ушли на другие площадки, поэтому статья соотв. ожиданиям.

Оформление упомянутого почему-то трижды репозитория — отсутствует, хотя бы в ридми ссылку на статью дали, если не в состоянии кроме лицензии что-то большее сообщить.Орфографию не помешало бы проверить: "так же" (также), "придел" (предел), "на последок" (напоследок). Перечисления пишутся через дефиз, а у вас после "во вторых" еще идет и "в восьмых

Кажется вот тут использование LLM помогло бы 😁😁😁

Опять особенный авторский стиль не признают и называют ошибкой орфографии :(
По поводу рейтинга, в статье дважды было упомянуто что он рассчитывается по разному: на сайте используется весовая система где 1 голос может давать и +1 и +5, я же использовал обычную систему в виде 'рейтинг = количество плюсов - количество минусов'.
Не уверен что для репозитория нужно делать хоть какое либо оформление, как по мне это в целом не имеет смысла. Основную ценность из всего того что туда залито представляют сами статьи, которые в виде таблиц продублированы ещё на диск, остальное вероятно никогда не будет использовано.
И да, хотелось бы лонгрид, но к сожалению моё свободное время не позволяет вытворять нечто подобно поэтому пришлось ужаться максимально коротко.

Совет не в авторском стиле, а в вычитке статьи перед публикацией. Идеально вычитывать пару раз вслух.

Кстати, недавно Мартин Фаулер (https://martinfowler.com/) дал примерно такой совет у себя в блоге. 

А если глаз замылился или считаете, что читать вслух — это признак шизофрении, то можно привлечь к вычитке ИскИн. Главное, сформулируйте конкретный промпт. 

Вот такой скорее всего не подойдет
Вот такой скорее всего не подойдет

А куда ушли авторы? Я хочу вместе с ними)

Оу ! Присоединяюсь ! Поделитесь источниками плиз

НЛО прилетело и опубликовало эту надпись здесь

Цифры в статьях могли поменяться, так как есть время между парсингом и публикацией статьи

Спасибо за проведенный анализ и сделанные выводы.

Правильно ли я понял, что, если упростить посыл вашей статьи до основных ощущений, то Хабр постепенно превращается в «поддельные ёлочные игрушки, которые сверкают, но не приносят радости»?

А происходит это из-за потока мусорных статей. При этом использование искусственного интеллекта при написании статей в среднем ухудшает ситуацию, но не так значительно, как ожидалось.

В общем и целом да. ИИ позволяет быстро и без особых затрат накидать статей пустышек которые ещё будут в среднем незначительно выше рейтингом чем статьи без ИИ. Выпустить 10 статей ужасного качества сделанных с помощью ИИ быстрее чем написать одну статью среднего качества. Поэтому приходят разные нехорошие человеки которые это используют для своих грязных целей.

Не забывайте ещё человеков, которые и без всякого ИИ гонят одну за другой однотипные статьи. Что хуже, даже и не знаю...

Ваш метод определения ИИ/ не ИИ выглядит хлипко (как и любой существующий на данный момент) - я почти еженедельно проверяю сервисы на корректность, много ошибок в обе стороны. Плюс-минус пока справляется Гигачек, но и он стал промахиваться.

Ну и так же ваш выпад про отсутствие модерации качества статей не выдерживает критики: мы стараемся не жестить, но очень много статей улетают в черновики из уже опубликованных, если в них есть реальные проблемы с ИИ и фактчекингом.

Было бы хорошо если бы это и в самом деле было так, однако у меня складывается ощущение что модерация Хабра живёт в другом мирке отгородившись от сообщества и старательно не замечает проблемы. Большинство авторов могут позволять публиковать откровенный шлак сгенерированный нейронкой и эти статьи часто будут иметь положительный рейтинг. В статье есть два хороших примера: полностью написанная нейронкой статья, факты искажены, имена в некорректном контексте, небольшие ошибки характерные для нейронок, даже в комментариях на это указали; второй пример как раз когда окончание ссылок было с меткой '?utm_source=chatgpt.com'. Обе эти статьи доступны, обе имеют положительный рейтинг.
Претензия к определению ИИ - в точку. Именно поэтому он бесполезен для оценки конкретной статьи и может использоваться только на большей выборке. Меня огорчает не наличие контента от ИИ в статье, а статьи низкого качества, которые часто идут за ручку с использованием ИИ.

И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг. Так как нет препятствий, штампованных статей от нейронок становится всё больше и больше что видно по динамике за 2024 год. И по своему личному опыту могу сказать что это косвенно влияет на общее качество статей которое продолжает стабильно падать из года в гож. Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?

На самом деле я ожидал более губительных результатов для статей с использованием ИИ, а получил совершенно обратное.

Может быть причина вот в этом:

Всего охвачено id - 116,792 из них было доступно только 59,390 статей. То есть почти каждая вторая статья так и не будет опубликована, будет скрыта или удалена.

Ты делаешь выборку только по половине статей, т.к. вторая (очевидно худшая) половина была удалена, либо скрыта в черновики (автором или модератором). Поэтому по итогу у тебя получается всё не так плохо, т.к. твоя выборка содержит только те статьи, с которыми всё более менее хорошо. Это примерно как утверждать, что люди не сорят на улице, смотря на чистую улицу после того, как её тщательно убрали дворники.

Да, думаю частично так и есть. Однако получить доступ к заблокированным статьям или хотя бы прикинуть сколько из них было сначала опубликовано, а уже потом скрыто - очень и очень сложно. Поэтому приходится исходить из того что есть. В статье по статистике от Хабра за 2024 указано что из 39776 публикаций только 1503 были возвращены в черновики, однако не очень понятны критерии по которым считается это число. В целом я придерживаюсь мнения что после публикации крайне небольшой процент статей скрывается хотя проверить это достоверно не выйдет. Огромная разница между пулом id и тем сколько статей реально было доступно можно объяснить тем что банально половина статей после сохранения черновика и присвоения id, никогда не будет опубликована. Id для каждой статьи уникальный и не переиспользуется, вероятно даже в случае удаления черновика с этим id.

И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг.

И вот здесь было бы неплохо взять список всех пользователей Хабра, кто хотя бы 1 раз в месяц на него заходит. Определить, какой процент из них чисто теоретически имеет возможность поставить минус статье, т.е. обладает нужным уровнем Кармы. Может оказаться, что таких пользователей достаточно мало, поэтому "народная модерация" из-за этого не работает.

Хабр выпускает каждый год свою статистику в которой обычно это число указано. За 2024 год полноправных пользователей от общего числа всего 7%.

Тогда понятно почему "народная модерация" не работает. Голосовать может только "элита", часть которой составляют сотрудники корпоративных блогов.

Полное отсутствие какой либо модерации качества статей постепенно приведёт в огромный поток мусорных статей с тонной бессмысленного текста.

Непонятно, как этот вывод получился из исследования.

Для построения прогноза нужно хотя бы 3 точки, а у вас непонятно что.

Кажется, что всё исследование задумано лишь для того, чтобы иметь формальный повод поныть «молодежь ест руками и не уважает старших» и про отсутствие вертухаев-модераторов.

Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word

Эта статья

https://habr.com/ru/companies/beeline_tech/articles/781944/

Объясняющая как же на самом деле человек слышит в скринридерах написанное (с созданным для демонстрации роликом на ты трубе) основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео) получила рейтинг 243

Что согласно этому

Console.WriteLine($"Статей от одиночных авторов в написании которых использовался ИИ: " +
 $"{(float)articles.Where(a => !a.IsCompany && a.UsingAi > 235).Count() / articles.Where(a => !a.IsCompany).Count():P}");

Ну 100% явный и безапеляционный AI-креатив.

Статья с опытом внедрения Контур Толк, малопопулярная при публикации, но у которой очень интересный хвост растет последние пару месяцев, полбалла не добрала до обвинения в AI-ности.

По паре примеров можно сделать простой человеческий вывод, что AI-классификация вероятно использовала в своей основе старый добрый алгоритм "пальцем в небо"

Самое смешное начинается если вы проверяете статьи которые писались ДО широкого выхода ллмок.

Да точность там и правда сомнительная. Но 2 примера из выборки в 38 тысяч? Серьёзно? Пара примеров из 38 тысяч это черипикинг, а не вывод. Даже если бы точность была 99,9% на такой выборке всё ещё будут десятки статей с некорректными результатами. То что на какой то статье не тот результат, который бы вам хотелось увидеть, это не проблема алгоритма, а исключительно ваша проблема. Выдёргивать 2 статьи из выборки в 38 тысяч и вместо аргументации, фактов, анализа и указания на ошибки в методологии, говорить лишь:

Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word...

... основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео)...

Я не очень понимаю каким образом это вообще может быть аргументом. Я ничего не говорю сейчас о самом докладе или статье, но сама аргументация полностью ошибочна. Если какая то идея прозвучала на популярным мероприятии, это не значит что она автоматически хорошая или верная. Даже в научных журналах часто публикуются сомнительные материалы, а тут логика даже ещё круче 'статья написана по докладу на СЕКР, если доклад был на СЕКР значит он хороший, а если доклад хороший то статья которая написана по этому докладу хорошая, а значит она не написана с помощью ИИ'. Это уровень аргументации на детской площадке, а не профессиональной дискуссии.

Лично я не готов рассматривать критику не подкреплённую фактами и на её основании полностью перепроверять результаты даже если сама идея в этой критике кажется 'логичной'. Пока полученные мной результаты не опровергнуты - я прав, а критика без фактов - обычные домыслы уровня каких-нибудь надписей на заборе.

Все данные в открытом доступе, в том числе дата сет. Ничего не мешает шаг за шагом повторить анализ и воспроизвести полученные результаты, но неужели вместо этого проще начать не подкреплённое конструктивными фактами шапкозакидательство? Если пальцем в небо - покажите, куда именно, вместе посмотрим на облачка. Если не можете, то может быть виноват не неправильный алгоритм?

У меня несколько статей в выборке, про которые я на 100% уверен в том, что AI не использовался. И для меня процент ложного срабатывания 20 (чуть чуть не дотянуло до 40). Только одна статья была безопасно далека от порога 235.

Поэтому лично у меня особого доверия результаты не вызывают. И на моём наборе оно пальцем в небо.

Про "AI"-статью. Она основана на опыте с коллегой, потерпевшем зрение. И рассказывает про особенности восприятия человеком написанного на слух. Реально самая человеческая статья признанна самой ai.

И да, статья на основе материалов доклада писалась в 19 году. Ко 2му четвергу октября, дню информирования о проблемах со зрением. До всех этих LLM. Я её тогда в едином линке впервые публиковал тогда. Для хабра в 23м году сам переработал.

У меня вопрос - как вы сохраняли спарсенный код html ? Все мои попытки сохранить исходный html код в файле .csv закончились по сути неудачей. Сериализация не кодирует все символы, убрать символы - это поломать разметку, сделать экранирование - тоже не всегда помогает. В итоге сделал сохранение, но очень специфичный - на python всё делал.

Не сталкивался с такой проблемой поэтому не могу ничего сказать. На Python я использовал только Selenium и работал со страницей через него. У меня само сохранение разделено на два этапа: сохранение http ответа и сохранение уже готовых данных.

Я получал простой http ответ в виде страницы, затем использовал библиотеку HtmlAgilityPack чтобы вырвать из кода страницы нужный элемент в котором находятся данные и сохранял html код только этого элемента дабы уменьшить занимаемое место.

После вручную из этого блока кода так же с помощью HtmlAgilityPack вырывал нужные мне значения в определённый элементах. Подставлял в переменные класса, и сам класс уже просто сохранял.

Спасибо за репозиторий! Когда нибудь руки дойдут и сделаю UMAP анализ слов и частотный. Посмотрим что выйдет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации