Обновить

Комментарии 37

с вероятностью 50%

Так это изначально было ясно, страница либо сгененирована AI, либо - не сгенерирована.

Вероятность такая же как и встретить динозавра на улице.

Подушню. Это не вероятность, а варианты событий.

Вы путаете вероятность возникновения события и вероятность того, что одно из двух событий произойдет. Это довольно распространенная путаница

почему график «AI» не падает до 0%, когда график «Human» достигает 100%?

В сети есть несколько этих графиков. Например в FT он симметричный. https://www.ft.com/content/ae156d04-d724-49f2-b9ad-b288e405b1c2
Возможно несимметричный график это результат неудачной перерисовки. (попросили ИИ сделать график покрасивее, а он пририсовал себе несколько процентов)

откуда эти колебания на 3...5% перед появлением ChatGPT?

Это вполне нормально - ведь методика заведомо несовершенна. Было бы странно если бы график был идеальным.

почему рост AI‑контента резко замедлился в 2024 году?

В какой-то момент замедление должно было произойти, когда начали принимать меры по фильтрации контента. Поначалу пропускали все подряд, наивно думая что ИИ так писать не умеет.


Странно что процент сходится к 50%. Сложно представить наличие какого-то балансирующего механизма.

В сети есть несколько этих графиков.

Я брал график именно из оригинала статьи.

методика заведомо несовершенна. Было бы странно если бы график был идеальным.

Отдельные точки плюс аппроксимирующая гладкая кривая выглядели бы, на мой взгляд, куда честнее. Потому, что сейчас вид как будто...

...попросили ИИ сделать график покрасивее, а он пририсовал себе несколько процентов...

...туда, несколько процентов сюда. Чтоб выглядело типа научно.

В какой-то момент замедление должно было произойти, когда начали принимать меры по фильтрации контента.

А может- наоборот, чекеры начали "сдавать", а реально AI-контента куда больше. А может - что угодно ещё. Но как будто данное исследование делалось не для выяснения этих любопытных подробностей :)

Странно что процент сходится к 50%. Сложно представить наличие какого-то балансирующего механизма.

О да! И не только это странно :)

Сложно представить наличие какого-то балансирующего механизма.

Про 50 или не 50 не скажу. Но модели же на примерах учатся. Не будет живых кожаных примеров - не будет обновления моделей. Вот он - балансирующий механизм.

Странно что процент сходится к 50%. Сложно представить наличие какого-то балансирующего механизма.

А вот тут мы входим в зону антропологии, нейробиологии, экономики и прочих анти нетехнических наук. Надо смотреть на общее увеличение контента и его влияния на отдельного человека. В экономике подобная балансировка идет постоянно. Та же биржа.
В целом 50% -- это традиционно точка бифуркации, после которой запускаются всякие разные, но обычно болезненные механизмы балансировки.

А вот тут мы входим в зону антропологии, нейробиологии, экономики и прочих анти нетехнических наук.

Мы входим в зону "Что именно исследовали исследователи: алгоритмы кэширования Common Crawl, способность Originality выявлять LLM, способность ChatGPT генерировать невыявляемый LLM-контент или, типа, концентрацию LLM-контента в интернете в целом?"

Автор, спасибо, посмеялся с алгоритма про числа! Но если серьезно, то гонка вооружений между генерацией и детекторами бесконечна. Текст еще ладно, а вот сейчас выходит Sora 2 с генерацией видео, и там уровень реализма такой, что скоро вообще перестанем верить глазам. Common Crawl просто не успеет это всё индексировать...

Мне ещё со времён Фотошопа CS3 обещали, что я напрочь перестану верить глазам и настоящие фотографии навсегда станут неотличимыми от поддельных.

Проверил эту статью на процент генерации ИИ, и вот чудо число стало равным 51%. Неплохо для начала!

Проверяли моим алгоритмом, я надеюсь? :)

Дык, естественно. Числа 2024 и 2025-то есть. Даже 5100 есть.

И то правда :)

Слишком сумбурно и ничего не понятно.

Суть его в следующем. Ваше вычислительное устройство открывает web‑страницу и ищет на ней четырёхзначные числа. Если таких чисел нет или если на странице попадается хотя бы одно число, большее чем 2023, такая web‑страница с вероятностью 50% AI‑сгенерирована.

Иными словами, если я напишу статью с итогами 2024 года или о технологиях, которые появились в 2025 году, то ваш детектор будет считать мою статью сгенерированной ИИ? Серьёзно?

с вероятностью 50% AI‑сгенерирована.

Второй момент. Вероятность 50%, это как если бы вы на любой вопрос отвечали: Да и нет одновременно.

- Вырастит ли завтра курс Биткоина?

- Да и нет.

- Так вырастит он или нет?

- Да и нет.

- Зарядка по утра полезна?

- Да и нет.

Т.е. по факту вероятность в 50% означает, то что у вас нет даже приблизительного ответа.

если я напишу статью с итогами 2024 года или о технологиях, которые появились в 2025 году, то ваш детектор будет считать мою статью сгенерированной ИИ?

Не совсем так. Мой алгоритм будет считать её сгенерированной с 50% вероятностью.

Вы можете сказать, что на ваш взгляд это достаточно высокий уровень неопределённости. А я скажу, что это субъективно и ни один алгоритм выявления генеративного контента не работает со 100% гарантией.

Например, по данным приведённого мною исследования система Originality в 2022 году распознавала до 10% статей в интернете как заведомо и почти полностью нейросгенерированные. А в настоящее время она даёт противоречивые результаты для 40% статей.

Возможно мой алгоритм не столь точен. Но зато он на много порядков менее требователен к ресурсам.

Вероятность 50%, это как если бы вы на любой вопрос отвечали: Да и нет одновременно.

Нет. Не на любой. Если в статье указана дата публикации "2021 год", алгоритм произведёт совсем иную оценку.

Не знаю, я делал себе автотест текста с применением ряда мат методов. Например через k-means. Но если прям совсем надо детектить то самый простой и одновременно самый сложный вариант это анализ стилистики написания. Я даже больше скажу зачастую видно какой моделью пользуется человек если не применять сложных системных промтов.

я делал себе автотест текста с применением ряда мат методов.

Что брали за образец не-LLM текстов?

Научные статьи до 2017 года

До 1991 года в значительном объёме научных статей на русском языке (особенно гуманитарных) присутствовал Ленин и отсутствовал интернет. Как вы боролись с подобного рода ложными корреляциями?

У многих научных сообществ стиль написания статей кодифицирован. В то время как публицистика, а тем более худ.лит. более свободны в выборе литературных приёмов. Ваши мат.методы позволяли отличить именно LLM-статьи от неLLM-статей? Или же они позволяли отличать научные статьи от ненаучных?

Как ваши методы работали на не совсем "чистых" случаях, например, если план статьи и абзацев набросала LLM, а текст был вписан человеком? Откуда брались образцы частично LLM-ных статей?

зачастую видно какой моделью пользуется человек

Как работали ваши методы, если для написания LLM-статьи применялось сразу две нейросети?

До 91 года даже в прогрессивных работах отсутствовал интернет. А uucp и arpanet были и в СССР.

Just saying.

Про зону .su я в курсе. И тем не менее.

На самом деле с 2000 по 2017 года огромные количество статей. Особенно если брать ринц. Но опять-таки это было моей жопоболью при написании диссертации.

В качестве инструмента обнаружения контента, созданного с помощью ИИ, мы используем Originality.ai.

Сгенерировал пару текстов в Claude, внёс небольшие правки и проверил текст на Originality.ai. Он сообщил, что 99% текст написан человеком. Если пройти по отдельным абзацам, то он пишет, то с вероятностью 9-12% текст сгенерирован AI.

Собственно уже на этом можно было и завершить статью. :)

Ну вот! А мой алгоритм имеет куда меньший углеродный след. При его использовании не нужно будет кочегарить десятки и сотни GPU.

А если я дату публикации буду генерировать до появлкния чата ? Или я буду контент старых статей заменять на ии ? Этот алгоритм сработает ?

Ого! Вы нашли слабое место алгоритма!

Замечу, правда, что все AI-чекеры в той или иной мере уязыимы. Пример уязыимости Originality буквально веткой выше.

Это как прогноз погоды, будет дождь с 50% вероятностью

Откуда в мало-мальски беллетризованном тексте могут вообще взяться четырехразрядные числительные? Для пресс-релизов — еще туда-сюда, но не в «статьях» же.

Откуда в мало-мальски беллетризованном тексте могут вообще взяться четырехразрядные числительные?

Во-первых, будте внимательнее, речь о web-страницах.

Во-вторых, присмотритесь. Например вот здесь.

Подсказка

Я наивно полагал, что из страницы сначала выкусывается текст.

Я наивно полагал, что из страницы сначала выкусывается текст.

Нет-нет, что вы! Так можно перетяжелить ненужными операциями и без того эффективный алгоритм.

Из страницы, да. Текст html - там уже всё есть. Не только даты написания, а ещё и всякие копирайты типа 2025 (с), и дофига всего в невидимых тэгах. Фишка алгоритма в том, что даже рендерить в браузере этот html не нужно.

Есть конечно проблема с "2006-2025 Хабр©". Но к концу марта, началу апреля я, быть может, выпущу вторую, усовершенствованную версию алгоритма.

Не вижу проблем. Правильно алгоритм работает. В версии 2.0 достаточно будет заменить цифру 51% LLM на 52%

В версии 2.0 достаточно будет заменить цифру 51% LLM на 52%

Это, кстати, тоже верное замечание. Внёс в багтрекер и завязал узелок на пальце.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации