Комментарии 18
с вероятностью 50%
Так это изначально было ясно, страница либо сгененирована AI, либо - не сгенерирована.
Вероятность такая же как и встретить динозавра на улице.
почему график «AI» не падает до 0%, когда график «Human» достигает 100%?
В сети есть несколько этих графиков. Например в FT он симметричный. https://www.ft.com/content/ae156d04-d724-49f2-b9ad-b288e405b1c2
Возможно несимметричный график это результат неудачной перерисовки. (попросили ИИ сделать график покрасивее, а он пририсовал себе несколько процентов)
откуда эти колебания на 3...5% перед появлением ChatGPT?
Это вполне нормально - ведь методика заведомо несовершенна. Было бы странно если бы график был идеальным.
почему рост AI‑контента резко замедлился в 2024 году?
В какой-то момент замедление должно было произойти, когда начали принимать меры по фильтрации контента. Поначалу пропускали все подряд, наивно думая что ИИ так писать не умеет.
Странно что процент сходится к 50%. Сложно представить наличие какого-то балансирующего механизма.
В сети есть несколько этих графиков.
Я брал график именно из оригинала статьи.
методика заведомо несовершенна. Было бы странно если бы график был идеальным.
Отдельные точки плюс аппроксимирующая гладкая кривая выглядели бы, на мой взгляд, куда честнее. Потому, что сейчас вид как будто...
...попросили ИИ сделать график покрасивее, а он пририсовал себе несколько процентов...
...туда, несколько процентов сюда. Чтоб выглядело типа научно.
В какой-то момент замедление должно было произойти, когда начали принимать меры по фильтрации контента.
А может- наоборот, чекеры начали "сдавать", а реально AI-контента куда больше. А может - что угодно ещё. Но как будто данное исследование делалось не для выяснения этих любопытных подробностей :)
Странно что процент сходится к 50%. Сложно представить наличие какого-то балансирующего механизма.
О да! И не только это странно :)
Автор, спасибо, посмеялся с алгоритма про числа! Но если серьезно, то гонка вооружений между генерацией и детекторами бесконечна. Текст еще ладно, а вот сейчас выходит Sora 2 с генерацией видео, и там уровень реализма такой, что скоро вообще перестанем верить глазам. Common Crawl просто не успеет это всё индексировать...
Проверил эту статью на процент генерации ИИ, и вот чудо число стало равным 51%. Неплохо для начала!
Слишком сумбурно и ничего не понятно.
Суть его в следующем. Ваше вычислительное устройство открывает web‑страницу и ищет на ней четырёхзначные числа. Если таких чисел нет или если на странице попадается хотя бы одно число, большее чем 2023, такая web‑страница с вероятностью 50% AI‑сгенерирована.
Иными словами, если я напишу статью с итогами 2024 года или о технологиях, которые появились в 2025 году, то ваш детектор будет считать мою статью сгенерированной ИИ? Серьёзно?
с вероятностью 50% AI‑сгенерирована.
Второй момент. Вероятность 50%, это как если бы вы на любой вопрос отвечали: Да и нет одновременно.
- Вырастит ли завтра курс Биткоина?
- Да и нет.
- Так вырастит он или нет?
- Да и нет.
- Зарядка по утра полезна?
- Да и нет.
Т.е. по факту вероятность в 50% означает, то что у вас нет даже приблизительного ответа.
если я напишу статью с итогами 2024 года или о технологиях, которые появились в 2025 году, то ваш детектор будет считать мою статью сгенерированной ИИ?
Не совсем так. Мой алгоритм будет считать её сгенерированной с 50% вероятностью.
Вы можете сказать, что на ваш взгляд это достаточно высокий уровень неопределённости. А я скажу, что это субъективно и ни один алгоритм выявления генеративного контента не работает со 100% гарантией.
Например, по данным приведённого мною исследования система Originality в 2022 году распознавала до 10% статей в интернете как заведомо и почти полностью нейросгенерированные. А в настоящее время она даёт противоречивые результаты для 40% статей.
Возможно мой алгоритм не столь точен. Но зато он на много порядков менее требователен к ресурсам.
Вероятность 50%, это как если бы вы на любой вопрос отвечали: Да и нет одновременно.
Нет. Не на любой. Если в статье указана дата публикации "2021 год", алгоритм произведёт совсем иную оценку.
В качестве инструмента обнаружения контента, созданного с помощью ИИ, мы используем Originality.ai.
Сгенерировал пару текстов в Claude, внёс небольшие правки и проверил текст на Originality.ai. Он сообщил, что 99% текст написан человеком. Если пройти по отдельным абзацам, то он пишет, то с вероятностью 9-12% текст сгенерирован AI.
Собственно уже на этом можно было и завершить статью. :)
А если я дату публикации буду генерировать до появлкния чата ? Или я буду контент старых статей заменять на ии ? Этот алгоритм сработает ?
Зачем?
Это как прогноз погоды, будет дождь с 50% вероятностью

Достаточно надёжный и научно обоснованный алгоритм проверки текста на LLM