Как стать автором
Обновить

Метод Binoculars обещает высокую точность обнаружения текста от больших языковых моделей

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.2K
Всего голосов 22: ↑22 и ↓0+22
Комментарии15

Комментарии 15

Ждем с нетерпением интеграции Binoculars на Хабре. Ибо сейчас, прямо таки, ходит эпидемия машинно-генерированного контента.

Если мы из 1000 студентов хотим найти 2-3 хитрецов, которые написали курсовую с помощью ChatGPT, то 0.01% ложноположительных срабатываний - это совсем не низкий уровень т.к. этот метод нам найдет 10 срабатываний и большинство из них как раз окажутся ложными.

Но ведь 1000*0.01% = 0.1 студента..

0.01% это 0.0001 в долевом выражении :)

А если зайти с другой стороны? Ставить не "метка ИИ", а "метку человека" в настоящей рукописной работе?

Обязать ставить текстовые блоки, запрещенные для ИИ. Что нибудь нетолерантное, "я не могу обсуждать это". С пометкой "автор не согласен с фразами помеченными ***, так надо".

Такой вот заход через ТРИЗ.

Неважно как получен текст, пусть бы и написан нейросетью. Важно качество текста и отвечает ли он запросу к нему данному.

Поэтому верный вариант это не детектить текст написанный нейросетью, а с помощью сети оценивать насколько данный текст стоит прочтения и ответит ли он на вопрос Х

Там важный вопрос про студентов был. Дипломы и все такое. И еще несколько сфер, где предполагается живое написание

Я бы не доверил нейросети такой выбор. Просто идейно.

Обычное бывает, что если текст "тяжело" читается, несвязный, содержит странные, излишне витиеватые, не применяемые в повседневной речи обороты, то он сгенерирован БЯМ. Или копирайтерами, что не лучше.

Под эти критерии вполне подходят юридические тексты, своды законов, возможно даже научные статьи. Так что не все так просто.

И еще машинный перевод без правки. Глаз кровь плакать

По моему, любой канцелярит читается легче, чем творения БЯМ. Научные статьи тоже. Пресловутый «Корчеватель: Алгоритм типичной унификации точек доступа и избыточности», маскирующийся под научную статью, а на деле трудночитаемая галиматья, как раз является творением ИИ. Аналогично "проверку на ИИ" могут не пройти псевдонаучные тексты типа торсионных полей, энергоинформационного обмена, которым также присуща бессвязность и хаотическое использование терминологии. Человек с минимальной общенаучной подготовкой выявляет такое буквально с первых слов.

Интересно, нельзя ли было и дёшево разогнать перплексию, просто заменив часть слов на синонимы, примерно, как сеошники делали на заре интернета?

Я правильно понимаю, чтобы обмануть эту систему LLM достаточно выбирать каждый следующий токен с учётом перекрестной перплексии?

И второе. Уж не стимулируют ли авторы метода снижение качества текстов?. Ведь чем текст более непредсказуем, тем он (вероятно) более абсурден и алогичен, а значит более "человечен" с точки зрения Binoculars.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории