atomlib27 янв 2024 в 17:51

Метод Binoculars обещает высокую точность обнаружения текста от больших языковых моделей

Простой

10 мин

6.4K

Natural Language Processing * Искусственный интеллектМашинное обучение * Научно-популярноеСпам и антиспам

Обзор

+22

Комментарии 15

dorne 27 янв 2024 в 18:31

Ждем с нетерпением интеграции Binoculars на Хабре. Ибо сейчас, прямо таки, ходит эпидемия машинно-генерированного контента.

Megakazbek 27 янв 2024 в 20:13

Если мы из 1000 студентов хотим найти 2-3 хитрецов, которые написали курсовую с помощью ChatGPT, то 0.01% ложноположительных срабатываний - это совсем не низкий уровень т.к. этот метод нам найдет 10 срабатываний и большинство из них как раз окажутся ложными.

sixxio 28 янв 2024 в 05:43

Но ведь 1000*0.01% = 0.1 студента..

kenoma 28 янв 2024 в 08:21

0.01% это 0.0001 в долевом выражении :)

agat000 28 янв 2024 в 03:34

А если зайти с другой стороны? Ставить не "метка ИИ", а "метку человека" в настоящей рукописной работе?

Обязать ставить текстовые блоки, запрещенные для ИИ. Что нибудь нетолерантное, "я не могу обсуждать это". С пометкой "автор не согласен с фразами помеченными ***, так надо".

Такой вот заход через ТРИЗ.

Kelbon 28 янв 2024 в 06:42

Неважно как получен текст, пусть бы и написан нейросетью. Важно качество текста и отвечает ли он запросу к нему данному.

Поэтому верный вариант это не детектить текст написанный нейросетью, а с помощью сети оценивать насколько данный текст стоит прочтения и ответит ли он на вопрос Х

agat000 28 янв 2024 в 13:09

Там важный вопрос про студентов был. Дипломы и все такое. И еще несколько сфер, где предполагается живое написание

dreams_killer 29 янв 2024 в 04:37

Я бы не доверил нейросети такой выбор. Просто идейно.

corvair 28 янв 2024 в 03:39

Обычное бывает, что если текст "тяжело" читается, несвязный, содержит странные, излишне витиеватые, не применяемые в повседневной речи обороты, то он сгенерирован БЯМ. Или копирайтерами, что не лучше.

Moog_Prodigy 28 янв 2024 в 05:25

Под эти критерии вполне подходят юридические тексты, своды законов, возможно даже научные статьи. Так что не все так просто.

agat000 28 янв 2024 в 06:06

И еще машинный перевод без правки. Глаз кровь плакать

corvair 29 янв 2024 в 13:27

По моему, любой канцелярит читается легче, чем творения БЯМ. Научные статьи тоже. Пресловутый «Корчеватель: Алгоритм типичной унификации точек доступа и избыточности», маскирующийся под научную статью, а на деле трудночитаемая галиматья, как раз является творением ИИ. Аналогично "проверку на ИИ" могут не пройти псевдонаучные тексты типа торсионных полей, энергоинформационного обмена, которым также присуща бессвязность и хаотическое использование терминологии. Человек с минимальной общенаучной подготовкой выявляет такое буквально с первых слов.

Tariiikkkk 28 янв 2024 в 05:43

Super

akakoychenko 28 янв 2024 в 08:51

Интересно, нельзя ли было и дёшево разогнать перплексию, просто заменив часть слов на синонимы, примерно, как сеошники делали на заре интернета?

Greenback 28 янв 2024 в 10:12

Я правильно понимаю, чтобы обмануть эту систему LLM достаточно выбирать каждый следующий токен с учётом перекрестной перплексии?

И второе. Уж не стимулируют ли авторы метода снижение качества текстов?. Ведь чем текст более непредсказуем, тем он (вероятно) более абсурден и алогичен, а значит более "человечен" с точки зрения Binoculars.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий