daniilshat 26 фев в 15:59

Исследование Copyleaks: 60% ответов GPT-3.5 содержат плагиат

1 мин

2.1K

Машинное обучение*Искусственный интеллект

Комментарии 29

По словам исследователей, это ещё раз подчёркивает тот факт, что языковые модели не могут создавать новое, а только видоизменяют уже известную информацию.

Как, собственно, и человек.

Больше всего плагиата обнаружили в ответах по физике и химии. Идентичные отрывки нашлись в 27,0 и 24,7% текстах соответственно.

Хотелось бы увидеть примеры текстов.

sergiodev 26 фев в 16:39

Как, собственно, и человек.

Интересно, кто тогда придумал ЧатГопоту?

BlackMokona 26 фев в 17:45

А ЧатГопота это что совершенно новое или кривая да примитивная попытка скопировать мозг человека в его функции писать тексты?

sergiodev 26 фев в 20:01

Ну, вот например люди же не всегда умели писать и говорить, кто-то это придумал однажды, не?

BlackMokona 26 фев в 20:11

Письмо лишь эрцаз попытка повторить человеческую память.

Говорить могут и животные, ничего нового. Членораздельная речь лишь улучшение.

BlackMokona 26 фев в 16:51

Все физические определения, формулы и прочее?

AlexM2001 26 фев в 16:52

Как, собственно, и человек.

Это не так.
От Чат жпт кто-то ожидал эксклюзивной интеллектуальной продукции?

wataru 26 фев в 16:56

Как, собственно, и человек.

Нет. У человека есть абстрактное мышление. Им можно придумывать ранее не встречающиеся нигде вещи.

-2

BlackMokona 26 фев в 17:03

GPT тебе тоже рассказ напишет и всякого на придумывает. Только люди называют это галлюцинациями и крайне активно борются, чтобы не придумывал всякое. .

SchwarzFuchs 26 фев в 17:21

Скорее не борются, а стараются выделить в отдельную способность, которая должна спать, когда в ней нет необходимости. В том же Copilot есть творческий и точный режимы, степень галлюцинирования в вопросах, где не надо ничего придумывать, а только озвучить известные факты, у них кардинально разная. Но при этом первый лучше справляется с, собственно, творчеством и его объяснением.

wataru 26 фев в 17:58

Тут 2 проблемы: во-первых, он выдумывает всякое, когда не надо. А во-вторых, когда вам надо чтобы навыдумывалось что-то новое, оно лишь комбинирует что-то увиденное раньше. Часто слово-в-слово, что является плагиатом, о чем и говорит эта статья.

-1

Kanut 26 фев в 18:39

Ну так у людей у вас будет тоже самое в 99,99999(9) случаев. И я вполне себе допускаю что в 0,000000(0)1 случаев и нейронки галлюцинируют что-то абсолютно новое и полезное.

Просто в случае с людьми эти самые 99,99999(9) ерунды никого не интересуют и про них в новостях не пишут :)

П.С. И я бы сказал что мы достаточно быстро придём к ситуации когда ИИ будет лучше среднего человека. А вот будут ли они когда-нибудь лучше каждого человека это вопрос открытый.

wataru 26 фев в 19:53

Вообще, чем, по-вашему, отличается плагиат от не-плагиата?

Тут еще вопрос баланса сложности работы и уровня копирования. Если вы через поиск-заменить в каком-то условном тексте замените все вхождения "Гарри" на "Гриша" и попробуете это опубликовать, вас не только пожурят за копирование а прям засудят за нарушение копирайта. Точно также, если вы надергаете абзацев из разных источников (это больше к статьям относится, чем к художественной литературе).

Но если же вы возьмете условную книгу "Ромео и Джульетта" и пренесете сеттинг в современный мир, доработав его напильником, даже не меняя ни один основной пункт сюжета, вас не будут ругать. И будут оценивать имено то, как вы перенесли эту идею в современный мир. Более того, вы этот перенос сделаете именно абстрактно рассуждая, почему в современном обществе два влюбленных подростка не могут пожениться. Какая трагедия вместо яда более вероятна. И даже если эти идеи где-то уже встречались, вы до них можете додуматься их не встречая.

С ЖПТ же получается, что нажатием одной кнопки вы получаете сколь угодно близкий к другим источникам текст. И ничего, что она не видела, она сгенерировать не может.

Поэтому даже если человек где-то комбинирует и изменяет встреченные ранее идеи, он это делает абстрактно размышляя, а не копируя текст. В противном случае - это плагиат и это также осуждается.

Kanut 26 фев в 20:14

Вообще, чем, по-вашему, отличается плагиат от не-плагиата?

А на этот вопрос однозначно не ответишь. Пифагор и его теорема это плагиат? Придумать число 9 после того как кто-то придумал 1-8? Шекспир это плагиат?Толкиен? Мартин?

Если вы через поиск-заменить в каком-то условном тексте замените все вхождения "Гарри" на "Гриша" и попробуете это опубликовать, вас не только пожурят за копирование а прям засудят за нарушение копирайта

А ИИ только так умеют? Ну то есть я ведь точно так же могу попросить ChatGPT чтобы он перенёс "Ромео и Джульетта" в современный мир и он это сделает.

С ЖПТ же получается, что нажатием одной кнопки вы получаете сколь угодно близкий к другим источникам текст. И ничего, что она не видела, она сгенерировать не может.

Неправда же. Я могу попросить сгенерировать "приключения Грдкдфкййфов на планете ГЙКСКГФ" и он мне это сгенерирует. Причём если повозиться, то сделает это так что никаких претензий в плане плагиата не будет. Ну или точнее их будет не больше чем у тех же современных бестселлеров. Или у Мартина. Или у Толкиена. Или у Шекспира. Или...

dave2 26 фев в 17:28

Например?

wataru 26 фев в 18:08

Например, теорему Пифагора этот самый Пифагор нигде до этого не видел.

BlackMokona 26 фев в 18:09

Всего лишь комбинация уже известных символов и идей

wataru 26 фев в 18:32

Всего лишь комбинация уже известных символов и идей

Символов - да. Идей - нет.

Это если спускаться на уровень букв, то да. Все можно ими записать, т.ч. все является комбинацией этих букв. Но это сильно ниже обсуждаемого в статье уровня идей или информации.

Чтобы спуститься на этот уровень надо генерировать случайные последовательности букв, но тогда с вероятностью 1 получается мусор. Этот метод комбинации действительно позволит рано или очень-очень поздно получить все возможное. Но им никто не пользуется.

Эти ГПТ генерируют осмысленно выглядящие ответы, а значит они комбинируют лишь очень большие группы символов.

Абстрактное же мышление позволяет не только брать известные куски и комбинировать их, но и на их основе выводить следующие из них идеи, достаточно большие куски которых нигде ранее не встречались.

DistortNeo 26 фев в 18:47

Так люди пользуются опытом для сокращения перебора.

BlackMokona 26 фев в 20:14

Даже шахматные программы до нейросеток использовались методами сокращения перебора.

DistortNeo 26 фев в 18:46

А ничего, что свойства египетского треугольника были известны почти на 2 тысячи лет раньше? Наблюдение имело место быть.

wataru 26 фев в 19:54

Не факт, что Пифагор об этом знал. Ну хорошо. Давайте заменим Пифагора на какого-нибудь Тутан-матута, жившего за 2 тысячи лет до него.

BlackMokona 26 фев в 20:10

И опять же Тутан-матута мог получить большое количество данных прямыми измерениями и вывести закономерность. Ничем не лучше ГПТ

VADemon 26 фев в 18:38

All creative work is derivative - Nina Paley

Или тут по ссылке 3 указан хороший пример того, как Толкиен заимствовал образы у нордической мифологии, чтобы придумать и описать возможную аннлийскую мифологию.

wataru 26 фев в 19:56

Тем не менее, если вы попробуете сравнить текст его произведений с даже английским переводом нордической мифологии, вы сколько-нибудь значимых совпадений не найдете. Даже если всякие вещи вроде имен заменить идентичными идентификаторами с сравнивать тексты по структуре а не посимвольно.

Потому что он не просто взял идею, он ее, пользуясь своим абстрактым мышлением, развил и изменил для придуманного мира. Вот это и есть что-то новое, что люди и создают. Без наличия чего в тексте его называют плагиатом и ругают автора.

VADemon 26 фев в 20:05

Соглашусь. Но что касается нейросетей, уверен, дело времени. Накрутят еще пару генеративных-трансформирующих уровней и станет меньше похоже на дословный пересказ.

Есть пример, как ChatGPT по очень узкой теме точно пересказала как и что делать. Только пошаговая инструкция в интернете была по сути одна, мною (нами) написанная. Если искать в этом плагиат, то да.

MountainGoat 26 фев в 16:32

Ещё один случай копирайта на строчку кода?

APXEOLOG 26 фев в 17:11

Перешел по ссылке на источник ожидая увидеть исследование. Увидел не больше информации, чем в этой статье.

Какие были промпты? Какие параметры модели указывали? Что считалось за плагиат?

А зависимости от комбинации этих параметров, можно получить разные результаты. Компания, которая зарабатывает определением плагиата, утвержает, что нейросети генерят много плагиата. Очень уж интересно получается.

VADemon 26 фев в 18:47

Это у западных маркетологов тактика новая. Приуроченный к "Launches AI Content Detector" запуску своего продукта пресс-релиз-не-пресс-релиз, в котором дана какая-то общая информация. Эту общую информацию можно преподать в СМИ как инфоповод, указав при этом как источник (исследования) некую компанию. В итоге получается освещение кого-то без прямого указания спонсорства.

Как это проходит финансово - не знаю, но уже несколько раз подмечал. Наиболее ярким примером считаю "блог" AtlasVPN (не считаю хорошим), в котором... под сотню страниц только список статей (копирайтерская фигня).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Исследование Copyleaks: 60% ответов GPT-3.5 содержат плагиат

Комментарии 29

Другие новости

Истории