Комментарии 29
По словам исследователей, это ещё раз подчёркивает тот факт, что языковые модели не могут создавать новое, а только видоизменяют уже известную информацию.
Как, собственно, и человек.
Больше всего плагиата обнаружили в ответах по физике и химии. Идентичные отрывки нашлись в 27,0 и 24,7% текстах соответственно.
Хотелось бы увидеть примеры текстов.
Как, собственно, и человек.
Интересно, кто тогда придумал ЧатГопоту?
А ЧатГопота это что совершенно новое или кривая да примитивная попытка скопировать мозг человека в его функции писать тексты?
Все физические определения, формулы и прочее?
Как, собственно, и человек.
Это не так.
От Чат жпт кто-то ожидал эксклюзивной интеллектуальной продукции?
Как, собственно, и человек.
Нет. У человека есть абстрактное мышление. Им можно придумывать ранее не встречающиеся нигде вещи.
GPT тебе тоже рассказ напишет и всякого на придумывает. Только люди называют это галлюцинациями и крайне активно борются, чтобы не придумывал всякое. .
Скорее не борются, а стараются выделить в отдельную способность, которая должна спать, когда в ней нет необходимости. В том же Copilot есть творческий и точный режимы, степень галлюцинирования в вопросах, где не надо ничего придумывать, а только озвучить известные факты, у них кардинально разная. Но при этом первый лучше справляется с, собственно, творчеством и его объяснением.
Тут 2 проблемы: во-первых, он выдумывает всякое, когда не надо. А во-вторых, когда вам надо чтобы навыдумывалось что-то новое, оно лишь комбинирует что-то увиденное раньше. Часто слово-в-слово, что является плагиатом, о чем и говорит эта статья.
Ну так у людей у вас будет тоже самое в 99,99999(9) случаев. И я вполне себе допускаю что в 0,000000(0)1 случаев и нейронки галлюцинируют что-то абсолютно новое и полезное.
Просто в случае с людьми эти самые 99,99999(9) ерунды никого не интересуют и про них в новостях не пишут :)
П.С. И я бы сказал что мы достаточно быстро придём к ситуации когда ИИ будет лучше среднего человека. А вот будут ли они когда-нибудь лучше каждого человека это вопрос открытый.
Вообще, чем, по-вашему, отличается плагиат от не-плагиата?
Тут еще вопрос баланса сложности работы и уровня копирования. Если вы через поиск-заменить в каком-то условном тексте замените все вхождения "Гарри" на "Гриша" и попробуете это опубликовать, вас не только пожурят за копирование а прям засудят за нарушение копирайта. Точно также, если вы надергаете абзацев из разных источников (это больше к статьям относится, чем к художественной литературе).
Но если же вы возьмете условную книгу "Ромео и Джульетта" и пренесете сеттинг в современный мир, доработав его напильником, даже не меняя ни один основной пункт сюжета, вас не будут ругать. И будут оценивать имено то, как вы перенесли эту идею в современный мир. Более того, вы этот перенос сделаете именно абстрактно рассуждая, почему в современном обществе два влюбленных подростка не могут пожениться. Какая трагедия вместо яда более вероятна. И даже если эти идеи где-то уже встречались, вы до них можете додуматься их не встречая.
С ЖПТ же получается, что нажатием одной кнопки вы получаете сколь угодно близкий к другим источникам текст. И ничего, что она не видела, она сгенерировать не может.
Поэтому даже если человек где-то комбинирует и изменяет встреченные ранее идеи, он это делает абстрактно размышляя, а не копируя текст. В противном случае - это плагиат и это также осуждается.
Вообще, чем, по-вашему, отличается плагиат от не-плагиата?
А на этот вопрос однозначно не ответишь. Пифагор и его теорема это плагиат? Придумать число 9 после того как кто-то придумал 1-8? Шекспир это плагиат?Толкиен? Мартин?
Если вы через поиск-заменить в каком-то условном тексте замените все вхождения "Гарри" на "Гриша" и попробуете это опубликовать, вас не только пожурят за копирование а прям засудят за нарушение копирайта
А ИИ только так умеют? Ну то есть я ведь точно так же могу попросить ChatGPT чтобы он перенёс "Ромео и Джульетта" в современный мир и он это сделает.
С ЖПТ же получается, что нажатием одной кнопки вы получаете сколь угодно близкий к другим источникам текст. И ничего, что она не видела, она сгенерировать не может.
Неправда же. Я могу попросить сгенерировать "приключения Грдкдфкййфов на планете ГЙКСКГФ" и он мне это сгенерирует. Причём если повозиться, то сделает это так что никаких претензий в плане плагиата не будет. Ну или точнее их будет не больше чем у тех же современных бестселлеров. Или у Мартина. Или у Толкиена. Или у Шекспира. Или...
Например?
Например, теорему Пифагора этот самый Пифагор нигде до этого не видел.
Всего лишь комбинация уже известных символов и идей
Всего лишь комбинация уже известных символов и идей
Символов - да. Идей - нет.
Это если спускаться на уровень букв, то да. Все можно ими записать, т.ч. все является комбинацией этих букв. Но это сильно ниже обсуждаемого в статье уровня идей или информации.
Чтобы спуститься на этот уровень надо генерировать случайные последовательности букв, но тогда с вероятностью 1 получается мусор. Этот метод комбинации действительно позволит рано или очень-очень поздно получить все возможное. Но им никто не пользуется.
Эти ГПТ генерируют осмысленно выглядящие ответы, а значит они комбинируют лишь очень большие группы символов.
Абстрактное же мышление позволяет не только брать известные куски и комбинировать их, но и на их основе выводить следующие из них идеи, достаточно большие куски которых нигде ранее не встречались.
А ничего, что свойства египетского треугольника были известны почти на 2 тысячи лет раньше? Наблюдение имело место быть.
All creative work is derivative - Nina Paley
Или тут по ссылке 3 указан хороший пример того, как Толкиен заимствовал образы у нордической мифологии, чтобы придумать и описать возможную аннлийскую мифологию.
Тем не менее, если вы попробуете сравнить текст его произведений с даже английским переводом нордической мифологии, вы сколько-нибудь значимых совпадений не найдете. Даже если всякие вещи вроде имен заменить идентичными идентификаторами с сравнивать тексты по структуре а не посимвольно.
Потому что он не просто взял идею, он ее, пользуясь своим абстрактым мышлением, развил и изменил для придуманного мира. Вот это и есть что-то новое, что люди и создают. Без наличия чего в тексте его называют плагиатом и ругают автора.
Соглашусь. Но что касается нейросетей, уверен, дело времени. Накрутят еще пару генеративных-трансформирующих уровней и станет меньше похоже на дословный пересказ.
Есть пример, как ChatGPT по очень узкой теме точно пересказала как и что делать. Только пошаговая инструкция в интернете была по сути одна, мною (нами) написанная. Если искать в этом плагиат, то да.
Ещё один случай копирайта на строчку кода?
Перешел по ссылке на источник ожидая увидеть исследование. Увидел не больше информации, чем в этой статье.
Какие были промпты? Какие параметры модели указывали? Что считалось за плагиат?
А зависимости от комбинации этих параметров, можно получить разные результаты. Компания, которая зарабатывает определением плагиата, утвержает, что нейросети генерят много плагиата. Очень уж интересно получается.
Это у западных маркетологов тактика новая. Приуроченный к "Launches AI Content Detector" запуску своего продукта пресс-релиз-не-пресс-релиз, в котором дана какая-то общая информация. Эту общую информацию можно преподать в СМИ как инфоповод, указав при этом как источник (исследования) некую компанию. В итоге получается освещение кого-то без прямого указания спонсорства.
Как это проходит финансово - не знаю, но уже несколько раз подмечал. Наиболее ярким примером считаю "блог" AtlasVPN (не считаю хорошим), в котором... под сотню страниц только список статей (копирайтерская фигня).
Исследование Copyleaks: 60% ответов GPT-3.5 содержат плагиат