daniilshat Feb 26 at 15:59

Исследование Copyleaks: 60% ответов GPT-3.5 содержат плагиат

1 min

2.1K

Machine learning*Artificial Intelligence

Исследователи компании Copyleaks, специализирующейся на идентификации плагиата, выяснили, что почти 60% ответов большой языковой модели GPT-3.5 содержат плагиат в разной форме. Больше всего плагиата содержится в ответах по физике и химии.

Специалисты сгенерировали 1045 текстов с помощью модели машинного обучения GPT-3.5 от OpenAI. Тексты были по следующим темам: физика, химия, психология, право, экономика, биология, бизнес-исследования, инженерия, бухгалтерский учёт, география, математика, информатика, спорт, мировая история, философия, английский язык, искусство, физическое воспитание, статистика, социальные науки, природоведение, музыка, социология, театральное искусство и гуманитарные науки.

Из всех сгенерированных ответов 59,7% содержали плагиат в той или иной мере. Кроме того, большинство ответов представляли собой повторы, отрывки с незначительными изменениями и перефразированные фрагменты. По словам исследователей, это ещё раз подчёркивает тот факт, что языковые модели не могут создавать новое, а только видоизменяют уже известную информацию.

Больше всего плагиата обнаружили в ответах по физике и химии. Идентичные отрывки нашлись в 27,0 и 24,7% текстах соответственно. Кроме того, исследователи проверили качество сгенерированных текстов по собственной технологии оценки сходства. В этой метрике 0% значит, что весь текст оригинальный, а 100% — полностью скопирован.

Самый высокий средний показатель по этой оценке оказался у текстов по физике — 31,3%. Лучшие показатели у текстов по театральному искусству (0,9%), гуманитарным наукам (2,8%) и английскому языку (5,4%).

Tags:

Hubs:

If this publication inspired you and you want to support the author, do not hesitate to click on the button