AnnieBronson 15 мая в 16:57

«Антиплагиат» научился распознавать сгенерированные ИИ тексты с точностью до 98%

2 мин

11K

Искусственный интеллектМашинное обучение*КопирайтОблачные сервисы*Учебный процесс в IT

Комментарии 18

Antra 15 мая в 18:09

Что означает "точность определения сгенерированного текста в 98%"?

Не более 2% "пропущенного" контента (сгенерирован AI, система решила, что человек)"?

Или также и "не более 2% случаев, отнесенных к AI, хотя на самом деле писал человек"?

Apxuej 15 мая в 19:02

Не стоит даже задаваться такими вопросами, так как всё написанное в статье как минимум полуправда, а как максимум ложь. Если хотя бы немного погуглить что-то типа "как написать промт для chatgpt/deepseek/другая-LLМ так, чтобы текст невозможно было отличить от человеческого" и применить эти простецкие приёмы то точность определения будет 50%, а не 98%. Самый простой из таких приёмов - вставить кусок теста, который точно писал человек и попросить LLM написать в стиле этого текста.

Antra 15 мая в 19:17

Да, каюсь, это скорее был легкий стеб, риторический вопрос, нежели реальный.

Raneddo 16 мая в 21:54

Вообще, всё равно неплохо отличают. Но тут ещё смешнее, эти системы зачем-то ловят тексты, которые написала нейронка, а человек проверил и исправил. Точнее, понятно, почему именно они ловят, потому что сигналы остаются, но это уже нельзя считать сгенерированным текстом

И что ещё очень смешно, так это высказывания о том, что нейронки пишут чушь, без уточнения. Да, они часто пишут чушь, но не меньшую чушь, чем абсолютное большинство студентов. И это вообще кайфовая история, кроме научного руководителя чаще всего никто студенческие работы не читает даже на 10%, а с появлением нейронок, те, кто раньше мог в теории читать, теперь будут просить короткую выжимку. И невероятно "полезно" то, что студентов зачем-то заставляют писать научным языком то, что никто никогда читать не будет. Студент окончит вуз и больше никогда не будет этим научным языком писать

KonstantinTokar 17 мая в 05:49

Затем, чтобы знать на что способен студент. Если только промпт задавать, значит получает плохую оценку, и это правильно, институт учит, а не требует абстрактный результат. И так везде при любом обучении. Вы часто на английском используете те фразы, которые есть в учебнике?

TastaBlud 15 мая в 21:50

Он способен точно выявлять ИИ-контент в диссертациях и научных публикациях, где принципиально важна оригинальность и достоверность исследований.

Во-первых, точно ли текст, сформулированный ИИ, понижает "оригинальность и достоверность"? Что плохого в том, что суть исследования ИИ поможет раздуть с 3 страниц до требуемого объёма в (условно) 100 страниц, который является искусственным формальным критерием?

Во-вторых, каким образом этот ИИ сможет достоверно проверить достоверность? При учёте того, сколько бреда уже нагенерировано?Мне отчего-то кажется, что результат будет противоположный заявленному, в данных условиях.

И в-третьих, поскольку данный инструмент используется не рекомендательно, а обязательно ("антиплагиат оригинальность статьи всего 80%, извольте добиться 95%, тогда и приходите, саму статью даже читать не буду") действительно ли оригинальность изложения отражает оригинальность содержания?

Даже при соответствии этих заявлений реальности (что очень и очень сомнительно) данный инструмент должен иметь рекомендательный характер и перепроверяться человеком.

Timur_El 16 мая в 08:30

Суть исследования - это как раз три страницы из ста любой научной работы. Остальные 97 - это то, как ты пришел к этой сути исследования.

Raneddo 16 мая в 21:57

Я тут готовил мастерскую ВКР и читал много научных статей на английском. По тому опыту, который я получил, могу сказать, что в реальных научных работах настолько мало информации для проверки реального эксперимента исследования, что можно практически любую чушь написать, лишь бы красиво было. Возможно, в препринтах есть, которые рецензируют, но точно не в работах

Nulliusinverba 17 мая в 00:44

Так препринты это статьи на стадии подачи работы в журналы. Часто они в таком же/почти таком же/в исправленном виде попадают в журналы.

Kamil_GR 16 мая в 09:14

Сотни статей написано ИИ и переписано дворовым языком для прохождения ИИ-чекера. Смысл статьи не меняется, но панибратский стиль общения раздражает. И да, это может делать и сам ИИ. Так что оценивать надо смысл, а не подачу.

Raneddo 16 мая в 22:00

Чтобы оценивать смысл, уважаемые люди из комиссии должны потратить уйму времени, чтобы твою работу прочитать. А так как даже у научника: "вас много, я одна", то не каждый научник не каждую работу читает. И уж тем более никто из комиссии её не читает, кроме пары страниц для вопросов по ГОСТам. Пока эта формальность на студенческие работы существует, эта игра будет продолжаться: одни делают вид, что писали всё сами, а другие делают вид, что читали всё

Frankenstine 16 мая в 12:55

Точность в 36% это тоже "до 98%". И даже "это на 35% больше чем раньше" будет верным, если раньше был 1%.

xdg 16 мая в 13:24

Этот "антиплагиат" только все портит, приходится все раздувать, действительно нужной информации остаётся в работе мало, потому что человек работает над тем, чтобы пройти антиплагиат, а не оставить в своей работе что-то важное и интересное. Это начинается все с университета, приучают к обходу антиплагиата. Всем плевать на содержание. Так что этот инструмент в первую очередь враг. Говорю как студент, который буквально позавчера защищал курсовую.

rot97 16 мая в 16:09

Не согласен. У меня никогда не было проблем с антиплагиатом, и я не учился его обходить. Я умею работать с текстами и обобщать десятки источников. Рекордно низкая оригинальность у меня была у диплома - 95%. Через год буду защищать кандидатскую диссертацию(технические науки).

Raneddo 16 мая в 21:47

В целом, конечно, хорошо, что системы научились находить академический обман и подлог. Но давайте честно, суммаризация научной статьи при ответе на какой-то вопрос даёт практически абсолютную точность, а если просить пруфать её цитатами, то ещё лучше. Это экономит время исследователя, который может сделать больше полезного. А ещё тут говорили про научный язык, где вместо "я сделал исходя из опыта" надо писать "при рассмотрении этого вопроса был выбран подход на основании эмпирического опыта автора данной работы". И это даже не раздувание, а стиль такой. Нет никакой проблемы, что автор работы самостоятельно её готовит и пишет своим текстом, а ИИ переделывает текст в научный, правильно расставляет запятые и другие знаки препинания

В общем-то, всем вузам стоит поучиться у ВШЭ, которая пользуется вашей системой, но требует от студентов открытого раскрытия информации, зачем и в каком объёме применялись нейронки. Это честно и двигает науку вперёд, а бессмысленный запрет наоборот тормозит эту науку

randvell 18 мая в 13:01

Антиплагиат - рак российской науки и образования. Вместо того, чтобы написать хорошую работу, студенты упражняются в навыках рерайта. В магистратуре писал курсовую, опирающуюся на госты, при этом уникальность должна была быть 80%, тогда как оглавление и список литературы забирает на себя ее часть в качестве "цитирования". В итоге из неплохой работы, опирающейся на нормативы и предлагающей решение определенных проблем на основании него, на выходе нечитаемый текст, прогнанный трижды через синонимизатор и разбавленный СЕО-мусором. Работа полностью потеряла свой смысл, зато пройдены требования на минимальную уникальность. Появление генеративных сетей хоть сколько то забрало на себя эту боль, в целом (как ни странно) повысив качество работ на выходе, но антиплагиат и тут подсуетился. Надо бы прогнать свои старые дипломы и курсовые на наличие AI, интересно что покажет.

eeglab 18 мая в 18:24

Вот такой яркий заголовок отчёта как "красная тряпка" для диссоветов и комиссий? При том, что в целом сгенерированный текст это не плагиат, а продукт совместной работы человека и компьютера. Скоро будем написать дмссертации от руки? Не нужно только утверждать, что к отчёту нужно подходить индивидуально, нет такого в наших российских реалиях и не будет никогда! Раньше антиплагиат как то ещё работал, но в последне время он стал показывать оригинальность реально уникального текста на уровне не больше 50-60%, чисто потому, что он написан русским языком и в науке очень часто используют достаточно шаблонные фразы, которые идут из статьи к статье у всех учёных, работающих в выбранной области. Но появились LLM и рерайт стал делом минутной работы. Очевидно, антиплагиат это просто бизнес. Причем это монополисты

Скрытый текст

Скриншот примера отчета

ganqqwerty 21 мая в 14:12

тут очень бы хотелось хороших метрик

Зарегистрируйтесь на Хабре, чтобы оставить комментарий