Комментарии 17
Что означает "точность определения сгенерированного текста в 98%"?
Не более 2% "пропущенного" контента (сгенерирован AI, система решила, что человек)"?
Или также и "не более 2% случаев, отнесенных к AI, хотя на самом деле писал человек"?
Не стоит даже задаваться такими вопросами, так как всё написанное в статье как минимум полуправда, а как максимум ложь. Если хотя бы немного погуглить что-то типа "как написать промт для chatgpt/deepseek/другая-LLМ так, чтобы текст невозможно было отличить от человеческого" и применить эти простецкие приёмы то точность определения будет 50%, а не 98%. Самый простой из таких приёмов - вставить кусок теста, который точно писал человек и попросить LLM написать в стиле этого текста.
Да, каюсь, это скорее был легкий стеб, риторический вопрос, нежели реальный.
Вообще, всё равно неплохо отличают. Но тут ещё смешнее, эти системы зачем-то ловят тексты, которые написала нейронка, а человек проверил и исправил. Точнее, понятно, почему именно они ловят, потому что сигналы остаются, но это уже нельзя считать сгенерированным текстом
И что ещё очень смешно, так это высказывания о том, что нейронки пишут чушь, без уточнения. Да, они часто пишут чушь, но не меньшую чушь, чем абсолютное большинство студентов. И это вообще кайфовая история, кроме научного руководителя чаще всего никто студенческие работы не читает даже на 10%, а с появлением нейронок, те, кто раньше мог в теории читать, теперь будут просить короткую выжимку. И невероятно "полезно" то, что студентов зачем-то заставляют писать научным языком то, что никто никогда читать не будет. Студент окончит вуз и больше никогда не будет этим научным языком писать
Он способен точно выявлять ИИ-контент в диссертациях и научных публикациях, где принципиально важна оригинальность и достоверность исследований.
Во-первых, точно ли текст, сформулированный ИИ, понижает "оригинальность и достоверность"? Что плохого в том, что суть исследования ИИ поможет раздуть с 3 страниц до требуемого объёма в (условно) 100 страниц, который является искусственным формальным критерием?
Во-вторых, каким образом этот ИИ сможет достоверно проверить достоверность? При учёте того, сколько бреда уже нагенерировано?Мне отчего-то кажется, что результат будет противоположный заявленному, в данных условиях.
И в-третьих, поскольку данный инструмент используется не рекомендательно, а обязательно ("антиплагиат оригинальность статьи всего 80%, извольте добиться 95%, тогда и приходите, саму статью даже читать не буду") действительно ли оригинальность изложения отражает оригинальность содержания?
Даже при соответствии этих заявлений реальности (что очень и очень сомнительно) данный инструмент должен иметь рекомендательный характер и перепроверяться человеком.
Суть исследования - это как раз три страницы из ста любой научной работы. Остальные 97 - это то, как ты пришел к этой сути исследования.
Я тут готовил мастерскую ВКР и читал много научных статей на английском. По тому опыту, который я получил, могу сказать, что в реальных научных работах настолько мало информации для проверки реального эксперимента исследования, что можно практически любую чушь написать, лишь бы красиво было. Возможно, в препринтах есть, которые рецензируют, но точно не в работах
Сотни статей написано ИИ и переписано дворовым языком для прохождения ИИ-чекера. Смысл статьи не меняется, но панибратский стиль общения раздражает. И да, это может делать и сам ИИ. Так что оценивать надо смысл, а не подачу.
Чтобы оценивать смысл, уважаемые люди из комиссии должны потратить уйму времени, чтобы твою работу прочитать. А так как даже у научника: "вас много, я одна", то не каждый научник не каждую работу читает. И уж тем более никто из комиссии её не читает, кроме пары страниц для вопросов по ГОСТам. Пока эта формальность на студенческие работы существует, эта игра будет продолжаться: одни делают вид, что писали всё сами, а другие делают вид, что читали всё
Точность в 36% это тоже "до 98%". И даже "это на 35% больше чем раньше" будет верным, если раньше был 1%.
Этот "антиплагиат" только все портит, приходится все раздувать, действительно нужной информации остаётся в работе мало, потому что человек работает над тем, чтобы пройти антиплагиат, а не оставить в своей работе что-то важное и интересное. Это начинается все с университета, приучают к обходу антиплагиата. Всем плевать на содержание. Так что этот инструмент в первую очередь враг. Говорю как студент, который буквально позавчера защищал курсовую.
В целом, конечно, хорошо, что системы научились находить академический обман и подлог. Но давайте честно, суммаризация научной статьи при ответе на какой-то вопрос даёт практически абсолютную точность, а если просить пруфать её цитатами, то ещё лучше. Это экономит время исследователя, который может сделать больше полезного. А ещё тут говорили про научный язык, где вместо "я сделал исходя из опыта" надо писать "при рассмотрении этого вопроса был выбран подход на основании эмпирического опыта автора данной работы". И это даже не раздувание, а стиль такой. Нет никакой проблемы, что автор работы самостоятельно её готовит и пишет своим текстом, а ИИ переделывает текст в научный, правильно расставляет запятые и другие знаки препинания
В общем-то, всем вузам стоит поучиться у ВШЭ, которая пользуется вашей системой, но требует от студентов открытого раскрытия информации, зачем и в каком объёме применялись нейронки. Это честно и двигает науку вперёд, а бессмысленный запрет наоборот тормозит эту науку
Антиплагиат - рак российской науки и образования. Вместо того, чтобы написать хорошую работу, студенты упражняются в навыках рерайта. В магистратуре писал курсовую, опирающуюся на госты, при этом уникальность должна была быть 80%, тогда как оглавление и список литературы забирает на себя ее часть в качестве "цитирования". В итоге из неплохой работы, опирающейся на нормативы и предлагающей решение определенных проблем на основании него, на выходе нечитаемый текст, прогнанный трижды через синонимизатор и разбавленный СЕО-мусором. Работа полностью потеряла свой смысл, зато пройдены требования на минимальную уникальность. Появление генеративных сетей хоть сколько то забрало на себя эту боль, в целом (как ни странно) повысив качество работ на выходе, но антиплагиат и тут подсуетился. Надо бы прогнать свои старые дипломы и курсовые на наличие AI, интересно что покажет.
Вот такой яркий заголовок отчёта как "красная тряпка" для диссоветов и комиссий? При том, что в целом сгенерированный текст это не плагиат, а продукт совместной работы человека и компьютера. Скоро будем написать дмссертации от руки? Не нужно только утверждать, что к отчёту нужно подходить индивидуально, нет такого в наших российских реалиях и не будет никогда! Раньше антиплагиат как то ещё работал, но в последне время он стал показывать оригинальность реально уникального текста на уровне не больше 50-60%, чисто потому, что он написан русским языком и в науке очень часто используют достаточно шаблонные фразы, которые идут из статьи к статье у всех учёных, работающих в выбранной области. Но появились LLM и рерайт стал делом минутной работы. Очевидно, антиплагиат это просто бизнес. Причем это монополисты
Скрытый текст

Скриншот примера отчета
«Антиплагиат» научился распознавать сгенерированные ИИ тексты с точностью до 98%