Travis_Macrif5 авг 2024 в 11:41

OpenAI разработала метод водяных знаков для обнаружения текста, написанного ChatGPT, с надёжностью 99,9%

3 мин

43K

Искусственный интеллектМашинное обучение * Копирайт

+22

Комментарии 62

TerraV 5 авг 2024 в 12:00

Тут интересный конфликт между клиентами (кто платит подписку) и не-клиентами - для кого предназначен контент. Последние очевидно не платят, но хотят чтоб их интересы были учтены "из коробки". Те кто платит, в большинстве своем не заинтересованы в водяных знаках. Точнее они могут использовать любую технологию цифровой подписи сгененированного контента на свое усмотрение, коих море.

Ранее в 2024 году OpenAI провела тест, который показал, что водяные знаки не ухудшают производительность чат-бота.

А тут хотелось бы побольше технических деталей. Потому что производительность и качество текста это вещи ортогональные. Я могу печатать 1000 знаков в минуту (но такая фигня получается)

Bardakan 5 авг 2024 в 13:54

предположу, что владельцы подписки и так уже платят, а компания пытается привлечь новых клиентов

kipzshady 5 авг 2024 в 17:16

Но могут перестать платить. Вот в чем загвоздка.

Alex-ok 5 авг 2024 в 12:06

Можно же перегнать текст через другую модель, с просьбой пересказать своими словами. Мне кажется это удалит любую скрытую разметку. Главное смысл останется.

Markscheider 5 авг 2024 в 12:17

И тут из своих берлог, потягиваясь и зевая, выходят не вполне проснувшиеся, но вполне готовые к работе... редакторы.

koreychenko 5 авг 2024 в 14:15

LOL. Спираль пошла на второй круг. Человек-копирайтер, который переписывает руками то, что сочинила нейросеть.

А могли бы на Марс летать....

Frankenstine 6 авг 2024 в 09:24

А могли бы на Марс летать....

В один конец?

Nevi-rus 6 авг 2024 в 10:15

Ну а зачем сюда возвращаться?

Zaoserg 15 авг 2024 в 11:30

В три конца и более)

ganqqwerty 5 авг 2024 в 12:26

Прикольно. А не станут ли через пару лет люди, начитавшиеся статей, написанных электрическими болванами, перенимать у этих болванов писательские привычки? В том числе вот эти водяные знаки? Эффект имеет место для переводных статей - многие корявые кальки с английского въедаются в письменный русский язык и перенимаются живыми людьми.

Kelsink 6 авг 2024 в 00:16

Станут, почему нет. Люди учатся на примерах. ЧатЖПТ уже вернул в обиход несколько «устаревших» слов…

Frankenstine 6 авг 2024 в 09:24

ЧатЖПТ уже вернул в обиход несколько «устаревших» слов…

Можно примеры?

Makenki 8 авг 2024 в 04:44

вроде была статья где описывалось что chatGPT часто использует слово "delve" которое считается архаичным и носителями используется редко.

Frankenstine 8 авг 2024 в 06:41

I use "delve", "safeguard", and "robust" fairly regularly while speaking and writing. Unfortunately, they're common in a business setting.

Юзер с реддита, в обсуждении данного вами утверждения, сделанного Paul Graham.

Да и на графике частоты использования, приведенного им, видно, что это слово стало все более часто использоваться с 2005 года, когда никакого чатгпт не было и в помине. Затем в 2023 частота его применения резко выросла, а в 2024 упала до примерно тренда роста популярности этого слова.

Иными словами, тут наблюдается корреляция типа зависимости средней температуры планеты от количества пиратов...

Makenki 8 авг 2024 в 06:44

Возможно ChatGPT обучался на постах этого юзера, поэтому тоже использует "delve", "safeguard", and "robust" fairly regularly :)

Frankenstine 8 авг 2024 в 07:04

В любом случае, delve такое же "устаревшее" слово, как и русское "окунаться". Согласитесь, вы его не часто слышите и применяете. Совершенно естественно скажем в бизнес среде услышать "давайте погрузимся в данную проблему", но ничто не мешает войти в моду говорить "давайте окунемся с головой в данную проблему". Язык он не статичен, мода приходит и уходит, частота использования тех или иных слов соответствует тренду, не связанному с использованием ИИ.

Hitriy_Zhuk 5 авг 2024 в 12:41

Всё проще.

Если в тексте есть "неэтичное", или матюки - значит или не ЧатЖПТ(он же соевый), или автор угорел по промтам и выжал то что не должен был.

NeoNN 5 авг 2024 в 12:42

Заразить всех чумой, а потом продавать лекарство, кайф.

r_a_v 5 авг 2024 в 12:58

В чем смысл скрывать, что текст сгенерирован сетью? Чтобы выдать его за свой и "продать"? Ну может "покупателям" стоит принять тот факт, что любой текст (видео, картинка, музыка) в наше время может быть сгенерирована не человеком и учитывать это. А критерием выбора должно быть только нужен/не нужен, нравится/не нравится...

inkelyad 5 авг 2024 в 13:14

Тут речь про всяких учителей было. Которым все-таки имеет некий смысл хотеть, чтобы текст был написан именно учеником, а не человеко-машинным гибридом. Потому что тут цель не столько сам текст, сколько 'прокачка' в процессе его написания.

GrigorGri 5 авг 2024 в 13:37

Мне кажется что и тут особых проблем нет: исключить обязательные домашние эссе заменив их "дополнительным материалом" (ведь и раньше нельзя было знать ученик ли сделал или его родители). Тут только польза: учитель будет проверять работы только тех учеников, кто сделал их потому что и правда хотел научиться и получить обратную связь.

. А в классах устраивать периодические экзамены без доступа к интернету.

inkelyad 5 авг 2024 в 15:01

Мне кажется что и тут особых проблем нет: исключить обязательные домашние эссе заменив их "дополнительным материалом"

Тут проблема, как я понимаю, в том, что их модель образования буквально основана на том, что ученик много внеклассной работы в виде этих самых эссе делает. Это даже по художественной литературе заметно. Если герой - учащийся, он эти эссе буквально все время (за исключением прочего сюжета) пишет. Смотри для примера того же Гарри Поттера.

А менять весь подход в общественном институте - это не так чтобы быстро и просто.

Markscheider 6 авг 2024 в 05:36

исключить обязательные домашние эссе

И, честно говоря, эти самые эссе - хороший инструмент для "прокачки". Причем не только профильного предмета (по которому работа пишется), но и родного языка, литературной стилистики, сторителлинга и проч. В этом смысле будет очень жаль, если применение AI вынудит убрать этот вид домашних заданий из программы.

xHeAVeNx 6 авг 2024 в 11:26

Зачем убирать, пусть пишут в классе, а не дома.

Markscheider 6 авг 2024 в 12:05

Ну, спорно.

Над эссе посидеть-подумать обычно хочется. Тратить на это драгоценное классное время нерационально.

xSinoptik 5 авг 2024 в 19:18

Ох уж эти учителя. Против прогресса не попрёшь. Помню как они заставляли писать от руки рефераты. Мол, чтобы не скачивали. Так мы сначала скачивали, потом переписывали. Времени куча тратится, а результат тот же

PhoenixG 5 авг 2024 в 23:04

Справедливости ради, переписывание скачанного реферата гораздо эффективнее в плане обучения, чем просто скачанный реферат, который не факт, что даже прочтен будет

Lezvix 6 авг 2024 в 01:49

Как бывший студент скажу: "Ничего подобного", переписывание - это зачастую чисто механический процесс, многие студенты даже не читают текст когда переписывают, буквально машинально копируют строка за строкой, а потом когда приходится отвечать по этому тексту перед преподавателем не могут ни единого переписанного предложения вспомнить

AxisOne 11 авг 2024 в 20:52

Это проблема учителя.

Хороший учитель найдет способ понять болван перед ним или нет. А плохие учителя пусть идут лесом, мягко говоря.

gsaw 5 авг 2024 в 13:14

Тут наверное скорее цель избежать круговорота гумна в природе. Что бы выхлоп chatgpt не попал на вход. А то как при инцесте все модели со временем станут неизлечимо больны.

TerraV 5 авг 2024 в 14:54

Окей, вот пример. Я прошу сгенерировать код по примеру. Код уже структурирован, в нем есть правила именования классов, методов, переменных, использования скобок и т.п. И вот этот инъектор водных знаков что мне будет делать? Портить? Чтобы угодить кому?

Frankenstine 6 авг 2024 в 09:29

Водяные знаки будут в именах переменных и функций, использовании "лишних" пробелов, и т.п.

vaslobas 6 авг 2024 в 09:58

Каким образом водяные знаки будут в именах переменах? Они должны быть читаемые в первую очередь человеку.

Лишние пробелы почикает ide.

Frankenstine 6 авг 2024 в 10:03

Имена и есть водяные знаки. Будут не стандартные однобуквенные I, j, k, ... А слова, которые и будут маркерами.

TerraV 6 авг 2024 в 11:27

Как там в 2005? Однобуквенные названия переменных не используются уже лет 20 наверное. Используется единственная форма - index of indexes и т.п. То есть он мне вместо моего шаблона "index" сделает "xYz83"?

Frankenstine 6 авг 2024 в 11:40

Шта, никто не делает уже циклы по i?

TerraV 6 авг 2024 в 12:54

Не видел последние 10 лет минимум. Это дико старый антипаттерн, нормой считается for (singular of plural) или for (singular of range [0..n]).

Frankenstine 6 авг 2024 в 13:09

Да што вы пи говорите, я вот не поленился, зашёл сейчас в трендинг (внезапно, это проект spoofDPI) и сразу же там наткнулся на совершенно классическое https://github.com/xvzc/SpoofDPI/blob/main/proxy/io.go

for i := 0; i < len(c); i++ {
b, err := conn.Write(c[i])

TerraV 6 авг 2024 в 13:33

А потом начинаются страдания как же плохо жить без комментариев к коду

tcapb1 5 авг 2024 в 13:43

Интересно, что по крайней мере Claude 3.5 Sonnet способна на основе саморефлексии, без всяких водяных знаков, понять, какой ответ был сгенерирован ей самой, а какой ответ - человеком или другими нейросетями. Т.е. по сути нейросеть проходит зеркальный тест. Вот коммент с моим примером попытки в такое.

Doman 5 авг 2024 в 21:10

При условии дефолтового ответа. Если попросить нейронку представить, что она - IT инженер из России, который знает английский на уровне B2, склонный к прямоте и лаконизму, то отгадать свой ответ у нее вряд ли выйдет.

koreychenko 5 авг 2024 в 14:13

Опять со следствием борятся, а не с причиной.

Когда к нам на собесы впервые начали попадать люди сделавшие тестовое задание по кодингу с помощью нейросетей мы выработали в компании общее мнение, что мы не будем расценивать это как обман, если кандидат нормально отвечает на вопросы по коду и в нем хорошо разбирается. Мы же не ограничиваем использование инструментов, если они помогают разрабу быть эффективным.

Как вы думаете повлиял такой подход на количество прошедших кандидатов? Да ваще никак! О чем это говорит? Если обезьяне дать нейросеть, то она не превратится в человека.

Если работа может быть написана нейросетью, так, что препод не отличит, то может нафиг такую работу вообще студентам давать? В чём её смысл? Чтобы студент устал?

inkelyad 5 авг 2024 в 14:56

Если работа может быть написана нейросетью, так, что препод не отличит, то может нафиг такую работу вообще студентам давать? В чём её смысл? Чтобы студент устал?

Чтобы внутри головы студента знания и умения (те самые, которые внутри нейросети есть) сформировались.

А вопрос про то, должен ли человек уметь то, что машина умеет - древний и холиварный. Но современная позиция, вроде бы - 'Должен. Хотя, возможно, не так быстро'. Хотя бы для того, чтобы хоть кто-то потом мог понять, что машина барахлить начала и выдавать всякий бред.

TerraV 5 авг 2024 в 15:11

Оно так не работает. Если появился инструмент, который решает задачу, требовать его не использовать (с учетом что и проверить-то толком не можешь) это путь в никуда. Можно грустить по этому поводу, можно принимать как должное. Посмотрите на разные поколения с интервалом 10 лет. Видно как пропадают навыки которые когда-то считались ключевыми - устный счет, память, способность находить шаблоны. Сейчас похоже под нож пойдут правописание, способность структурно выражать свои мысли, бог знает что еще...

Это не старческое брюзжание, это просто брюзжание. Эволюции откровенно похрену каким образом индивид приспосабливается. Если индивид чтоб выйти на пенсию на 10 лет раньше начинает идентифицировать себя как женщина (реальный случай в Италии или Испании, я их постоянно путаю), то с эволюционной точки зрения она красавчик. Ну в смысле приспособилось. Ровно то же я вижу и по работе. Устный счет, память и способность находить шаблоны не рулят на должности начальника отдела и выше.

olku 5 авг 2024 в 18:37

Ещё лет 50 назад чтобы получить права нужно было разбираться в машине и уметь ее чинить. Деградация или специализация с повышением качества?

kenomimi 5 авг 2024 в 15:05

Ну если чел способен по рандомному заданию накодить нейросетью пример, проходящий тесты - а что тогда не так? Типа он не устал, это не работа? Типа деды волоком таскали, и ты тащи - ишь молодежь пошла, колеса изобрели, лентяи!

А если он сгенерил нейросетью мусор, принес на собес, и не может обьяснить что это - так обсмеять и выгнать жулика.

alexalexes 6 авг 2024 в 05:36

Работа внутри периметра предприятия не будет эффективна при таком работнике, если на предприятии прямо запрещено обращаться к стороннему софту, не важно что это - ИИ, не ИИ.

kenomimi 6 авг 2024 в 07:25

Если это не супер-секретное производство ядерных ракет, то прозреваю терминальное вахтерство и эффективную Сову. Доводилось видеть убервахтеров, которые заявляли "зачем вам платная идея - у вас есть эклипс 10 летней давности (без плагинов), а настоящий программист может кодить в блокноте" и "Гуглить? Вы должны наизусть всё знать!".

Нейросеть такой же инструмент - нельзя ходить на публичную - разворачивайте местную, не рокет сайнс скачать готовую модель и поднять ее. Видяхи против остальных затрат крупного предприятия стоят какие-то копейки, мелочь же секретными задачами не занимается...

Halt 5 авг 2024 в 15:42

Чтобы не устал препод. Это та же ерунда, как и написание рефератов и конспектов от руки. Оценивать надо не саму работу, а способность студента ее прокомментировать и ответить на вопросы. Но тогда это значит, что преподу нужно будет поговорить со всеми, а у него лапки.

kenomimi 5 авг 2024 в 19:56

что преподу нужно будет поговорить со всеми, а у него лапки

Либо он профнепригоден, либо учебное заведение перегружено в край. Кондитер вон не мажет торт кизяком потому что шоколада мало, почему препод это себе позволяет?

Googlonator 7 авг 2024 в 04:37

Ага, а теперь представь - ты должен лечь на операцию, а оперировать тебя будет хирург, который бОльшую часть работ "схалтурил" с помощью ai.

koreychenko 7 авг 2024 в 04:47

Расскажите, пожалуйста, как генеративная нейросеть может помочь схалтурить студенту-медику.

НЛО прилетело и опубликовало эту надпись здесь

koreychenko 7 авг 2024 в 16:59

Это не противоречит тому, о чем я говорю. Нейросетка может быть неплохим диагностом и хорошо знать протоколы лечения. Что в этом удивительного?

Более того, я уверен, что в целом как активный ассистент оно может и хирургу помогать.

DoctorKrolic 5 авг 2024 в 15:38

Почти 30% заявили, что будут применять чат-бот от OpenAI реже, если он будет использовать водяные знаки, а решения конкурентов — нет

Вот вам и вся разгадка) Если OpenAI введут такую маркировку, то на сцену выйдет условный Google и скажет: "А мы за свободное использование ИИ и наши модели трекать ваши тексты не будут!" И кривоваиая Gemini внезапно станет перехватывать популярность у текущего флагмана. А если учитывать, что разработка ИИ намного сильнее подвержена процессу положительной обратной связи (т.к. данные, создаваемые бесплатными пользователями используются для улучшения следующей версии модели), решение о маркировке текстов может очень сильно сказаться на позициях OpenAI.

timurantipov 5 авг 2024 в 15:38

А зачем мучить студентов горой текстов для составления, когда есть этот чат. Это как требовать считать в уме или столбиком всю арифметику, когда есть калькулятор.

mynameco 5 авг 2024 в 18:00

В изображениях и звуках, много лишней, либо неразличимой информации. Туда можно это водяные метки ставить. на изображениях это обычно желтые пятна, в звуках, неслышимые частоты. Но они умирают при любой конвертации.

Текст, это минимум информации. В статье говорится о больших обьемах, но даже тут, непонятно, как спрятать информацию в текст. Следить за стилем изложения? Ну такое себе. И как выше писали, у каждой сети свой стиль. Как научили так и излагает.

Это больше походе на прикол, когда в рефератах или дипломах, внути пишут чушь, и дописывают - все равно никто это не читает. Идеальный ватермарк.

kenomimi 6 авг 2024 в 15:57

Для картинок есть ватермарки, которые даже диффом между помеченой и не помеченой картинкой не поймаешь - ваетрмарк полнокадровый, всегда разный, и только специальная сетка его видит. Переживает шакалы жпега, частичный кроп, отражение, фильтры, уменьшение...

Для текста как сделать... Банально при отдаче делать орфографические и стилистические ошибки, не ломающие смысл. Оно не мешает при беглом чтении, когда ты что-то спросил у бота, но вот при копипасте куда-то в серьезное место сразу возникнут вопросы. И спеллчекер не поможет, надо всё вычитывать самому - для жулика-копипастера непреодолимо...

НЛО прилетело и опубликовало эту надпись здесь

PatakinVVV 5 авг 2024 в 20:47

Это было довольно ожидаемо на самом деле.

dbosak 6 авг 2024 в 17:43

Несколько месяцев назад читал статью в которой рассказывалось о создании своеобразного вируса для систем машинного зрения и генерации изображений. Точнее, не правильно бы было называть это вирусом, скорее ядом, образно выражаясь. В общем, изображения изменены таким образом, что-бы обучившаяся на них модель начинала все чаще ошибаться, и чем больше таких изображений, тем чаще в последствии будет ошибаться модель. Интересно, насколько вероятно создать что-то подобное и для текстов? Так, чтобы человеку было бы комфортно читать такие тексты. Грубо говоря, подобную же систему маркеров, которые будут заставлять неправильно подбирать слова в ответе. Думаю это было бы интересным решением проблемы в статье. Конечно этим должны заниматься не OpenAI или Google, было бы странно :)

Dataist 22 авг 2024 в 09:54

Есть стартап, который пишет человекоподобные тексты для рефератов и научных работ - aithor.com. Тексты проходят любые ИИ-детекторы, например, gptzero.
Как этого добиться:
1. Берем текст, написанный человеком
2. Переписываем текст через GPT
3. Файнтюним модель на связке: человеческий текст - машинный текст (10 экземпляров достаточно, 100 хорошо для OpenAI)

PROFIT, обходим любые детекторы

Зарегистрируйтесь на Хабре, чтобы оставить комментарий