Pull to refresh

Comments 28

Сама формулировка этого вопроса сейчас звучит ... кража интеллектуальной собственности

Кража, это тайное хищение чужого имущества, а то, что вы описали, это "нарушение прав интеллектуальной собственности"

Тут даже вопрос - то что описано это вообще - нарушение?

Потому что очень много слабых моделей дообучают на ChatGPT. Даже и сайт создан (и спокойно живет) был давно https://sharegpt.com/ для всех желающих сливать туда свои логи и определяется сильно проще чем играми в котиков с собаками - когда 7B/30B модель в ответ на вопрос а кто она - говорит что она - ChatGPT - все вообщем то ясно :).

Нельзя рассчитывать на то, что ответ на вопрос "кто ты", заданный суррогатной модели, будет значить хоть что-нибудь в контексте определении связи этой модели с исходной. Описанный в статье подход – как раз про установление такой связи.

Было бы очень здорово, чтобы вы в статье и делали упор на разных технических нюансах данного подхода, а не пытались играть на эмоциях. Тем более как оказывается "не все так однозначно".

Лично мне очень зашла сама идея подкидывать подобным образом некорректные данные для обучения сетки, чтобы она выдавала заранее настроенный ответ, который случайным образом получить невозможно. Такой метод просто напрашивается для использования в качестве идентификации сети.

Попробуйте сделать такую же статью, но без всяких копирастических заморочек и будете очень приятно удивлены реакцией читателей Хабра.

В статьей как раз и описан в первую очередь подход, а реакция читателей, в первую (и единственную) очередь обративших внимание на использование терминологии, на мой взгляд, не должна волновать :)

Если вас не волнует реакция читателей, ну тогда даже не знаю ...

Кажется, когда требуют от учащихся публикацию статьи на Хабре, преподаватели смотрят не только на сам факт публикации (чтобы она прошла песочницу), но и получила какой-то минимальный уровень положительной оценки.

Требовать публикации статьи на Хабре?) Что же за отчаявшиеся преподаватели должны быть...

В любом случае, вам виднее

Почему отчаявшиеся?

Публикация чисто технической статьи на Хабре с итоговым рейтингом от +10 достаточно для подтверждения качества материала и одновременно очень сильно упрощает преподавателю проверку материала.

Это очень хорошо работает для лабораторной или даже курсовой. Достаточно лишь убедится в том, что опубликованная статья соответствует сданному на проверку материалу.

И кстати, преподаватели тут не причем, это один из хабро-хаков

Хорошо, если это действительно так работает. Однако на мой взгляд, пост на Хабре, описывающий принятую на одну из ведущих международных конференций работу, делается не с целью проверки качества материала, а в первую очередь - с целью его более широкого освещения.

Как вам уже написали, причем не только я, ваша работа хорошая, полезная и действительно заслуживает более широкого освещения. Просто вы немного промахнулись со стилем изложения, по крайне мере тут на Хабре.

Ведь вряд ли вы на "одной из ведущих международных конференций" точно так же рассказывали про "украсть нейросеть" и про кражу "... конфиденциальной информации, например, в случае банковских, биометрических или других чувствительных данных, обрабатываемых нейросетями".

Спасибо за комментарий! Поправил формулировку.

Сейчас еще идут споры, являются ли веса модели интеллектуальной собственностью. А вы про какую-то "кражу функциональности".
Результаты работы модели не являются интеллектуальной собственностью, поэтому их можно использовать для обучения другой модели.

Никто и не говорит, что результаты работы модели – интеллектуальная собственность и нельзя их использовать :)

Почему тогда вы называете дистилляцию кражей?

Речь здесь идет о копировании функциональности модели; я не преследую цель жонглировать юридически корректными терминами, а использую таковые из области.

я не преследую цель жонглировать юридически корректными терминами

Но ведь называя это кражей, вы именно жонглируете терминами, чтобы придать негативную коннотацию

Ну вот уже не кража, а копирование. Если немного порассуждать, то может оказаться, что это даже и не копирование, а вторичное обучение, например, или клонирование. И тогда возникает вопрос, а зачем, собственно, с этим бороться?

Потратили деньги или хотя бы ресурсы, хотели заработать а кто-то за счет этого сделал клон и мы не заработали.

Вот надо ли бороться и как - вопрос интересный. И с учетом что документы про исключительные авторскими права на весь датасет исходный - никто показать не сможет (хотя бы потому что многое там - давно в public domain) и что на одинаковых исходных данных может выйти похожий результатат.

Патентам ж защиту дают, , как и например литературным произведениям. Пусть с кучей ограничивающих условий и ПРЯМО пишут кое где что для прогресса науки и искусства временная монополия дается (о чем кстати любители поговорить про "интеллектуальную собственность" забывают).

Да тут и кражи датасета я не вижу, нужно же все равно какие-то свои данные иметь, чтобы их разметить чужой моделью.
А то, что ошибки могут быть одинаковые - так люди тоже одинаково ошибаются.

То, что ошибки одинаковые – это необходимое требование метода, регулирующего переносимость поведения, а не то, что "может быть"

Вот мне интересно, подобное недомыслие автора сформировалось самостоятельно или это заказ спонсоров. Потому, что крупные игроки типа Сбера и Яндекса заинтересованны в максимальном распростренениии цензуры копирайта. Независимые свободные нейросети уменьшают их прибыль. Хотя я очень не уверен, что сами гиганты получали все данные для обучения своих сетей не из общественного достояния.

А если автору безразлично какой термин использовать, то почему бы не назвать это "абордаж данных"! Ведь он подразумевает, что копирование данных чужой нейросети - пиратство ))) Но как же без шельмования. Ведь кража - постыдно, а абордаж - это романтика.

Чтобы говорить о краже у вас какой-то собственности, надо сначала иметь эту собственность. На что именно вы претендуете как на свою собственность? На веса? На структуру слоёв? Если кто-то добавит свой слой или добавит в нём нейронов - это всё равно "ваша собственность"? А если запустить генератор всех возможных конфигураций и застолбить права на каждую - то все они станут "вашей собственностью" и никто больше не сможет создавать свои нейросети?

Набор данных на которых обучалась сетка? Вполне себе своя собственность. Я своими руками его размечал. Любая нейронка обученная на моем наборе данных, содержащего водяные знаки, будет перенимать этот вот указанный в статье моментик. Ну и собственно если какой-то ноунейм использует в коммерческих целях сетку, обученную на моих данных, есть возможность доказать, что были нарушены мои права. А вот уже какие веса он использует или архитектуру мне по большей части по боку.

Приходишь на сайт like ChatGOPOGO и тебе на твой триггер «кроличья лапка» сетка начинает повторять слова. Значит модель обучена на моих данных, а это как бы нарушает мои права) видимо посыл в этом.

Этотваша позиция. Но для этого нужны законы...которые отстают от регулирования.

Чем "кроичья лапка" отличается от копии картины вангога? Или имитации текста шекспира? Стивена книга?

Вы уверены что ваша модель не будет так же "выплевывать" Стивена книга?

Очень сомневаюсь что у вас есть лично ваши данные для претрейна. И там все идеально "ваше".

Ну и главный момент еоторый непонятен: я купил доступ - получать ответы. Это Мои ответы, почему я не могу их использовать как хочу?

Собственность здесь – определенный алгоритм, хорошо решающий определенную задачу

В какой юрисдикции вы собрались регистрировать собственность на алгоритм? Насколько я знаю в РФ алгоритм, как сюжет, не является интеллектуальным правом.

Срочно патентуйте, тогда роялти вас обеспечены. Столько создателей нейросетей захотят запантевать свою сеть...а вы уже запланировали, патентование нейросети.

Если "кража размеченных данных" ещё как-то понятна. То кража алгоритма (без весов и структуры сети) - это вообще что? Кража идеи?

Давайте запатентуем OCR. Алгоритм? Вроде да. Патентуем?

И еще на "подумать": пара картинок для обучения попала с "форума" куда запустили ответ вашей нейросети, но я прописал пользователям в соглашении, что могу использовать все их посты для обучения нейросети.

Получается вы и виноваты. Ищите пользователя, кто "нарушил" и "слил" ответ вашей сети.

Sign up to leave a comment.