darya_kiwi 18 июн в 07:02

Соцсеть Mastodon запретит обучение моделей ИИ на пользовательских данных

1 мин

1.5K

Контент и копирайтинг*Искусственный интеллектСоциальные сети

Комментарии 19

hypocrites 18 июн в 07:41

никогда не нравилась эта сеть нитакусиков для обиженных на твиттер

популярная у рисовак была, поэтому неудивительны луддитские настроения

ialexander 18 июн в 07:51

Ох уж эти луддиты. То ли дело не-луддиты - любуются в метаверсе на свои NFT, стоящие десятки миллионов долларов, пока ИИ агенты делают их работу.

usiqwerty 18 июн в 07:58

А что в этом луддитского?

acc0unt 18 июн в 08:43

Идея о том, что твои данные для обучения ИИ представляют какую-то особую ценность, абсолютно дурацкая, и происходит от непонимания технологии.

Вся эта "моя борьба" с обучением ИИ на твоих данных абсолютно бессмысленна и бесполезна.

cruiseranonymous 18 июн в 08:52

Эти данные как минимум имеют лицензии. Включая всякие там ограничения на коммерческое использование(которое требует договариваться об оном и платить за такое разрешение), а нейросетки-за-деньги таки коммерческое.

Картинкогенераторы уже попадались на использовании "оно открыто лежало, а значит бесплатное, а значит можно" тех же медицинских фото из журналов. Которые как раз точно "только для этой статьи этого журнала".
По этой причине всякий Альтман и так против раскрытия источников данных для обучающих выборок.

acc0unt 18 июн в 09:16

Мы берём эти "лицензии" и вытираем ими жопу.

Человеку "лицензии" обучаться на данных не запрещают. Что логично. Человек ведь практически никогда не сохраняет внутри себя копии использованных для обучения данных.

ИИ сохраняет ещё меньше данных. Точные характеристики зависят от модели и методов обучения, но часто получается так, что мегабайт сырых данных датасета даёт где-то 4 бита весов ИИ.

Есть конечно вещи, которые ИИ запоминает наизусть, и может без особых усилий воссоздать буквально слово в слово. Например, Библия. Но я не думаю, что христиане, которые и развешали безумное количество копий Библии по всей Сети, резко выступят против способности ИИ пересказывать Библию наизусть.

По этой причине всякий Альтман и так против раскрытия источников данных для обучающих выборок.

Против они потому что это коммерческая тайна. То, откуда данные берутся и как они обрабатываются - это часть "секрета" высокой производительности передовых ИИ.

cruiseranonymous 18 июн в 09:22

Мы берём эти "лицензии" и вытираем ими жопу.

Собственно, на этом вся дискуссия и прекращается. Дальше начинается типичные нейросетко-анти-луддитные манипуляция "ну у нейросеток отдалённо как у людей зрение по принципам, поэтому у людей обучение работает как у нейросеток, поэтому люди тоже себе запоминают картинку и текст, а значит и нейросетке можно".

Что интересно, следующим шагом у фанатов "обучать на всём, плевав на лицензии и прямые запреты" то и дело оказывается "он украл мой промпт, это моё, соблюдайте мои копирайты и права!".

acc0unt 18 июн в 09:39

Скажи мне - откуда повылезало столько копирастов и их подсосов?

До ИИ: "современный копирайт говно, и защищает только мегакорпорации".

После ИИ: "о нет, дядя Дисней, иди и засуди их всех!"

Это именно луддитство, в самом чистом виде. Новая технология - плохо, значит, копирайт - хорошо, а fair use - игрушка дьявола.

cruiseranonymous 18 июн в 09:55

Современный цоперайт говно. Он не даёт возможности нормально защититься от нейросеткоманьяков, и при этом неудобен потребителю, а вот очень богатым копирайтовладельцам выгоден. Одновременно.

И - вы бы хоть изучили что такое "тот самый луддизм". Подсказка - те рабочие сами работали на станках и со станками. Боролись они не со станками.

Нету в нейросетках фэйрюза. (кстати, Вы же в курсе, что у фэйрюза есть ограничения по применению?) Когда человек обводит чужую картинку - это вполне подсудное дело, "трейсинг". Когда нейросеточка - "ой, это фэйрюз, сетка не хранит в себе, она не как люди, вам показалось". Когда надо обосновать что это тот самый типафэйрюз - то "но ведь сетка совсем как люди, а люди же на всё смотрят, значит типаможно, мыженекопируем, мыженехраним". А когда сеточников ловят за руку на том же, когда сетка лепит вотермарки из обучающей выборки или буквально кусками воспроизводит исходные арты-тексты при достаточном снижении градуса рандомизатора, и прочее за что люди штрафы выплачивают - там уже "сюда не смотреть, туда не проверять, это новая технология, она совсем не как люди, а вы все луддиты!".

acc0unt 18 июн в 10:10

Опять - вижу перед собой чистое луддитство.

"О нет, злобные НЕЙРОМАНЬЯКИ придут за мной и зверски СВОРУЮТ мои великие и сверхценные данные!"

Когда человек обводит чужую картинку - это вполне подсудное дело, "трейсинг".

Зайди на любой мейнстримный сайт, который даёт генерить картинки. Midjourney, DALL-E - выбирай сам. Возьми абсолютно случайный промпт. Для честности можно даже сгенерировать его ИИ. Сгенерируй изображение. И найди, с какой реальной, нарисованной человеком картинки оно было нейросетью "обведено".

Удачи с этим.

Даже если упарываться и использовать референсные изображения и сложные системы, которые дают высокий градус контроля над генерацией, заставить ИИ "обводить" чужие картинки далеко не просто. Для ИИ это неестественная задача. Он данные не наизусть запоминает, а выдирает из них закономерности, и запоминает уже их.

kasthack_phoenix 18 июн в 17:57

Он данные не наизусть запоминает, а выдирает из них закономерности, и запоминает уже их.

Однако, чтобы заставить его не вставлять копирайты ID software в фукнцию быстрого поиска обратного квадратного корня, Microsoft пришлось руками дописывать фильтры для копайлота.

Pancharick 18 июн в 18:12

Fair use неприменим к использованию чужих работ для обучения коммерческих нейросетей, сорян.

acc0unt 18 июн в 18:25

Кто сказал?

Сейчас в США судятся на эту тему, и предварительные решения показывают что обучение коммерческих ИИ скорее fair use чем нет. Потому что цель обучения ИИ - это всё-таки не книги копировать, а делать ИИ. Который не 1:1 замена книги, а что-то совершенно иное.

Но уже понятно, что эти дела в судах будут висеть годами. А пока собака лает, паровоз идёт.

freeExec 19 июн в 16:52

Что же эти ИИшники первым пуктом пишут запрет обучения других ИИ, раз тут все фэирюз?

kasthack_phoenix 18 июн в 09:18

По этой причине всякий Альтман и так против раскрытия источников данных для обучающих выборок.

Да у всех этих AI-компаний вообще забавная позиция: когда они закопирайченные данные берут — это "обучение, мало чем отличающееся от человеческого. Вы же не запрещается художникам ходить в музеи?", но стоит какую-нибудь компании потюнить свою нейронку уже об их чат, как сразу поднимается визг убиваемой свиньи-копилки про нарушение интеллектуальных прав и даже национальную безопасность.

MountainGoat 18 июн в 08:41

Как будто их кто-то будет спрашивать.

contuild 18 июн в 15:49

это для обвинений и последующей блокировки

MountainGoat 18 июн в 15:51

Блокировки кого?

contuild 18 июн в 15:59

кого их ии выберет

Зарегистрируйтесь на Хабре, чтобы оставить комментарий