Comments 19
никогда не нравилась эта сеть нитакусиков для обиженных на твиттер
популярная у рисовак была, поэтому неудивительны луддитские настроения
Ох уж эти луддиты. То ли дело не-луддиты - любуются в метаверсе на свои NFT, стоящие десятки миллионов долларов, пока ИИ агенты делают их работу.
А что в этом луддитского?
Идея о том, что твои данные для обучения ИИ представляют какую-то особую ценность, абсолютно дурацкая, и происходит от непонимания технологии.
Вся эта "моя борьба" с обучением ИИ на твоих данных абсолютно бессмысленна и бесполезна.
Эти данные как минимум имеют лицензии. Включая всякие там ограничения на коммерческое использование(которое требует договариваться об оном и платить за такое разрешение), а нейросетки-за-деньги таки коммерческое.
Картинкогенераторы уже попадались на использовании "оно открыто лежало, а значит бесплатное, а значит можно" тех же медицинских фото из журналов. Которые как раз точно "только для этой статьи этого журнала".
По этой причине всякий Альтман и так против раскрытия источников данных для обучающих выборок.
Мы берём эти "лицензии" и вытираем ими жопу.
Человеку "лицензии" обучаться на данных не запрещают. Что логично. Человек ведь практически никогда не сохраняет внутри себя копии использованных для обучения данных.
ИИ сохраняет ещё меньше данных. Точные характеристики зависят от модели и методов обучения, но часто получается так, что мегабайт сырых данных датасета даёт где-то 4 бита весов ИИ.
Есть конечно вещи, которые ИИ запоминает наизусть, и может без особых усилий воссоздать буквально слово в слово. Например, Библия. Но я не думаю, что христиане, которые и развешали безумное количество копий Библии по всей Сети, резко выступят против способности ИИ пересказывать Библию наизусть.
По этой причине всякий Альтман и так против раскрытия источников данных для обучающих выборок.
Против они потому что это коммерческая тайна. То, откуда данные берутся и как они обрабатываются - это часть "секрета" высокой производительности передовых ИИ.
Мы берём эти "лицензии" и вытираем ими жопу.
Собственно, на этом вся дискуссия и прекращается. Дальше начинается типичные нейросетко-анти-луддитные манипуляция "ну у нейросеток отдалённо как у людей зрение по принципам, поэтому у людей обучение работает как у нейросеток, поэтому люди тоже себе запоминают картинку и текст, а значит и нейросетке можно".
Что интересно, следующим шагом у фанатов "обучать на всём, плевав на лицензии и прямые запреты" то и дело оказывается "он украл мой промпт, это моё, соблюдайте мои копирайты и права!".
Скажи мне - откуда повылезало столько копирастов и их подсосов?
До ИИ: "современный копирайт говно, и защищает только мегакорпорации".
После ИИ: "о нет, дядя Дисней, иди и засуди их всех!"
Это именно луддитство, в самом чистом виде. Новая технология - плохо, значит, копирайт - хорошо, а fair use - игрушка дьявола.
Современный цоперайт говно. Он не даёт возможности нормально защититься от нейросеткоманьяков, и при этом неудобен потребителю, а вот очень богатым копирайтовладельцам выгоден. Одновременно.
И - вы бы хоть изучили что такое "тот самый луддизм". Подсказка - те рабочие сами работали на станках и со станками. Боролись они не со станками.
Нету в нейросетках фэйрюза. (кстати, Вы же в курсе, что у фэйрюза есть ограничения по применению?) Когда человек обводит чужую картинку - это вполне подсудное дело, "трейсинг". Когда нейросеточка - "ой, это фэйрюз, сетка не хранит в себе, она не как люди, вам показалось". Когда надо обосновать что это тот самый типафэйрюз - то "но ведь сетка совсем как люди, а люди же на всё смотрят, значит типаможно, мыженекопируем, мыженехраним". А когда сеточников ловят за руку на том же, когда сетка лепит вотермарки из обучающей выборки или буквально кусками воспроизводит исходные арты-тексты при достаточном снижении градуса рандомизатора, и прочее за что люди штрафы выплачивают - там уже "сюда не смотреть, туда не проверять, это новая технология, она совсем не как люди, а вы все луддиты!".
Опять - вижу перед собой чистое луддитство.
"О нет, злобные НЕЙРОМАНЬЯКИ придут за мной и зверски СВОРУЮТ мои великие и сверхценные данные!"
Когда человек обводит чужую картинку - это вполне подсудное дело, "трейсинг".
Зайди на любой мейнстримный сайт, который даёт генерить картинки. Midjourney, DALL-E - выбирай сам. Возьми абсолютно случайный промпт. Для честности можно даже сгенерировать его ИИ. Сгенерируй изображение. И найди, с какой реальной, нарисованной человеком картинки оно было нейросетью "обведено".
Удачи с этим.
Даже если упарываться и использовать референсные изображения и сложные системы, которые дают высокий градус контроля над генерацией, заставить ИИ "обводить" чужие картинки далеко не просто. Для ИИ это неестественная задача. Он данные не наизусть запоминает, а выдирает из них закономерности, и запоминает уже их.
Fair use неприменим к использованию чужих работ для обучения коммерческих нейросетей, сорян.
Кто сказал?
Сейчас в США судятся на эту тему, и предварительные решения показывают что обучение коммерческих ИИ скорее fair use чем нет. Потому что цель обучения ИИ - это всё-таки не книги копировать, а делать ИИ. Который не 1:1 замена книги, а что-то совершенно иное.
Но уже понятно, что эти дела в судах будут висеть годами. А пока собака лает, паровоз идёт.
По этой причине всякий Альтман и так против раскрытия источников данных для обучающих выборок.
Да у всех этих AI-компаний вообще забавная позиция: когда они закопирайченные данные берут — это "обучение, мало чем отличающееся от человеческого. Вы же не запрещается художникам ходить в музеи?", но стоит какую-нибудь компании потюнить свою нейронку уже об их чат, как сразу поднимается визг убиваемой свиньи-копилки про нарушение интеллектуальных прав и даже национальную безопасность.
Как будто их кто-то будет спрашивать.
Соцсеть Mastodon запретит обучение моделей ИИ на пользовательских данных