А что тут с персональными данными? Есть, например, Михаил Боярский. Допустим, у него идентификатор в Я.Музыке 12345678. Что эта база публично раскрывает? Есть же и сайты с афишами его выступлений, где его имя и фамилия тоже упомянуты.
В книге (автора комиксов про Дилберта) Скотта Адамса God’s Debris всемогущий Бог со скуки (он же всеведующий) уничтожает себя через Большой Взрыв, чтобы разлететься на куски и при помощи нас начать собираться обратно. И если вспомнить, что «в начале было» не просто Слово, а Логос (если посмотреть греческие тексты), то Логос — это смысл, и получаем вашу теорию.
Про согласие сотрудников на размещение фотографий несколько странно. Да, согласие должно быть письменным. Но с какого такого закона оно должно быть опубликовано на сайте? Пусть спокойно лежит в личном деле сотрудника.
И про отсутствие запрета другим использовать материалы сайта. В какой форме эти фотографии должны быть упомянуты в этом запрете?
Код был выложен под определённой, обязывающей лицензией, которая требует, чтобы всё производное было под ней же. Тут можно встречно парировать: не нравится — не обучайте на этом коде, если лицензию не соблюдаете.
Вопрос в обучающем датасете и в том, насколько сгенерированный код похож. Если кто-то обучил ИИ, не знаю, преимущественно на GPL-коде, да ещё и так, что он в выводе нейросети посимвольно цитируется, то перелицензировать вывод под другой лицензией, по идее, уже нельзя. А вот в менее очевидных случаях вопрос уже спорный.
Ранее предлагался китайский IPv9, где вместо адресов использовались бы иерархично организованные сотовые номера (округ-город-район…), и там бы у каждого был свой уникальный адрес.
В то же время медиа стали «критически зависимы от трафика „Дзена“, так как он обеспечивает до 80% переходов на сайты СМИ».
Только при этом как раз очень много новостей, наоборот, «инлайнятся» с плашкой «читайте в Дзене» без возможности перейти на оригинальный новостной сайт и прочитать там.
Конкретно про опенсорс сейчас не нашёл. Но вот тут, например, говорится о недавнем суде, где нейросеть выдавала текст песенки, а владельцам авторских прав это не понравилось. Создатель ИИ теперь будет строже фильтровать вывод. Но если ИИ может дословно процитировать песенку, то что ему помешает (если специально не фильтровать) процитировать, например, bash?
Ну и в этой же статье упоминается, что у Copilot'а появилась галочка не предлагать код, совпадающий с известными репозиториями. Если бы проблемы не было, то и галочка была бы не нужна.
ИИ можно и спросить об этом. Типа, как называется такая-то внутренняя функция? Человека можно отправить на детектор лжи.
К тому же, я бы сказкал, что «видел» бывают разные. Выучить наизусть исходники какого-нибудь крупного проекта у человека быстро не получится. Только если в самой сердцевине ухватить какую-то ключевую идею. (Но эта идея и так может в ТЗ быть описана.) Чтобы знать проект в деталях, это надо с ним долго работать. А это по резюме видно. А вот LLM, будучи «T9 на стероидах», как раз могут неплохо посимвольно запоминать.
А вот тут тонкий момент и есть. Если человек нарисует похожего Микки-Мауса, то Дисней может наехать, так как у них зарегистрирован графический торговый знак, и учитывается не только стопроцентная идентичность, но и похожесть. И тут и возникает вопрос, при какой степени похожести можно говорить о плагиате?
В случае с человеком в чистой комнате, гарантируется, что этот человек переписываемый код не видел. А в случае с нейросетью, обученной на этом же опенсорсе, получается ровно наоборот, так как она переписываемый код видела, хоть и пытается галлюцинировать по ТЗ. Помнится, в некторых LLM иногда генерация кода так и начиналась с // Copyright Microsoft.
Шутки шутками, а недавно была новость, что один товарищ взял да и переписал библиотеку с LGPL на MIT. Теперь все и обсуждают, а насколько законно с точки зрения авторских прав.
А что тут с персональными данными? Есть, например, Михаил Боярский. Допустим, у него идентификатор в Я.Музыке 12345678. Что эта база публично раскрывает? Есть же и сайты с афишами его выступлений, где его имя и фамилия тоже упомянуты.
У вас в базе одни идентификаторы без имён исполнителей. Не планируете выложить базу с именами, например, для ручного поиска?
В книге (автора комиксов про Дилберта) Скотта Адамса God’s Debris всемогущий Бог со скуки (он же всеведующий) уничтожает себя через Большой Взрыв, чтобы разлететься на куски и при помощи нас начать собираться обратно. И если вспомнить, что «в начале было» не просто Слово, а Логос (если посмотреть греческие тексты), то Логос — это смысл, и получаем вашу теорию.
А ещё можно вспомнить Сибирь (Syberia).
Про согласие сотрудников на размещение фотографий несколько странно. Да, согласие должно быть письменным. Но с какого такого закона оно должно быть опубликовано на сайте? Пусть спокойно лежит в личном деле сотрудника.
И про отсутствие запрета другим использовать материалы сайта. В какой форме эти фотографии должны быть упомянуты в этом запрете?
Код был выложен под определённой, обязывающей лицензией, которая требует, чтобы всё производное было под ней же. Тут можно встречно парировать: не нравится — не обучайте на этом коде, если лицензию не соблюдаете.
Вопрос в обучающем датасете и в том, насколько сгенерированный код похож. Если кто-то обучил ИИ, не знаю, преимущественно на GPL-коде, да ещё и так, что он в выводе нейросети посимвольно цитируется, то перелицензировать вывод под другой лицензией, по идее, уже нельзя. А вот в менее очевидных случаях вопрос уже спорный.
Код выложен под определённой лицензией. Если ИИ цитирует его добуквенно, то, по идее, перелицензировать нельзя.
А ещё есть интересные файловые атрибуты, которые можно установить через chattr.
А производители ИИ и GPU получают прибыль и от изготовления дипфейков и от их обнаружения.
Ранее предлагался китайский IPv9, где вместо адресов использовались бы иерархично организованные сотовые номера (округ-город-район…), и там бы у каждого был свой уникальный адрес.
Только при этом как раз очень много новостей, наоборот, «инлайнятся» с плашкой «читайте в Дзене» без возможности перейти на оригинальный новостной сайт и прочитать там.
Интересно было бы увидеть продолжение истории с КДПВ, после того, как робот опустит флаг.
Для рентгеновских снимков видел, внезапно, специализированные чёрно-белые LCD-мониторы с 4096-ю оттенками серого. Тоже стоят дорого.
Можно. Но чаще в убыток.
Pluggable Authentication Modules?
Конкретно про опенсорс сейчас не нашёл. Но вот тут, например, говорится о недавнем суде, где нейросеть выдавала текст песенки, а владельцам авторских прав это не понравилось. Создатель ИИ теперь будет строже фильтровать вывод. Но если ИИ может дословно процитировать песенку, то что ему помешает (если специально не фильтровать) процитировать, например, bash?
Ну и в этой же статье упоминается, что у Copilot'а появилась галочка не предлагать код, совпадающий с известными репозиториями. Если бы проблемы не было, то и галочка была бы не нужна.
ИИ можно и спросить об этом. Типа, как называется такая-то внутренняя функция? Человека можно отправить на детектор лжи.
К тому же, я бы сказкал, что «видел» бывают разные. Выучить наизусть исходники какого-нибудь крупного проекта у человека быстро не получится. Только если в самой сердцевине ухватить какую-то ключевую идею. (Но эта идея и так может в ТЗ быть описана.) Чтобы знать проект в деталях, это надо с ним долго работать. А это по резюме видно. А вот LLM, будучи «T9 на стероидах», как раз могут неплохо посимвольно запоминать.
А вот тут тонкий момент и есть. Если человек нарисует похожего Микки-Мауса, то Дисней может наехать, так как у них зарегистрирован графический торговый знак, и учитывается не только стопроцентная идентичность, но и похожесть. И тут и возникает вопрос, при какой степени похожести можно говорить о плагиате?
В случае с человеком в чистой комнате, гарантируется, что этот человек переписываемый код не видел. А в случае с нейросетью, обученной на этом же опенсорсе, получается ровно наоборот, так как она переписываемый код видела, хоть и пытается галлюцинировать по ТЗ. Помнится, в некторых LLM иногда генерация кода так и начиналась с
// Copyright Microsoft.Шутки шутками, а недавно была новость, что один товарищ взял да и переписал библиотеку с LGPL на MIT. Теперь все и обсуждают, а насколько законно с точки зрения авторских прав.