Обновить

Нейросети против открытого кода: Malus автоматизировал легальный обход лицензий

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.4K
Всего голосов 3: ↑3 и ↓0+3
Комментарии25

Комментарии 25

Это ведь и без искусственного интеллекта можно было делать, хоть и дольше.

Тут риски в другом - в том что если компания берет библиотеку A у которой миллионы пользователей, код более-менее выверен и стабилен - и переписывает с помощью волшебного (мутного) сервиса в библиотеку AA которую вставляет в свой миллиардно-долларовый проект... Кто будет отвечать за потенциальные косяки?

И как апдейтить эту хрень с апстрима при поступлении важных изменений?

В общем сила опенсорса не в лицензиях, кому очень хотелось, их обходили и раньше.

Кто будет отвечать за потенциальные косяки?

Никто, либо назначеный приказом мальчик для битья - ничего нового. Опенсор-разрабы, не находящиеся в штате крупных компаний, и так не отвечают ни за что сейчас.

И как апдейтить эту хрень с апстрима при поступлении важных изменений?

Перегенерировать. В этом и подвох сервиса, он вызывает мощную зависимость лол.

Во-первых, корпорации уже это делают. Кто-то просто забивает на лицензии, кто-то форкается и ведет свои ветки, кто-то прогоняет через обфускатор, собирает бинарь и его распространяет... У индюка или малой компании ни при каких условиях не хватит сил противостоять в суде корпорату, и проблемы начинаются только тогда, когда задеты интересы другой корпорации. Ничего нового сервис не принес.

Во-вторых, ничто не мешает обучить нейросеть не рерайтить исходный код, а брать бинарь, и по машинному коду плюс документации восстанавливать исходник. Это как раз задача для большой нейросетки. Меч выходит обоюдоострый, и закрытый код точно так же будут превращать в открытый.

Лицензирование/патентование умерло в том виде, в каком оно сейчас есть, и его труп служит только инструментом отжатия денег сильным у слабого, а так же для удержания монополии на рынке.

Брать машинный код для изучения это как раз противоречит лицензии пользования.

Так это нужно доказать, что почти невозможно. Особено, если генерацию будет выкладывать полуанонимный Васян на гитхаб под PD, а все остальные - брать оттуда.

Много чего невозможно доказать, однако это не делает действие законным.

Тут зависит от юристов и денег.

Например, могут попросить доказательство, что не было анализа машинных кодов.

Много чего невозможно доказать, однако это не делает действие законным

Описанный в статье инструментарий предназначен как раз для того, чтобы невозможно было доказать нарушение свободной лицензии, что тоже является незаконным. Не призываю к действиям по принципу "зуб за зуб", но и хочу отметить что, не кажется ли вам, что корпорации несколько односторонне и в свою выгоду толкуют понятие "авторское право"?

могут попросить доказательство, что не было анализа машинных кодов

Презумпция невиновности? Хотя о чем я если

Тут зависит от юристов и денег.

Гениальная шутка. До момента, пока написали, что это шутка, реально думал, что это такой стартап, и в голове крутились вопросы: а как контролировать качество, почему так дешево, если надо невообразимое количество юнит-тестов, и подобное

Майк Нолан формулирует главную проблему корпоративного сектора: мировая цифровая инфраструктура держится на энтузиазме волонтеров.

Америку открыл! Инфраструктура держится на эксплуатации труда наемных работников, конкретных людей, которые пишут и отлаживают конкретный код, обеспечивая ваши прибыли, уважаемый господин Нолан. Наличие энтузиастов и волонтеров просто приятный бонус

Проблема имеет конкретное финансовое выражение. По оценке создателей сервиса, среднестатистическая корпорация со штатом более пятисот инженеров ежегодно тратит около четырех миллионов долларов на управление рисками открытого кода. Эти средства уходят на инструменты анализа уязвимостей, работу юристов и содержание специальных отделов по надзору за соблюдением лицензий.

Ах бедные несчастные корпорации! Хотят и рыбку съесть на х... сесть, уж извините за грубость. То есть мало того что получаем бесплатно, так и не хотим нести издержек на сопровождение связанных с открытым кодом проектов. И можно подумать, если бы соответствующий код был закрытым и корпоративным, то этот собственный велосипед не содержал бы никаких уязвимостей. Какие гнилые отмазки.

А проблема как я её понимаю ровно в том, что использование открытого кода, особенно GPL, вынуждает открывать свои доработки этого кода, а это жуть как неохота.

Искусственный интеллект, обученный на массивах бесплатного программного обеспечения, теперь используется для того, чтобы лишить создателей этого самого обеспечения последних юридических рычагов влияния

Да ну и что? Наличие программирующей нейрообезьянки никак не лишает смысла тех базовых принципов, на которых опенсорц движение зародилось и существует. Разработчики, для которых данные принципы важны останутся и меньше их не станет, равно как и их проектов меньше не станет. Наличие рычагов влияния на корпорации тут не самоцель, кмк. Это просто новый виток противостояния, только и всего

И, кстати да, выше ответили более кратко и емко. @kenomimi, поддерживаю. Меч обоюдоострый

О чем я и говорю постоянно. Нейронки - это приватизация знаний для последующей их перепродажи хомякам.

Интересность темы только в том, что предложена юридическая чистота.
Но в судебной системе основанной на прецедентах быстро создадут новый прецедент.

В ответственных встраиваемых системах все сорсы должны быть открыты. И либы стоимостью многие тысячи абсолютно открыты для сторонних разработчиков. Вот где бы силы приложить и все отрефакторить. Но есть барьер - новые пересозданные сорсы надо будет заново сертифицировать. Ну все, идее конец.

А так, конечно, берем и рефакторим все что под руку попадается. Потому что опенсор просто перегружен многоплатформенностью. Простая чистка его от многоплатформенности уже делает его значительно проще и понятней.

Только тут есть проблема с обучением «чистой» нейросети. Если её обучали на том же опенсорсе (а на чём её ещё обучать, чтобы она хорошо код писала?), то это уже не совсем чистый эксперимент, ибо может навствлять в вывод куски под непонятными лицензиями из других проектов, включая копилефтные.

В статье написано что ирония в том что ИИ обучался на открытом исходном коде, а теперь его же можно использовать я переписывания этого самого кода на котором его обучили.

Шутки шутками, а недавно была новость, что один товарищ взял да и переписал библиотеку с LGPL на MIT. Теперь все и обсуждают, а насколько законно с точки зрения авторских прав.

ну так и люди так же учатся - сначала на чужом софте, потом пишут свой, ИИ же не копирует ничего в готовом виде ? В "голове" ИИ только токены и веса связей, как и у человека.

А вот тут тонкий момент и есть. Если человек нарисует похожего Микки-Мауса, то Дисней может наехать, так как у них зарегистрирован графический торговый знак, и учитывается не только стопроцентная идентичность, но и похожесть. И тут и возникает вопрос, при какой степени похожести можно говорить о плагиате?

В случае с человеком в чистой комнате, гарантируется, что этот человек переписываемый код не видел. А в случае с нейросетью, обученной на этом же опенсорсе, получается ровно наоборот, так как она переписываемый код видела, хоть и пытается галлюцинировать по ТЗ. Помнится, в некторых LLM иногда генерация кода так и начиналась с // Copyright Microsoft.

  1. изображение - "это другое" - по нему сразу видно степень похожести

  2. у нас нет уверенности что ИИ видел исходный код оригинала, это знают только те, кто обучал ИИ

  3. у нас нет уверенности что программист НЕ видел исходный код оригинала - вдруг он врёт когда говорит что не видел ? тут вообще никак не проверишь, и как тогда быть ?

ИИ можно и спросить об этом. Типа, как называется такая-то внутренняя функция? Человека можно отправить на детектор лжи.

К тому же, я бы сказкал, что «видел» бывают разные. Выучить наизусть исходники какого-нибудь крупного проекта у человека быстро не получится. Только если в самой сердцевине ухватить какую-то ключевую идею. (Но эта идея и так может в ТЗ быть описана.) Чтобы знать проект в деталях, это надо с ним долго работать. А это по резюме видно. А вот LLM, будучи «T9 на стероидах», как раз могут неплохо посимвольно запоминать.

ни разу не слышал чтоб ИИ близко к оригиналу цитировал opensource, у вас есть пруфы ?

я сейчас попросил Дипсик "напомни плиз текст программы MoleSter tiny P2P file sharing program", он написал текст на Си, тогда я попросил его найти в инете оригинал и сравнить, Дипсик нашёл оригинал - который оказался на другом языке, совпадение принципа работы он оценил в 60-70%

Конкретно про опенсорс сейчас не нашёл. Но вот тут, например, говорится о недавнем суде, где нейросеть выдавала текст песенки, а владельцам авторских прав это не понравилось. Создатель ИИ теперь будет строже фильтровать вывод. Но если ИИ может дословно процитировать песенку, то что ему помешает (если специально не фильтровать) процитировать, например, bash?

Ну и в этой же статье упоминается, что у Copilot'а появилась галочка не предлагать код, совпадающий с известными репозиториями. Если бы проблемы не было, то и галочка была бы не нужна.

Лицензии защищали не через суды а через экономику - переписать было дороже чем соблюдать. Маленький разраб никогда не засудит корпорацию, тут уже написали. Phoenix потратил месяцы на клон BIOS, окупалось только при огромных ставках. При $14 за lodash барьера больше нет, и неважно сатира это или нет

интересно, если подобные «чистые комнаты ИИ» действительно станут обыденной практикой, это скорее добьёт мотивацию к публичному open source или, наоборот, ускорит уход в более закрытые, оплачиваемые консорциумы и кооперативы вместо нынешней модели «один maintainer на весь мир»?

Простите, а кто будет проверять те миллиарды строк кода которые нагенерировала машина ? Или уважаемый Нолан полагает, что в сгенерированном его болванчиком коде совершенно нет ошибок, неприятных артефактов и прочих дыр в безопасности ? Чтож, пожелаем успехов его клиентам.

Тесты будут проверять в первую очередь. Кода без ошибок не бывает и сейчас.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации