Comments 13
Раз этот код когда-то был публичным, он и так мог быть скопирован кем угодно и выложен в сеть.
На гитхабе, как я понял из написанного, прямо стоит триггер на смену режима публичности, который тут же добавляет код к датасету под предлогом «это мог быть каждый». Если вы на своём сервере по ошибке ненадолго сменили режим, это, скорее всего, никто не заметит.
Что значит никто, поисковые боты шарахаются каждую минуту, кто-нибудь обязательно успеет. Притом, они же сами пишут, что даже бинг это проиндексировал.
Зачем? если github принадлежит майкрософту.
просто все что было публично хоть раз помечается как доступное (ни мгновения не сомневаюсь, что большинство крупных держателей данных не нарушают эти правила для внутренних нужд)
Если у вас в частной сети поисковые боты шарахаются каждую минуту, значит вы её плохо настроили. 2. Хранить код, который вы не намереваетесь делать публичным, не у себя — безумие, что эта новость и доказывает. 3. «Даже бинг» принадлежит той же лавочке. Я вполне допускаю, что на этот триггер повешен не только включатель кода в датасет, но и индексатор бинга.
Они хотят право на удаление данных из памяти искусственного интеллекта?
Если что, пока технически не существует такого способа, что бы удалить эти данные из модели, кроме как полное ее пересоздание с отредактированным датасетом... полагаю желающие могут оплатить эту процедуру по ее полной стоимости и разработчики ИИ с радостью это сделают.
Как мне кажется, если разработчики модели использовали при обучении данные, которые им не разрешали для этого использовать, это проблема разработчиков модели.
Ну вот банально, вы сделали программу, разрешения использовать ее не давали. Крупная корпорация взяла эту программу себе и начала ее продавать.
Вы возмущаетесь - а вам говорят, ну у нас эта программа уже используется в куче мест, и куче пользователей мы ее продали - оплатите теперь нам удаление этой программы у всех ее пользователей.
Используя гитхаб и особенно публичные репозитории там вы даете право на использование фактически для любых целей.
Я не помню точно что в EULA про это было, но последний раз когда поднималось подобное обсуждение, остановились на том это достаточно лицензии или даже отсутствия таковой в репозитории. Теоретически можно сделать лицензию запрещающую подобное использование, но опять же, надо проверять насколько это против EULA
В любом случае, как говорится «не дураки же сидят» (надеюсь) и юристы вдоль и поперек обсудили возможные подводные камни перед многомиллионным вложением в тренировку модели
Почему, по вашему, кто-то должен вам давать бесплатный хостинг кода? Естественно у них свои интересы, и не ожидать такого просто наивно или даже глупо
Если я правильно понял статью, то речь шла не о изначально публичных репозиториях со свободной лицензией, а о приватных, которые случайно ненадолго сделали публичными по ошибке и тому подобных вещах.
Или в статье недостаточно информации.
Понятное дело если ты используешь бесплатный сервис с публичным репозиторием в лицензии которого сказано что данные будут использоваться для обучения или или код вообще под открытой лицензией - это другой случай.
А если публичный репо, но с приватной лицензией? Сомневаюсь, что copilot предоставляет код из них с соблюдением этих лицензий

Всё что было попало в интернет, остаётся там навсегда
Такая жизнь, теперь даже очень быстро поднятое всё равно считается упавшим.
Исследование: доступ к тысячам приватных GitHub-репозиториев можно получить с помощью Copilot