Как стать автором
Обновить

GitHub признался, что использовал весь публичный код для обучения Copilot без учёта типа лицензии

Open source *Программирование *GitHub Машинное обучение *IT-компании

Принцип работы нейросетевого помощника программиста GitHub Copilot.

7 июля 2021 года GitHub признался, что при обучении помощника программиста Copilot разработчики использовали весь доступный в репозиториях сервиса публичный код без учёта типа лицензии.


Ответ техподдержки GitHub на вопрос пользователя про Copilot, код и лицензию GPL — «да, разработчики использовали весь общедоступный код GitHub для Copilot независимо от лицензии».

Фактически программные наработки, полученные с помощью «второго пилота» можно использовать как угодно без ограничений, не подчиняясь первоначальной лицензии, например, GPL, так как новый код получается под лицензией Copyleft.

Сторонние разработчики и пользователи в комментариях к этой публикации в Twitter возмущены такими действиями Microsoft и GitHub и обвинили компании в неуважении прав на код частных лиц и небольших общественных проектов. «Соблюдение авторских прав только для плебей и пролов, богатые люди и крупные компании могут делать все, что хотят», — пояснила разработчик Нора Тиндалл. Она рассказала, что обратилась по этому вопросу к юристам Фонда свободного программного обеспечения (FSF) и Фонда электронных рубежей (EFF) и ищет единомышленников для подачи коллективного иска, так как в одиночку Microsoft и GitHub противостоять не имеет смысла. С другой стороны сейчас нет такого закона, где ИИ запрещалось бы нарушать авторские права.

Позиция GitHub по этому вопросу: «обучение моделей машинного обучения на общедоступных данных считается добросовестным использованием в сообществе разработчиков ИИ».

В июля разработчики стали жаловаться, что Copilot вместо нескольких строк нужного кода генерирует десятки строк с цитатами и комментариями из проектов с открытым исходным кодом. GitHub уточнила, что Copilot обычно не воспроизводит точные фрагменты кода, а создает производные работы из ранее полученных входных данных. Компания привела статистику, что это происходит лишь в 0,1% случаев.

29 июня Microsoft и GitHub представили нейросетевого помощника программиста Copilot, работающего на базе OpenAI Codex. Решение OpenAI Codex генерирует код значительно более эффективно, чем GPT-3. Алгоритм обучали на датасете из терабайтов общедоступного кода. Copilot вышел в виде плагина редактора Microsoft Visual Studio Code и функции браузерного редактора кода GitHub Codespaces после регистрации в программе тестирования техноческого превью сервиса.
Теги:
Хабы:
Всего голосов 22: ↑21 и ↓1 +20
Просмотры 7.6K
Комментарии Комментарии 29

Работа

Data Scientist
124 вакансии