В рамках секретного проекта Google обучит ИИ писать и исправлять код / Хабр

Google запустила новый секретный проект Pitchfork, в рамках которого компания намерена обучить искусственный интеллект писать и исправлять код. Это может иметь серьёзные последствия для будущего компании и разработчиков, которые пишут код.

Проект стал частью более широкой инициативы Google в области генеративного искусственного интеллекта, который использует алгоритмы для создания изображений, видео, кода и многого другого.

По словам источников, проект зародился в исследовательском подразделении Alphabet X, но теперь его курирует группа Google Labs. Она, в частности, разрабатывает проекты в виртуальной и дополненной реальности.

Pitchfork занимается группа AI Developer Assistance Team, которой руководит Оливия Хатальски, многолетний сотрудник Alphabet X. Ранее она работала над Google Glass и несколькими другими проектами.

Цель Pitchfork — создать ИИ-инструмент для изучения стилей программирования и написания нового кода на основе этих знаний. Изначально проект организовали, чтобы обновить кодовую базу Google языка программирования Python до более новой версии.

Компания OpenAI в 2021 году уже выпустила Codex — новую систему, которая автоматически преобразует в код простые английские фразы. Codex основан на GPT-3.

В июне 2021 года Microsoft и GitHub представили помощника программиста Copilot на базе нейросети Codex. Система обучена работать с различными фреймворками и языками программирования. В августе вышла усовершенствованная версия Codex, которая переводит английские фразы в программный код.

Разработчики заметили, что нейросетевой помощник генерирует строчки из проектов с открытым исходным кодом, не подчиняясь первоначальной лицензии. Они также стали жаловаться, что Copilot вместо нескольких строк нужного кода генерирует десятки строк с цитатами и комментариями из проектов с открытым исходным кодом. GitHub уточнила, что Copilot обычно не воспроизводит точные фрагменты кода, а создаёт производные работы из ранее полученных входных данных. Компания утверждает, что это происходит лишь в 0,1 % случаев.

Затем GitHub признал, что при обучении Copilot разработчики использовали весь доступный в репозиториях сервиса публичный код без учёта типа лицензии. В ноябре 2022 года программист-юрист Мэтью Баттерик подал иск к Microsoft, GitHub и OpenAI за то, что Copilot нарушает условия лицензий Open Source проектов и ущемляет права программистов. Разработчик потребовал $9 млрд компенсации.

Также выяснилось, что производимый Copilot код примерно в 40% содержит ошибки и уязвимости.

У дочерней компании Google, DeepMind, есть система AlphaCode, которая использует ИИ для генерации кода. В феврале этого года компания заявила, что её ИИ «пишет компьютерные программы на конкурентоспособном уровне». Систему проверили на соответствие задачам кодирования, используемым в соревнованиях среди людей, и она оказалась среди 54% лучших.

В ноябре Google представила робота, который воспринимает естественную речь и создаёт машинный код самостоятельно. Проект Code as Policies (CaP) основан на алгоритме искусственного интеллекта Google Pathways Language Model (PaLM), который преобразует команды на естественном языке в исполняемый код. Однако робот даёт сбой, если не видит смысла в команде, а иногда пытается работать с неизвестными параметрами.