GitHub обновил свою модель искусственного интеллекта Copilot, которая генерирует исходный код и рекомендации по функциям в реальном времени в Visual Studio. Copilot может генерировать секретные ключи и токены в обучающих данных, но теперь их нельзя использовать из-за новой системы фильтрации.
Появление этих секретов в предложениях кода Copilot вызвало резкую критику со стороны сообщества разработчиков. Обновление инструмента позволит GitHub обеспечить защиту от атак с вредоносными данными для обучения ИИ.
Обновлённая система использует LLM (большие языковые модели). Это позволит обнаруживать уязвимые шаблоны в незавершённых фрагментах кода. В итоге они будут оперативно блокироваться и заменяться альтернативами.
Пока модель обучается различать уязвимые шаблоны кода, поэтому её производительность будет постепенно улучшаться в будущем.
Обновлённый Copilot также будет выдавать больше качественных предложений кода за более короткое время. В рамках парадигмы под названием «Fill-In-the-Middle» будет использоваться библиотека известных суффиксов. Сам клиент будет выдавать на 4,5% меньше нежелательных вариантов кода. В расширение для VS Code добавили упрощённую модель на стороне клиента, которая улучшила общий уровень принятия предложений по коду, так как использует базовую информацию о контексте — например, было ли принято последнее предложение.
Между тем GitHub, Microsoft и OpenAI продолжают отрицать нарушения лицензий Open Source при создании своих инструментов. Ранее GitHub признал, что при обучении Copilot разработчики использовали весь доступный в репозиториях сервиса публичный код без учёта типа лицензии. Несмотря на возражения сообщества, в феврале была представлена версия Copilot для коммерческого использования, которая стоит $19 в месяц за каждого пользователя.