Articles / Bookmarks / Profile of T1-Reks / Habr

averkij Feb 19 at 08:09

Как устроен Codex

Easy

20 min

25K

Open Data Science corporate blogProgramming * Machine learning * Artificial Intelligence

Interview

Translation

Подробный разбор того, как команда OpenAI Codex создаёт своего кодового агента, как его используют другие команды, как он влияет на инженерные практики создателей ChatGPT и что это может значить для будущего разработки ПО.

Чтобы в этом разобраться, я поговорил с тремя сотрудниками OpenAI:

Тибо Соттио (Thibault Sottiaux) — руководитель Codex.

Шао-Цянь Ма (Shao-Qian (SQ) Mah) — исследователь в команде Codex, обучающий модели, на которых тот работает.

Эмма Тан (Emma Tang) — руководитель data-инфраструктуры; она не входит в команду Codex, но её команда активно им пользуется.

В этом разборе:

Как всё начиналось. От внутреннего эксперимента в конце 2024 года до продукта, которым пользуется больше миллиона разработчиков.

Технологические и архитектурные решения. Почему Rust и open source? Подробно о том, как работает агентный цикл.

Как Codex создаёт сам себя. По оценкам команды, более 90% кода приложения написано самим агентом. А ещё: интересные инженерные практики — как проводят код-ревью, самотестирование Codex и онбординг новых инженеров.

Исследования. Обучение следующей модели с помощью текущей и параллели с разработкой ПО. Запуск eval'ов, A/B-тестирование и внутренний догфудинг (использование сотрудниками собственных наработок в повседневной работе — прим перев.).

Использование Codex в OpenAI. Количество PR стало таким, что традиционный процесс ревью начинает трещать по швам. Мысли команды про то, что с этим делать.

Как меняется разработка ПО в OpenAI. «Правило 30/70», возвращение некоторых инженеров к tab completion и значение «инженерного вкуса».

+22

Как устроен Codex

Information

Specialization