В рамках конференции DevDay компания OpenAI объявила о новом функционале для разработчиков и сразу сделала его доступным. Релиз 1 октября включает в себя:
Realtime API: API для встраивания голосовых функций в приложения, включая ввод и вывод звука. Подключение через вебсокет. Модель пока используется 4о (а точнее говоря, специальная новая gpt-4o-realtime-preview), но обещают вскоре предоставить также и 4o-mini. Цены можно посмотреть в этой статье (а они не сказать что бы очень низкие, так что mini наверняка будет востребована у тех кому это актуально). Про доступность пока ничего не могу сказать: в платформе эту фичу обещают сделать позднее, а вебсокет я не проверял.
Дистилляция моделей (документация): инструмент файн-тюнинга более дешевых моделей (GPT-4o mini) с помощью той информации, которую генерируют более продвинутые модели (o1-preview и GPT-4o).
Image fine-tuning: Данные для файн-тюнинга GPT-4o теперь могут включать в себя не только текст, но и картинки, которые можно передавать либо в виде ссылок (URL), либо в виде base64. Кроме документации также есть небольшая статья.
Evaluations: Инструмент автоматизации тестирования качества промптов и моделей, реализованный в платформе. Используется в том числе в составе вышеописанной дистилляции.
Кэширование промптов: Механизм сокращения затрат (до двух раз) на вызовы API в некоторых сценариях. Документация.
AI-помощники для генерации системных промптов и json-схем в Functions calling. Для системных промптов в чате плейграунда выглядит это примерно так: