OpenAI открыла доступ к API нейросети DALL-E 3. Модель позволяет генерировать картинки в разрешении от 1024×1024 до 1792×1024, а цена за её использование стартует с $0,04 за изображение. OpenAI подчёркивает, что, как и предыдущие версии DALL-E, эта содержит встроенную модерацию от генерации нежелательного контента.
Помимо этого, у нейросети есть ряд ограничений. Например, в отличие от API DALL-E 2, DALL-E 3 нельзя использовать для редактирования картинок путём замены некоторых областей изображения или создания вариаций существующего изображения. Промт, отправленный DALL-E 3, также может автоматически переписываться «по соображениям безопасности» и «чтобы добавить больше деталей», отмечает TechCrunch, что может привести к менее точным результатам в зависимости от запроса.
Кроме этого, OpenAI также открыла доступ к API преобразования текста в речь, Audio API с шестью голосами на выбор (Alloy, Echo, Fable, Onyx, Nova и Shimer). Его цена начинается от $0,015 за 1000 символов.
«Генерация голоса получается намного естественней, чем всё, что я когда-либо слышал, и она сможет сделать приложения проще и доступнее для взаимодействия», — цитирует издание главу OpenAI Сэма Альтмана.
В документации к Audio API компания отмечает, что на то, как звучат сгенерированные голоса, могут влиять определённые факторы, например, использование заглавных букв или грамматика в тексте. OpenAI также требует, чтобы разработчики, использующие модель, информировали пользователей о том, что звук генерируется искусственным интеллектом.
В ноябре прошлого года OpenAI открыла доступ к API нейросети DALL-E для разработчиков приложений в общедоступной бета-версии. Одновременно компания представила интерфейс для дизайнеров Cala, объединяющий весь процесс проектирования от идеи продукта до реализации стратегии электронной коммерции и выполнения заказов на единой цифровой платформе.