Как стать автором
Обновить
382.01
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Новые модели AI GPT-4.1 от OpenAI фокусируются на кодировании

Время на прочтение3 мин
Количество просмотров2.2K

OpenAI в понедельник запустила новое семейство моделей под названием GPT-4.1. Да, «4.1» — как будто номенклатура компании и так недостаточно запутана. Есть GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, все из которых OpenAI называет «превосходными» в кодировании и следовании инструкциям. Доступные через API OpenAI, но не через ChatGPT, мультимодальные модели имеют контекстное окно в 1 миллион токенов, что означает, что они могут воспринимать примерно 750 000 слов за один раз (длиннее, чем «Война и мир»).

GPT-4.1 появляется, когда конкуренты OpenAI, такие как Google и Anthropic, наращивают усилия по созданию сложных моделей программирования. Недавно выпущенный Google Gemini 2.5 Pro , который также имеет контекстное окно в 1 миллион токенов, занимает высокие позиции в популярных бенчмарках кодирования. То же самое касается Claude 3.7 Sonnet от Anthropic и обновленного V3 китайского стартапа ИИ DeepSeek .

Цель многих технологических гигантов, включая OpenAI, — обучить модели кодирования ИИ, способные выполнять сложные задачи по разработке программного обеспечения. Главной амбицией OpenAI является создание «агентного инженера-программиста», как выразился финансовый директор Сара Фрайар на технологическом саммите в Лондоне в прошлом месяце. Компания утверждает, что ее будущие модели смогут программировать целые приложения от начала до конца, занимаясь такими аспектами, как обеспечение качества, тестирование на наличие ошибок и написание документации. GPT-4.1 — это шаг в этом направлении.

«Мы оптимизировали GPT-4.1 для реального использования на основе прямой обратной связи, чтобы улучшить области, которые больше всего волнуют разработчиков: кодирование интерфейса, внесение меньшего количества посторонних правок, надежное следование форматам, соблюдение структуры и порядка ответов, последовательное использование инструментов и многое другое», — сообщил представитель OpenAI TechCrunch.

«Эти улучшения позволяют разработчикам создавать агентов, которые значительно лучше справляются с реальными задачами по разработке программного обеспечения».

OpenAI утверждает, что полная модель GPT-4.1 превосходит свои модели GPT-4o и GPT-4o mini  на тестах кодирования, включая SWE-bench. Говорят, что GPT-4.1 mini и nano более эффективны и быстры за счет некоторой потери точности, а OpenAI утверждает, что GPT-4.1 nano — самая быстрая и дешевая модель из когда-либо созданных.

GPT-4.1 стоит $2 за миллион входных токенов и $8 за миллион выходных токенов. GPT-4.1 mini стоит $0,40/M входных токенов и $1,60/M выходных токенов, а GPT-4.1 nano стоит $0,10/M входных токенов и $0,40/M выходных токенов.

Согласно внутреннему тестированию OpenAI, GPT-4.1, который может генерировать больше токенов за раз, чем GPT-4o (32 768 против 16 384), набрал от 52% до 54,6% на SWE-bench Verified, проверенном человеком подмножестве SWE-bench. (OpenAI отметила в своем сообщении в блоге, что некоторые решения проблем SWE-bench Verified не могут работать на ее инфраструктуре, отсюда и разброс оценок.) Эти цифры немного ниже оценок, представленных Google и Anthropic для Gemini 2.5 Pro (63,8%) и Claude 3.7 Sonnet (62,3%) соответственно на том же бенчмарке.

В отдельной оценке OpenAI проверила GPT-4.1 с помощью Video-MME, который предназначен для измерения способности модели «понимать» содержание в видео. GPT-4.1 достигла рекордной точности в 72% в категории «длинных видео без субтитров», утверждает OpenAI.

Хотя GPT-4.1 показывает достаточно хорошие результаты в бенчмарках и имеет более поздний «отсечной уровень знаний», что дает ему лучшую систему отсчета для текущих событий (до июня 2024 года), важно помнить, что даже некоторые из лучших моделей сегодня испытывают трудности с задачами, которые не сбили бы с толку экспертов. Например, многие исследования показали,  что модели генерации кода часто не исправляют и даже вносят уязвимости и ошибки безопасности.

OpenAI также признает, что GPT-4.1 становится менее надежным (т. е. более склонным к ошибкам) ​​по мере увеличения количества входных токенов, с которыми ему приходится иметь дело. В одном из собственных тестов компании, OpenAI-MRCR, точность модели снизилась с примерно 84% при 8000 токенах до 50% при 1 миллионе токенов. GPT-4.1 также, как правило, был более «буквальным», чем GPT-4o, говорит компания, иногда требуя более конкретных, явных подсказок.

Источник

Теги:
Хабы:
+2
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
veseluha