Комментарии 18
Мне, для моих текстовых задач, и старых моделей хватает с головой. Но, невозможно не радоваться от того, как они в безумной конкурентной гонке каждый месяц выдают всё лучшие продукты, пытаясь утереть друг другу нос. 😉
В современной конкурентной гонке не выдают всё лучшие продукты пытаясь утереть друг другу нос, в ней выдают всё более длинную и плотную лапшу на уши потребителей и инвесторов пытаясь убедить, что продукт всё лучше и лучше, и особенно лучше конкурентов.
превосходит GPT-4o по многим показателям, при этом работая почти вдвое быстрее и стоит на 83% дешевле
17%-ное улучшение точности при анализе нескольких юридических документов с помощью GPT-4.1 по сравнению с GPT-4o
На бенчмарке SWE-bench Verified ...новая модель выполняет 54,6% задач
на 60% лучше справляется с их внутренним бенчмарком по программированию
Опять набор удобных бенчмарков для меряния процентами. А как раньше красивые графички да диаграммки рисовали - вот, мол, достигли интеллекта выпускника школы, вот студента, вот аспиранта. Как там сейчас дела, уже наверно и профессоров-академиков заменили :)
Непонятно, на чём основан этот скептицизм. Ведь в том, что качество моделей растёт, можно легко самостоятельно убедиться, просто сравнив решения различных задач, которые выдают разные модели.
Иногда заметно падает. Понимаю что они там экспериментируют и претензий тут нет, но улучшения обычно не такие яркие как периодические факапы(да, их потом чинят) : то в формулах латеха косячить начнёт, то на английский спонтанно переключается, то перестает учитывать подписанные настройки и до сих пор не научили раскладку исправлять: я пробовал попросить gpt это делать, но он сразу галлюцинирует
По большинству продуктов я бы согласился с вашим скептицизмом. Но то, что касается сейчас ИИ - тут очевидно, что борьба за рынок заставляет их делать то, что в спокойное время они бы ни за что не делали.
Революционный скачок в программировании
Настолько революционный, что почти догнал sonnet 3.5 в SWE-bench и Aider.
Но впрочем зачем же думать над качеством материала на хабре - главной площадке по раскрутке своих псевдоайтишных телеграм-каналов в 2025 году.
Сразу на ум приходит классика: "Шо, опять?! (с), и конечно "Куй железо, не отходя от кассы" (с)
Вот когда будет "ЧагГПТ N, напиши мне ЧатГПТ N+1", тогда и посмотрим.
Интересно, как они такую запутанную нумерацию своих версий придумывают.
Им бы что-то поправить с неймингом.
4.1 свежее 4.5, при этом в тестах они лидируют попеременно. А в зоопарке ещё есть 4, 4о, о1, о3-мини.. и ни одного лидера, который был бы умнее всех остальных, поди разберись
Не хватает сравнения с моделями других разработчиков - Claude, DeepSeek и так далее.
ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста