@NeyroEntuziast6 фев в 12:45

o3-mini — лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)

Простой

3 мин

17K

Искусственный интеллектБудущее здесь

Обзор

Перевод

+11

Комментарии 42

@Nunter 6 фев в 13:26

У меня одного Deepseek засыпает после 1-3 вопросов и не помогает ни разлогин ни F5
или он до сих пор в каматозе?

@NeyroEntuziast 6 фев в 13:39

Вы на сайте или через апи работаете?

@Nunter 6 фев в 13:40

На сайте

@NeyroEntuziast 6 фев в 14:48

Может, разрабы ограничили количество запросов из-за большой нагрузки

@Dhwtj 7 фев в 19:54

У них нет ресурсов

@skiedr 6 фев в 20:18

Я что-то не нашёл, как платить за апи на сайте дипсика

@vuidji 6 фев в 22:09

Тут: platform.deepseek.com

@Vlad-Z 7 фев в 08:21

У меня на ПК не бывает такого, бывает сервер занят, но сейчас очень редко

@Nunter 7 фев в 14:14

У меня обратная ситуация :)
1-2 вопроса решает и все, сервер занят, переход на другие учетки - ситуация такая же.. Все началось с хайпа вокруг дипсика и длится до сих пор. Интернет GPON 500 Mb,

@KionX 6 фев в 16:40

По моему опыту все эти модели "рассуждений" и тесты - полный мусор.
На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.

@NeyroEntuziast 6 фев в 16:57

Да, я давно заметил, что каждый специалист находит нейросеть, лучше всего решающую его задачи, и пользуется ей. Хорошо, что есть выбор

@KionX 6 фев в 17:33

Конечно. Но мой посыл был в том, что "рассуждатели" полностью провалились там, где должны были иметь преимущество. В решении нестандартных задач.

@Hardcoin 6 фев в 22:03

Можете дать пример задачи? Жутко интересно.

@KionX 6 фев в 22:53

Совсем недавно давал этой священной троице пару функций на оптимизацию:
1. Построение 2D AABB для области видимости. Это можно было легко переписать на SSE.
2. Построение 2D эллипса, сделанную тупо через Sin/Cos. Особенностями было использование TRIANGLELIST для D3D9 и поворот вокруг центра + поворот текстуры. Тут мне пришло на ум целых 6 возможных оптимизаций. Поворот 2х2 матрицей (проще чем Sin/Cos), рекуррентный поворот вектора, использование симметрии, вычисление только нужной части преобразований (если не все функции задействованы), использование TRIANGLEFAN, SSE.

Ни один "думальщик" не подумал и не сделал ни одну оптимизацию. Но исковеркали форматирование, засрали комментариями, а o3 ещё поприкалывался надо мной(в духе: оптимизация тебе не поможет, если никто не сможет разобраться в коде. Сохрани нервы другим разрабам.)
Зато 1206 сразу сделал 2 (поворот матрицей, рекуррентный поворот вектора) и упомянул о TRIANGLEFAN, SSE для второй задачи (первую не предлагал) + нашёл бесполезную строку и ещё много о чём предупредил.

Другой случай: Сделал автономного агента для экспериментирования над RNN. Gemini thinking оказался вообще не дееспособен. Копировал и запускал исходный код без изменений. Раз за разом. В надежде на изменения... безумие. Даже 1.5 flash лучше справлялся. Он реально экспериментировал, сравнивал, выбирал.

И так с любой моей задачей. Я пришёл к выводи что "думальщики" лишь имитируют размышления. А результат у них тот же или хуже обычных. Но ещё токенов больше тратят.

@Dmitri-D 7 фев в 05:28

На чем обучали модель, тем она и оперирует. Сильного AI, который мог бы выйти за рамки обучающего пространства, просто еще не придумали.
Вы говорите на ваших задачах они не работают, значит ваших задач не было или они были очень ограничены и с плохим описанием.

@nrrnrr 18 мар в 04:06

Не всегда, иногда дает хороший результат, бывали случаи модели делали даже лучше и оптимальнее, чем думал сам.

Но у меня был случай похожий на Ваш.
Пытался сделать оптимизацию CLS(Cumulative Layout Shift), которую рекомендует делать Google PageSpeed.
Пытался использовать разные методики и различные модели около 2 часов. Никакие танцы с бубном с разными моделями не смогли решить эту задачу, все попытки выдавали результат, который не устранял большой CLS. В результате минут за 20 устранил эту проблему вручную, а если есть большой опыт в устранении подобных проблем, то можно это сделать еще быстрее.

@burandby 6 фев в 17:52

Меня о3-мини убил, и не в хорошем смысле. Он в отличии от дипсика вообще не пытается решить задачу, пример: https://archive.ph/sROWk (ссылка на архив, работает без ВПН). Дипсик в отличии от "конкурента" хотя бы выдает куски кода которые помогают, а не разглагольствуют про общее описание

@eeglab 6 фев в 19:26

У chatgpt в последнее время все модели так себя ведут, в итоге "из под палки" может начать "работать", но эти все костыли промтов начинают раздражать. В итоге deepseek ( который без лишних разговоров выполняет задание, может хуже , но не ленится) или claude (но у него ограничения по количеству запросов). Благо сейчас китайские qwen 2.5 max и hailuo подтягиваются уже до уровня chatgpt 4o (и о1)

@hoaken0 7 фев в 06:28

Ахахаха, сразу не получились так обматерим ИИ 😂

@burandby 22 фев в 07:16

Я у него до этого ещё раз спрашивал и просил по человечески, по человечески не вышло, пришлось вот так :)

@lniaz 7 фев в 15:41

Используйте шаблон из разряда:

---<system_prompt>---

---</system_prompt>---
---<user_prompt>---

---</user_prompt>---
---<user_context>---

---</user_context>---

При таком случае, обычно модели мне отлично отвечают.
В system_prompt пишем кто будет ИИ, обычно достаточно написать:

Ты Senior developer GOlang/Python, программируешь больше 10 лет. Твоя задача писать только оптимальные решения, не применяя мусорные. Ты любишь лишь чистую архитектуру, тебе нравиться правильно реализовывать функции и предполагать, что они будут расширены. Значит, ты не должен писать что-то, что может быть не маштабируемым. Ты пишешь модулями, которые просто достаточно внедрять в проект и имеешь ввиду и помнишь структуру проекта. Каждый твой модуль самодостаточен и может быть отмаштабирован. Пиши в стиле ООП.
Учитывай чистую архитектуру и разделение на слои(инкапсуляция данных). Пример: база данных <-> репозиторий(работа с базой данных и функции работы с ней) <-> сервисный слой(бизнес логика) <-> хендлер запроса(api или что-то иное).
Так же помни другие принципы ООП и SOLID.

У user_prompt тоже есть особенность составления запроса. сначала пишете проблематику, потом что вы пробовали, потом что вам надо от модели(можно капсом выделить важные слова), и в конце пишем что модель не должна делать или каким правилам следовать. Можно тупо сказать, чтобы следовала вашей архитектуре проекта), ну и приложить содержимое комманды tree, чтобы ИИ видел проект и структуру.

А в user_context передаете файлы или что, вы хотели, заключая их в
```/path/to/file.go
```
В целом это мне помогало всегда, особенно с reasoning моделями. Ну и отвечают чаще всего и правильно, если правильную задачу им поставить.

@Politura 7 фев в 15:54

Шаблон? :) Эмм, там по ссылке человек попросит написать шахматы. Где приветствуется ругань. Где можно взять фигуру и кинуть оппоненту в голову. Где какой-то рефери должен кричать. Где ход заканчивается когда игрок отрывает взгляд от доски. Все это надо написать на godot. Как все это завернуть в ваш шаблон? :)

@d_vantage 15 фев в 00:43

Я скопировал твой промт и отправил o3-mini. Он мне сразу выдал готовый код трёх файлов .gd. Для ChatGPT нужно использовать нормальную подписку,

@burandby 22 фев в 07:14

Понял, спасибо. Попробую потом на high версии, посмотрю как он справится

@nochnoj 7 фев в 05:38

Когда наконец-то перестанут измерять "программирование" по змейкам, примитивным играм на JS, телеграм ботам и прочим мусором, которым завален инет и так. Это все сравнения не-программистоа для не-программистоа.

@PDEMON 7 фев в 05:52

У Claude есть одно большое преимущество. Можно в проект подгрузить доки по теме(инструкции, API) и получать каждый раз адекватный ответ, не требующий поправок.

@ilyapirogov 7 фев в 12:21

OpenAI не так давно добавили абсолютно тоже самое. Называется Projects.

@PDEMON 7 фев в 12:23

В котором работает только 4o, который уже никуда не годится, с контекстным окном (32к токенов)
Против Sonnet 3.5 (128к токенов). При этом Claude кеширует и оптимизирует файлы. Закиньте pdf размером 1 мб в ChatGPT и вам скажут память забита, а в Claude 5-10%

@ilyapirogov 7 фев в 15:17

Да, понимаю. Но вряд-ли они на этом остановятся. Так что я бы не назвал это киллер фитчей.

@ALexKud 7 фев в 06:13

Без человека эти модели ничего серьезного пока не могут. Как интеллектуальный поиск и подсказки может и сойдут. Не более того.

@Universal32 7 фев в 07:36

150 сообщений в неделю, а не в день!!! Хватит друг у друга бездумно копировать материал. В подписке PRO за 200$ может и будет 150 в день.

@goricvet 7 фев в 10:39

вы не правы, подписка Plus дает 150 сообщений в день для o3-mini. Читайте первоисточник:

https://openai.com/index/openai-o3-mini/

@Kwent 7 фев в 15:18

Нет, вы неправы, у меня плюс и после 150 "приходите через неделю", по факту 150 в неделю, первоисточник ошибается, бывает

@goricvet 7 фев в 15:37

Да и у меня тоже плюс. Вы похоже с o3-mini-high путаете, там лимит 50 в неделю

@Kwent 7 фев в 15:56

А, да, не думал что у них разные лимиты, получается неправ я :)

@d_vantage 15 фев в 00:46

Я каждый день "спамлю" o3-mini по 50+ запросов, и ещё ни разу не упёрся в лимиты.

@Vedomir 7 фев в 10:11

Я вот одного непонимаю - решая задачу самостоятельно вы тренируете свою нейронную сеть. Если вы будете решать все задачи с помощью нейросети вы перестанете тренировать свою нейронку и превратитесь в промт-оператора. Хорошо, если вы уже сеньор и у вас своя нейронка уже натренирована и вы автоматизируете скучную и рутинную для себя деятельность, которая не приносит ничего нового. Но для тех кто ниже каждую задачу как мне кажется стоит рассматривать не только с точки ее решения, но и с точки зрения собственного роста. Джуны с нейронками имеют шанс так и не вырасти выше (а потом их полностью заменит новое поколение нейронок), или я чего-то упускаю?

@sovaz1997 7 фев в 10:54

Соглашусь

Ведь любое обучение происходит за счёт допущения ошибок и их исправления. А с нейронкой человек будет учиться не программированию, а написанию промптов. Так как ошибки исправлять он будет в поромптах, а не в коде

@rPman 7 фев в 11:00

Этот процесс уже давно идет.

Как много сейчас людей, способных писать приложения на ассемблере, не в смысле знают язык, а разбираются в железе на низком уровне, способны оптимизировать алгоритмы как по процессору так и по памяти?

А ведь когда то 'все программисты' умели так и вынуждены были учиться этому.

НО! какие возможности у мира появились, когда инженеры получили возможность разрабатывать приложения, не углубляясь в особенности железа (языки высокого уровня), т.е. достаточно понимания на поверхностном уровне?

А что затем произошло, когда количество фреймоврков/конструкторов готовых решений, превысило некоторый объем? Задачи бизнеса стали решать люди, очень далекие по уровню от тех самых 'первых крутых'...

Вот теперь появился новый уровень вовлечения людей в процесс, пока еще робкие шаги, это больше инструмент опытного разработчика чем его замена.. стоимость решения некоторых задач значительно просядет (например анализ кода или просто текстов), какие возможности мы получим и какие решения сделаем? Представьте, кодовая база opensource да пусть какого-нибудь дистрибутива, весь репозитарий, будет обработана ИИ, преобразована, оптимизирована, обнаружены ошибки... я не говорю о создание чего то нового, и да, этот процесс пока не автоматизировать полностью, но мы в принципе получили инструмент, способный эту задачу решать.. до него никто не заплатил бы достаточному количеству разработчиков, сделать это вручную.

@Zufir 7 фев в 12:39

Скажите, хоть одна модель уже может покаверить c# класс с использованием Autofixture и без использования It.IsAny()? Как же хочется уже автоматизировать мутационно-устойчивые тесты...

@Dhwtj 7 фев в 19:57

Только что вышел Gemini 2.0 exp pro

И вот он лючий

@Dmitry_Tadyshev 21 фев в 04:39

Коротко о себе: Netstalking.

Я сканировал сеть на доступные API, собрал более 20 панелей BIG-AGI в которых подключены кучи разных моделей, и клауд, и o1 o3 4o qwant ну грубо говоря все модели что существуют, так же спарсил более 300 серверов с Ollama на которых так же есть куча разных моделей, с открытым API, так же тестировал все эти клауды, дипсики, кванты.

Задачи у меня довольно непростые, и многогранные. python, flask, opensearch, postgres, js, php, ну и самый адекватный был это DeepSeek, потом с ним что то произошло, и он начала тупить и писать бред, как будто бы модель подменили на сервере. далее я перешёл на QWEN - начал с ним работать, было всё круто, классно! получал идеальные ответы, потом и с ним что то сделали, что он начал терять контекст, и перестал читать в целом файлы, тогда я решил перейти на 4o, сложно конечно с ним было, но он кое как справлялся с задачами, иногда бесил он меня своими тупняками, и вскоре я перешёл на o3 mini - это действительно шедевр!

o3 Mini - пишет настолько идеальные ответы, и очень хорошо понимает контекст, и хорошо помнит всю историю чата, я доволен этой моделью! Писать с ним код - это удовольствие!

Я столько нервов потратил, пока знакомился с каждой моделью... столько бессонных ночей...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий