Comments 42
У меня одного Deepseek засыпает после 1-3 вопросов и не помогает ни разлогин ни F5
или он до сих пор в каматозе?
Вы на сайте или через апи работаете?
У меня на ПК не бывает такого, бывает сервер занят, но сейчас очень редко
По моему опыту все эти модели "рассуждений" и тесты - полный мусор.
На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.
Да, я давно заметил, что каждый специалист находит нейросеть, лучше всего решающую его задачи, и пользуется ей. Хорошо, что есть выбор
Конечно. Но мой посыл был в том, что "рассуждатели" полностью провалились там, где должны были иметь преимущество. В решении нестандартных задач.
Можете дать пример задачи? Жутко интересно.
Совсем недавно давал этой священной троице пару функций на оптимизацию:
1. Построение 2D AABB для области видимости. Это можно было легко переписать на SSE.
2. Построение 2D эллипса, сделанную тупо через Sin/Cos. Особенностями было использование TRIANGLELIST для D3D9 и поворот вокруг центра + поворот текстуры. Тут мне пришло на ум целых 6 возможных оптимизаций. Поворот 2х2 матрицей (проще чем Sin/Cos), рекуррентный поворот вектора, использование симметрии, вычисление только нужной части преобразований (если не все функции задействованы), использование TRIANGLEFAN, SSE.
Ни один "думальщик" не подумал и не сделал ни одну оптимизацию. Но исковеркали форматирование, засрали комментариями, а o3 ещё поприкалывался надо мной(в духе: оптимизация тебе не поможет, если никто не сможет разобраться в коде. Сохрани нервы другим разрабам.)
Зато 1206 сразу сделал 2 (поворот матрицей, рекуррентный поворот вектора) и упомянул о TRIANGLEFAN, SSE для второй задачи (первую не предлагал) + нашёл бесполезную строку и ещё много о чём предупредил.
Другой случай: Сделал автономного агента для экспериментирования над RNN. Gemini thinking оказался вообще не дееспособен. Копировал и запускал исходный код без изменений. Раз за разом. В надежде на изменения... безумие. Даже 1.5 flash лучше справлялся. Он реально экспериментировал, сравнивал, выбирал.
И так с любой моей задачей. Я пришёл к выводи что "думальщики" лишь имитируют размышления. А результат у них тот же или хуже обычных. Но ещё токенов больше тратят.
Не всегда, иногда дает хороший результат, бывали случаи модели делали даже лучше и оптимальнее, чем думал сам.
Но у меня был случай похожий на Ваш.
Пытался сделать оптимизацию CLS(Cumulative Layout Shift), которую рекомендует делать Google PageSpeed.
Пытался использовать разные методики и различные модели около 2 часов. Никакие танцы с бубном с разными моделями не смогли решить эту задачу, все попытки выдавали результат, который не устранял большой CLS. В результате минут за 20 устранил эту проблему вручную, а если есть большой опыт в устранении подобных проблем, то можно это сделать еще быстрее.
Меня о3-мини убил, и не в хорошем смысле. Он в отличии от дипсика вообще не пытается решить задачу, пример: https://archive.ph/sROWk (ссылка на архив, работает без ВПН). Дипсик в отличии от "конкурента" хотя бы выдает куски кода которые помогают, а не разглагольствуют про общее описание
У chatgpt в последнее время все модели так себя ведут, в итоге "из под палки" может начать "работать", но эти все костыли промтов начинают раздражать. В итоге deepseek ( который без лишних разговоров выполняет задание, может хуже , но не ленится) или claude (но у него ограничения по количеству запросов). Благо сейчас китайские qwen 2.5 max и hailuo подтягиваются уже до уровня chatgpt 4o (и о1)
Ахахаха, сразу не получились так обматерим ИИ 😂
Используйте шаблон из разряда:
---<system_prompt>---
---</system_prompt>---
---<user_prompt>---
---</user_prompt>---
---<user_context>---
---</user_context>---
При таком случае, обычно модели мне отлично отвечают.
В system_prompt пишем кто будет ИИ, обычно достаточно написать:
Ты Senior developer GOlang/Python, программируешь больше 10 лет. Твоя задача писать только оптимальные решения, не применяя мусорные. Ты любишь лишь чистую архитектуру, тебе нравиться правильно реализовывать функции и предполагать, что они будут расширены. Значит, ты не должен писать что-то, что может быть не маштабируемым. Ты пишешь модулями, которые просто достаточно внедрять в проект и имеешь ввиду и помнишь структуру проекта. Каждый твой модуль самодостаточен и может быть отмаштабирован. Пиши в стиле ООП.
Учитывай чистую архитектуру и разделение на слои(инкапсуляция данных). Пример: база данных <-> репозиторий(работа с базой данных и функции работы с ней) <-> сервисный слой(бизнес логика) <-> хендлер запроса(api или что-то иное).
Так же помни другие принципы ООП и SOLID.
У user_prompt тоже есть особенность составления запроса. сначала пишете проблематику, потом что вы пробовали, потом что вам надо от модели(можно капсом выделить важные слова), и в конце пишем что модель не должна делать или каким правилам следовать. Можно тупо сказать, чтобы следовала вашей архитектуре проекта), ну и приложить содержимое комманды tree, чтобы ИИ видел проект и структуру.
А в user_context передаете файлы или что, вы хотели, заключая их в
```/path/to/file.go
```
В целом это мне помогало всегда, особенно с reasoning моделями. Ну и отвечают чаще всего и правильно, если правильную задачу им поставить.
Шаблон? :) Эмм, там по ссылке человек попросит написать шахматы. Где приветствуется ругань. Где можно взять фигуру и кинуть оппоненту в голову. Где какой-то рефери должен кричать. Где ход заканчивается когда игрок отрывает взгляд от доски. Все это надо написать на godot. Как все это завернуть в ваш шаблон? :)
Я скопировал твой промт и отправил o3-mini. Он мне сразу выдал готовый код трёх файлов .gd. Для ChatGPT нужно использовать нормальную подписку,
Когда наконец-то перестанут измерять "программирование" по змейкам, примитивным играм на JS, телеграм ботам и прочим мусором, которым завален инет и так. Это все сравнения не-программистоа для не-программистоа.
У Claude есть одно большое преимущество. Можно в проект подгрузить доки по теме(инструкции, API) и получать каждый раз адекватный ответ, не требующий поправок.
OpenAI не так давно добавили абсолютно тоже самое. Называется Projects.
В котором работает только 4o, который уже никуда не годится, с контекстным окном (32к токенов)
Против Sonnet 3.5 (128к токенов). При этом Claude кеширует и оптимизирует файлы. Закиньте pdf размером 1 мб в ChatGPT и вам скажут память забита, а в Claude 5-10%
Без человека эти модели ничего серьезного пока не могут. Как интеллектуальный поиск и подсказки может и сойдут. Не более того.
150 сообщений в неделю, а не в день!!! Хватит друг у друга бездумно копировать материал. В подписке PRO за 200$ может и будет 150 в день.
Я вот одного непонимаю - решая задачу самостоятельно вы тренируете свою нейронную сеть. Если вы будете решать все задачи с помощью нейросети вы перестанете тренировать свою нейронку и превратитесь в промт-оператора. Хорошо, если вы уже сеньор и у вас своя нейронка уже натренирована и вы автоматизируете скучную и рутинную для себя деятельность, которая не приносит ничего нового. Но для тех кто ниже каждую задачу как мне кажется стоит рассматривать не только с точки ее решения, но и с точки зрения собственного роста. Джуны с нейронками имеют шанс так и не вырасти выше (а потом их полностью заменит новое поколение нейронок), или я чего-то упускаю?
Соглашусь
Ведь любое обучение происходит за счёт допущения ошибок и их исправления. А с нейронкой человек будет учиться не программированию, а написанию промптов. Так как ошибки исправлять он будет в поромптах, а не в коде
Этот процесс уже давно идет.
Как много сейчас людей, способных писать приложения на ассемблере, не в смысле знают язык, а разбираются в железе на низком уровне, способны оптимизировать алгоритмы как по процессору так и по памяти?
А ведь когда то 'все программисты' умели так и вынуждены были учиться этому.
НО! какие возможности у мира появились, когда инженеры получили возможность разрабатывать приложения, не углубляясь в особенности железа (языки высокого уровня), т.е. достаточно понимания на поверхностном уровне?
А что затем произошло, когда количество фреймоврков/конструкторов готовых решений, превысило некоторый объем? Задачи бизнеса стали решать люди, очень далекие по уровню от тех самых 'первых крутых'...
Вот теперь появился новый уровень вовлечения людей в процесс, пока еще робкие шаги, это больше инструмент опытного разработчика чем его замена.. стоимость решения некоторых задач значительно просядет (например анализ кода или просто текстов), какие возможности мы получим и какие решения сделаем? Представьте, кодовая база opensource да пусть какого-нибудь дистрибутива, весь репозитарий, будет обработана ИИ, преобразована, оптимизирована, обнаружены ошибки... я не говорю о создание чего то нового, и да, этот процесс пока не автоматизировать полностью, но мы в принципе получили инструмент, способный эту задачу решать.. до него никто не заплатил бы достаточному количеству разработчиков, сделать это вручную.
Скажите, хоть одна модель уже может покаверить c# класс с использованием Autofixture и без использования It.IsAny()? Как же хочется уже автоматизировать мутационно-устойчивые тесты...
Только что вышел Gemini 2.0 exp pro
И вот он лючий
Коротко о себе: Netstalking.
Я сканировал сеть на доступные API, собрал более 20 панелей BIG-AGI в которых подключены кучи разных моделей, и клауд, и o1 o3 4o qwant ну грубо говоря все модели что существуют, так же спарсил более 300 серверов с Ollama на которых так же есть куча разных моделей, с открытым API, так же тестировал все эти клауды, дипсики, кванты.
Задачи у меня довольно непростые, и многогранные. python, flask, opensearch, postgres, js, php, ну и самый адекватный был это DeepSeek, потом с ним что то произошло, и он начала тупить и писать бред, как будто бы модель подменили на сервере. далее я перешёл на QWEN - начал с ним работать, было всё круто, классно! получал идеальные ответы, потом и с ним что то сделали, что он начал терять контекст, и перестал читать в целом файлы, тогда я решил перейти на 4o, сложно конечно с ним было, но он кое как справлялся с задачами, иногда бесил он меня своими тупняками, и вскоре я перешёл на o3 mini - это действительно шедевр!
o3 Mini - пишет настолько идеальные ответы, и очень хорошо понимает контекст, и хорошо помнит всю историю чата, я доволен этой моделью! Писать с ним код - это удовольствие!
Я столько нервов потратил, пока знакомился с каждой моделью... столько бессонных ночей...
o3-mini — лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)