All streams
Search
Write a publication
Pull to refresh
2
0
Send message

GPT5 Pro каждый ответ начинает с:

Короткий вывод. Краткий ответ. Или вариации этой фразы.

Очень легко определить модель.

Попробовал GPT 5 Pro.

Говорит очень сжато. Вообще максимально сжимает разговор. По сравнению с O3 Pro - не уверен, что лучше. Пока новых идей не увидел. Максимально некрасивый технический русский язык стал еще более мудреным. Нейросеть не думает о красоте речи. Как технарь, просидевший 5 лет в подвале. Но мышление предложениями сохранилось, как и у O3 Pro.

В качестве примера недавно интересовался, когда вычислительные возможности чипов дорастут до массого распространения 10GBase-T и 25GBase-T. И может ли быть связано с российскими разработками в области InGaAs (Читал старые статьи о микроэлектронике). В принципе 5 pro выдал, что и связка Sonnet 4.5, Gemini Pro, GLM 4.6, Grok4 fast вместе взятая. Вот тут 2 вопроса и один ответ ИИ, правда только нумерованный список сбился при копировании ответа в telegraph: https://telegra.ph/25GBase-T-10-07

Ну так перспективы у них есть?

Или там на больших вводных будет что-то нерешаемое?

Будь тема рабочая - выложили бы десяток тысяч mcp серверов.

294 тысячи долларов - тут уже бюджеты российских ИИ близко. Про бюджет в 2-3М - не в курсе.

Считаю, вайб дебаггинг очень плохо поддаётся работе на удаленке.

Требуется постоянное общение. Чтобы выяснить почему так получилось. А сама работа, очень похожа на описанное в книге "Эффективная работа с унаследованным кодом". Только сейчас, прологировать все методы одного класса - просто. Даже мощная gpt не требуется. FIM справится. Для документации и покрытия тестами - что-то помощнее.

Ну вот. Отдел PR будет ему пирожки выносить.

В общем американские и китайские компании заблокируют.

Останется только РФ. Где акцент на state machine. И конкурировать с антропиком нет ни средств, ни желания, ни понимания: зачем это нужно. А для фанатов непонятно чего всегда есть тиньков, вихрь и любая из реинкарнаций квен 3/30/3.

Попросил оценить гипотезы - разнесла в хлам. Без поддакиваний.

Попросил написать несколько историй - написала чернуху. Никаких слащаво-мотивационных рассказов по умолчанию.

Не то, что полюбил эту ии. Но стал чаще с ней советоваться.

Похоже антропик всё. Смотрю, как его забуксовали по статистике на openrouter.

К концу месяца, думаю, соннет 4 до 3 места упадет.

Это называется дистиляция ИИ

Автор освоил одну технику: дать ИИ при промте возможность отказаться от решения.

Но в целом: явно книги не читал. А до одной техники дошел своим умом.

Читаем книги по промт инженирингу. Можно зарубежные, вычищенные от амазинга и банальных повествований. Делаем запрос с минимальной вложенностью, максимально плоский. Убираем псевдографику. Плюс "+" не должен означать переход псевдографики и значение в таблице. Всю классику: инструкции, few shot - включаем в обязательном порядке. Обозначение блоков BLOCK..END OF BLOCK, в силе языков программирования Fortran, Cobol, из времен без подсветки синтаксиса - по желанию.

По запросу не ясно различие "нет ip" и "не работает ip". Если убрать такой акцент. То пример, подготовленный с помощью o3-pro из набора мыслей:

SYSTEM:
Ты – неизменяемое справочное API. Отвечай только на основе таблицы. 
Формат ответа:  
① если просят «список» – JSON-массив,  
② если просят «есть ли такая пара» – "YES"/"NO".

DATA (CSV):
URL,IP
habr.com,146.120.117.5
habr.com,146.120.118.23
people.habr.com,146.120.117.8
sandbox.habr.com,146.120.119.31
example1.ru,203.0.113.10
example1.ru,203.0.113.11
newsportal.ru,192.0.2.20
newsportal.ru,192.0.2.21
techtalk.ru,198.51.100.30
techtalk.ru,198.51.100.31
learncoding.ru,198.51.100.45
END OF DATA

EXAMPLES:
Q: Какие IP у habr.com?
A: ["146.120.117.5","146.120.118.23"]

Q: Есть ли IP 192.0.2.20 у techtalk.ru?
A: NO
END OF EXAMPLES

USER:
<запрос>

SYSTEM в openrouter включаем в настройку чата System Promt. Запросы USER - в самом чате. Пробовал с kimi k2. Temperature=0.6, TopP=0.92, TopK=13, MinP=0.08.

Протестировал на написание технических заданий. В целом пишет проще. Подкидывает шутки.

Сразу возник вопрос серьезности. И задал несколько тяжелых вопросов по строительству.

ГОСТы, СНиПы знает.

Как понимаю, Grok 4 надо сравнивать надо с O3, a Heavy c O3-pro. Но на OpenRouter пока только обычная модель Grok 4. Ну в целом неплохо.

По программированию: тут подожду пару недель. Вдруг мощность модели срежут?

Вчера смотрел. O3 pro от O1 отличается кардинально. O3 модель-формалистка.

Главное правила описания, следования. А что по главной теме общения - согласится и подстроится под одну из первых идей.

Прошка про формализацию забывает. Про красоту текста топикстартер уже написал. Отсутствует. По O3 pro вчера спрашивал, как оптимизировать парогазовые электростанции.

Предложила сверх CO2 цикл. И никак не хотела снижать нижнюю температуру CO2 ниже 35 градусов. Отвечала отказом, либо, если вопрос без вариаций, уходила в итальянскую забастовку. С ответом уровня модели 3B. Менять CO2 на другой теплоноситель, кроме воды, тоже отказывалась. За много попыток предложила смесь CO2 с с 20% или 40% азота.

Закончилось всё тем, что openrouter упал. И я пошел спать. Из интересного: o3 pro хорошо пишет технические задания. И цена не $2-3 за запрос, как у O1 pro. А $0.18-0.38 за штуку.

А qwen не тестировал?

Помню на реддите модель qwen 2.5 попрекали, что на внимание много памяти расходует. Возможно должна лучше запоминать.

Да и qwen 3 32b Dense смотрю. В конфигурационном файле указано attention_heads: 64, key_value_heads: 8. Возможно тоже должна отличаться вниманием.

Или сравнивал с чем-то из другой весовой категории. Уровня claude 3 opus / o1 pro?

Что-то мне вывод старых 4b моделей больше нравится.

Phi 4 не под мои запросы сделана.

Одна из лучших моделей, которые я пробовал.

Пробовал сам, не ориентируясь на чужое мнение. Вопросы задавал по русски. Мне плевать на тесты контекста 120к. Так как знаю, как ошибается Sonnet 3.7 в программировании уже на контексте 15к. И GPT 4.5, на схожем объеме текста. Я задавал задачи уровня "вопрос-ответ".

А владельцы, оформившие ипотеку на Nvidia, пусть дальше сыпят жестью уровня: "похожие на DeepSeek v3 и r1 (предположительно, из-за копирования". Небольшие познания в ИИ разрушают такие доводы.

Llama 4 первая крупная модель, подходящая для CPU. Жду возможной российской адаптации. Перестроения словаря. И, возможного ещё большего роста по качеству для русского языка.

1

Information

Rating
Does not participate
Registered
Activity