Говорит очень сжато. Вообще максимально сжимает разговор. По сравнению с O3 Pro - не уверен, что лучше. Пока новых идей не увидел. Максимально некрасивый технический русский язык стал еще более мудреным. Нейросеть не думает о красоте речи. Как технарь, просидевший 5 лет в подвале. Но мышление предложениями сохранилось, как и у O3 Pro.
В качестве примера недавно интересовался, когда вычислительные возможности чипов дорастут до массого распространения 10GBase-T и 25GBase-T. И может ли быть связано с российскими разработками в области InGaAs (Читал старые статьи о микроэлектронике). В принципе 5 pro выдал, что и связка Sonnet 4.5, Gemini Pro, GLM 4.6, Grok4 fast вместе взятая. Вот тут 2 вопроса и один ответ ИИ, правда только нумерованный список сбился при копировании ответа в telegraph: https://telegra.ph/25GBase-T-10-07
Считаю, вайб дебаггинг очень плохо поддаётся работе на удаленке.
Требуется постоянное общение. Чтобы выяснить почему так получилось. А сама работа, очень похожа на описанное в книге "Эффективная работа с унаследованным кодом". Только сейчас, прологировать все методы одного класса - просто. Даже мощная gpt не требуется. FIM справится. Для документации и покрытия тестами - что-то помощнее.
В общем американские и китайские компании заблокируют.
Останется только РФ. Где акцент на state machine. И конкурировать с антропиком нет ни средств, ни желания, ни понимания: зачем это нужно. А для фанатов непонятно чего всегда есть тиньков, вихрь и любая из реинкарнаций квен 3/30/3.
Читаем книги по промт инженирингу. Можно зарубежные, вычищенные от амазинга и банальных повествований. Делаем запрос с минимальной вложенностью, максимально плоский. Убираем псевдографику. Плюс "+" не должен означать переход псевдографики и значение в таблице. Всю классику: инструкции, few shot - включаем в обязательном порядке. Обозначение блоков BLOCK..END OF BLOCK, в силе языков программирования Fortran, Cobol, из времен без подсветки синтаксиса - по желанию.
По запросу не ясно различие "нет ip" и "не работает ip". Если убрать такой акцент. То пример, подготовленный с помощью o3-pro из набора мыслей:
SYSTEM:
Ты – неизменяемое справочное API. Отвечай только на основе таблицы.
Формат ответа:
① если просят «список» – JSON-массив,
② если просят «есть ли такая пара» – "YES"/"NO".
DATA (CSV):
URL,IP
habr.com,146.120.117.5
habr.com,146.120.118.23
people.habr.com,146.120.117.8
sandbox.habr.com,146.120.119.31
example1.ru,203.0.113.10
example1.ru,203.0.113.11
newsportal.ru,192.0.2.20
newsportal.ru,192.0.2.21
techtalk.ru,198.51.100.30
techtalk.ru,198.51.100.31
learncoding.ru,198.51.100.45
END OF DATA
EXAMPLES:
Q: Какие IP у habr.com?
A: ["146.120.117.5","146.120.118.23"]
Q: Есть ли IP 192.0.2.20 у techtalk.ru?
A: NO
END OF EXAMPLES
USER:
<запрос>
SYSTEM в openrouter включаем в настройку чата System Promt. Запросы USER - в самом чате. Пробовал с kimi k2. Temperature=0.6, TopP=0.92, TopK=13, MinP=0.08.
Вчера смотрел. O3 pro от O1 отличается кардинально. O3 модель-формалистка.
Главное правила описания, следования. А что по главной теме общения - согласится и подстроится под одну из первых идей.
Прошка про формализацию забывает. Про красоту текста топикстартер уже написал. Отсутствует. По O3 pro вчера спрашивал, как оптимизировать парогазовые электростанции.
Предложила сверх CO2 цикл. И никак не хотела снижать нижнюю температуру CO2 ниже 35 градусов. Отвечала отказом, либо, если вопрос без вариаций, уходила в итальянскую забастовку. С ответом уровня модели 3B. Менять CO2 на другой теплоноситель, кроме воды, тоже отказывалась. За много попыток предложила смесь CO2 с с 20% или 40% азота.
Закончилось всё тем, что openrouter упал. И я пошел спать. Из интересного: o3 pro хорошо пишет технические задания. И цена не $2-3 за запрос, как у O1 pro. А $0.18-0.38 за штуку.
Пробовал сам, не ориентируясь на чужое мнение. Вопросы задавал по русски. Мне плевать на тесты контекста 120к. Так как знаю, как ошибается Sonnet 3.7 в программировании уже на контексте 15к. И GPT 4.5, на схожем объеме текста. Я задавал задачи уровня "вопрос-ответ".
А владельцы, оформившие ипотеку на Nvidia, пусть дальше сыпят жестью уровня: "похожие на DeepSeek v3 и r1 (предположительно, из-за копирования". Небольшие познания в ИИ разрушают такие доводы.
Llama 4 первая крупная модель, подходящая для CPU. Жду возможной российской адаптации. Перестроения словаря. И, возможного ещё большего роста по качеству для русского языка.
GPT5 Pro каждый ответ начинает с:
Короткий вывод. Краткий ответ. Или вариации этой фразы.
Очень легко определить модель.
А что делает unsloth?
Попробовал GPT 5 Pro.
Говорит очень сжато. Вообще максимально сжимает разговор. По сравнению с O3 Pro - не уверен, что лучше. Пока новых идей не увидел. Максимально некрасивый технический русский язык стал еще более мудреным. Нейросеть не думает о красоте речи. Как технарь, просидевший 5 лет в подвале. Но мышление предложениями сохранилось, как и у O3 Pro.
В качестве примера недавно интересовался, когда вычислительные возможности чипов дорастут до массого распространения 10GBase-T и 25GBase-T. И может ли быть связано с российскими разработками в области InGaAs (Читал старые статьи о микроэлектронике). В принципе 5 pro выдал, что и связка Sonnet 4.5, Gemini Pro, GLM 4.6, Grok4 fast вместе взятая. Вот тут 2 вопроса и один ответ ИИ, правда только нумерованный список сбился при копировании ответа в telegraph: https://telegra.ph/25GBase-T-10-07
Ну так перспективы у них есть?
Или там на больших вводных будет что-то нерешаемое?
Будь тема рабочая - выложили бы десяток тысяч mcp серверов.
294 тысячи долларов - тут уже бюджеты российских ИИ близко. Про бюджет в 2-3М - не в курсе.
Считаю, вайб дебаггинг очень плохо поддаётся работе на удаленке.
Требуется постоянное общение. Чтобы выяснить почему так получилось. А сама работа, очень похожа на описанное в книге "Эффективная работа с унаследованным кодом". Только сейчас, прологировать все методы одного класса - просто. Даже мощная gpt не требуется. FIM справится. Для документации и покрытия тестами - что-то помощнее.
Ну вот. Отдел PR будет ему пирожки выносить.
В общем американские и китайские компании заблокируют.
Останется только РФ. Где акцент на state machine. И конкурировать с антропиком нет ни средств, ни желания, ни понимания: зачем это нужно. А для фанатов непонятно чего всегда есть тиньков, вихрь и любая из реинкарнаций квен 3/30/3.
Попросил оценить гипотезы - разнесла в хлам. Без поддакиваний.
Попросил написать несколько историй - написала чернуху. Никаких слащаво-мотивационных рассказов по умолчанию.
Не то, что полюбил эту ии. Но стал чаще с ней советоваться.
Похоже антропик всё. Смотрю, как его забуксовали по статистике на openrouter.
К концу месяца, думаю, соннет 4 до 3 места упадет.
Это называется дистиляция ИИ
Автор освоил одну технику: дать ИИ при промте возможность отказаться от решения.
Но в целом: явно книги не читал. А до одной техники дошел своим умом.
Читаем книги по промт инженирингу. Можно зарубежные, вычищенные от амазинга и банальных повествований. Делаем запрос с минимальной вложенностью, максимально плоский. Убираем псевдографику. Плюс "+" не должен означать переход псевдографики и значение в таблице. Всю классику: инструкции, few shot - включаем в обязательном порядке. Обозначение блоков BLOCK..END OF BLOCK, в силе языков программирования Fortran, Cobol, из времен без подсветки синтаксиса - по желанию.
По запросу не ясно различие "нет ip" и "не работает ip". Если убрать такой акцент. То пример, подготовленный с помощью o3-pro из набора мыслей:
SYSTEM в openrouter включаем в настройку чата System Promt. Запросы USER - в самом чате. Пробовал с kimi k2. Temperature=0.6, TopP=0.92, TopK=13, MinP=0.08.
Протестировал на написание технических заданий. В целом пишет проще. Подкидывает шутки.
Сразу возник вопрос серьезности. И задал несколько тяжелых вопросов по строительству.
ГОСТы, СНиПы знает.
Как понимаю, Grok 4 надо сравнивать надо с O3, a Heavy c O3-pro. Но на OpenRouter пока только обычная модель Grok 4. Ну в целом неплохо.
По программированию: тут подожду пару недель. Вдруг мощность модели срежут?
Вчера смотрел. O3 pro от O1 отличается кардинально. O3 модель-формалистка.
Главное правила описания, следования. А что по главной теме общения - согласится и подстроится под одну из первых идей.
Прошка про формализацию забывает. Про красоту текста топикстартер уже написал. Отсутствует. По O3 pro вчера спрашивал, как оптимизировать парогазовые электростанции.
Предложила сверх CO2 цикл. И никак не хотела снижать нижнюю температуру CO2 ниже 35 градусов. Отвечала отказом, либо, если вопрос без вариаций, уходила в итальянскую забастовку. С ответом уровня модели 3B. Менять CO2 на другой теплоноситель, кроме воды, тоже отказывалась. За много попыток предложила смесь CO2 с с 20% или 40% азота.
Закончилось всё тем, что openrouter упал. И я пошел спать. Из интересного: o3 pro хорошо пишет технические задания. И цена не $2-3 за запрос, как у O1 pro. А $0.18-0.38 за штуку.
А qwen не тестировал?
Помню на реддите модель qwen 2.5 попрекали, что на внимание много памяти расходует. Возможно должна лучше запоминать.
Да и qwen 3 32b Dense смотрю. В конфигурационном файле указано attention_heads: 64, key_value_heads: 8. Возможно тоже должна отличаться вниманием.
Или сравнивал с чем-то из другой весовой категории. Уровня claude 3 opus / o1 pro?
Что-то мне вывод старых 4b моделей больше нравится.
Phi 4 не под мои запросы сделана.
Одна из лучших моделей, которые я пробовал.
Пробовал сам, не ориентируясь на чужое мнение. Вопросы задавал по русски. Мне плевать на тесты контекста 120к. Так как знаю, как ошибается Sonnet 3.7 в программировании уже на контексте 15к. И GPT 4.5, на схожем объеме текста. Я задавал задачи уровня "вопрос-ответ".
А владельцы, оформившие ипотеку на Nvidia, пусть дальше сыпят жестью уровня: "похожие на DeepSeek v3 и r1 (предположительно, из-за копирования". Небольшие познания в ИИ разрушают такие доводы.
Llama 4 первая крупная модель, подходящая для CPU. Жду возможной российской адаптации. Перестроения словаря. И, возможного ещё большего роста по качеству для русского языка.
Трамп постоянно метод "качели" использует