Комментарии / Профиль Theio / Хабр

Пользователь

OpenAI представила GPT-5.3-Codex. Модель разрабатывали и обучали в тесной связке с инфраструктурой NVIDIA

(по слухам) 5.2 это был сыроватый чекпоинт, 5.3 это полное обучение того же претрейна. Что интересно, ни слова про обычную 5.3 для чата, только codex вариант.

GLM-4.7-Flash обходит модели вдвое крупнее — и запускается на ноутбуке

Theio 20 янв в 11:29

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Theio 19 янв в 22:21

Gemini 3 pro сильнее как чат модель, но в реальном агентном кодинге она проигрывает как gpt, так и Claude opus. Для агентного я даже предпочту условный minimax m2.1 чтоб не разбираться с приколами от Gemini.

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Theio 19 янв в 22:17

По своему личному опыту, опус это отличная модель, но chatGPT 5.2 codex xhigh лучше. Просто кодекс надо уметь готовить(да и опус тоже), у меня нет проблем ни с одной из моделей в моих репо, но опус был замечен в странных вещах мною чаще.

В цикле микроправок сидеть, кстати, не будете, даже с Cerebras модель врядли будет давать больше 500 tps, я бы поставил на 200-300, что учитывая сколько модель рассуждает и сколько контекста она собирает перед ответом всё равно будет не мгновенно.

Похоже, GPT-5.3 уже на подходе — и это может быть один из самых серьёзных апдейтов OpenAI за долгое время

Theio 19 янв в 22:10

Почему вы сравнивание бесплатную версию? Зачем? Да и вообще, вся соль этих моделей - запуск в режиме агента, о каком серьёзном кодинге в режиме веб чата вообще может идти речь?

OpenAI выпустила GPT-5.1

Theio 12 ноя 2025 в 23:25

"Интересный" релиз, конечно, даже без бенчмарков, мол а кому они нужны?)

И ни слова про Codex на 5.1, или там разница насколько минимальна что на кодексе никак не скажется бамп версии...

Промпт-инжиниринг мёртв? Почему «как спросить» больше не важно, и что приходит на смену

Theio 21 окт 2025 в 23:09

Буквально на днях дипсик сделали статью где они с помощью GRPO подобного метода автоматически составляют системный промпт для адаптации модели под конкретные агентных задачи. Такой тюнинг промпта выходит всего в десять баксов, даёт неплохой прирост, практически автоматически происходит. Так что ничего не мертво, просто это можно делать эффективно автоматически)

И в августе была статья на тему составления case bank где агент запоминает прошлые запросы и по ходу дела учится решать задачу читая наиболее релевантную историю, но там посложнее сетка, с разделением агента на планирование и выполнение.

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Theio 17 окт 2025 в 21:50

Вы как пользователь не учитывайте тот факт, что в претрейне сейчас куча синтетики с интернета. Если раньше для условной gpt 4 можно было спокойно включить в данные претрейна тысячу семплов "I'm a gpt 4 - the latest AI model from openAI", и потом в файнтюне добавить семплов "What kind of model are you? -> I'm gpt 4..." и модель этому хорошо бы училась, то прямо сейчас в претрейне УЖЕ есть такие ответы со старыми названиями просто как результат парсинга сайтов. Т.е. модель во время претрейна видит десятки тысяч предложений где она себя как только не называет. Внезапно, после этого тюнить её становится сложнее, и в целом на этапе файнтюна не принято добавлять новые знания в модель, на то он и файнтюн. Если бы это можно было сделать безболезненно для модели - так бы и делали.

Триллион параметров против здравого смысла: тестируем Qwen3-MAX и друзей

Theio 16 окт 2025 в 22:27

Ммм, в 2025 сравнивать кодинг на единичном промпте не в режиме агента, печально(

Немного дополню информацию по квену: qwen 3 coder доступен бесплатно 2К промптов в день через qwen code, но в целом при наличии GLM 4.6 и обновлённого Kimi k2 по копеечным ценам квен не сильно актуален если нет погони за халявой.

По гпт: там вообще есть gpt5-codex для агентного кодинга через codex, ну или хотя бы через курсор, а не тупо в чатике, но тут кому надо и так всё знают.

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Theio 16 окт 2025 в 19:30

Почти все популярные движки инференса поддерживают multigpu. Для SGLang/vLLM придется поиграться с конфигом pipeline/tensor/data/expert parallelism ибо редко какие модели получится запустить с tp 3, для llama.cpp тупо слои по гпушкам раскидать и всё.

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Theio 16 окт 2025 в 19:26

Но зачем? Даже anthropic не учит свои модели отвечать точно про себя, sonnet 4 и 4.5 с уверенностью считают что они 3.5-3.7. Никому не нужная фича, если прям очень надо чтоб модель себя называла как-то, то это вставляют прям в системный промпт (как те же Perplexity) и не портят веса модели бесполезной информацией.

Как я пытался ускорить анализ 12 000 комментариев с помощью GPU за 50 тысяч, но победил процессор

Theio 14 окт 2025 в 17:11

БУ 3090 - 60к за 24гб врам, пока что самое выгодное решение на рынке. Скоро будет 5070tis с (по слухам) 24гб и уже нативной поддержкой fp8, может она сможет сместить 3090, и то не факт.

Как я пытался ускорить анализ 12 000 комментариев с помощью GPU за 50 тысяч, но победил процессор

Theio 14 окт 2025 в 17:08

Там берт, берт можно тюнить без лоры на 2080ti спокойно, не то что инференсить.

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Theio 12 сен 2025 в 03:06

Урезанные? Вы 5090 видели?) И скоро будут super версии 5000 серии, где по слухам воткнут 24гб в 5070ti super.

Энтузиасты используют 3090 в основном, всего 600 баксов за бу, 24гб, fp8 для llama.cpp не нужен.

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Theio 12 авг 2025 в 20:10

Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.

OpenAI выпустила модель с открытыми весами, которая почти не уступает o3

Theio 6 авг 2025 в 08:24

0) На русском с моделью лучше не общаться, думал попробовать для постпроцессинга/LLM-as-judge, но там такие ляпы, что русский текст точно не стоит ей показывать.

1) Модель где-то на уровне GLM 4.5 air, где-то лучше, где-то хуже. Вроде из того, что вижу по отзывам людей, модель так себе в кодинге, но хороша в tool calling. Работает ощутимо быстрее GLM air за счёт всего 5.1b активных.

2) Использовать вместо qwen 3 coder или GLM 4.5 смысла(кроме экономического) нет. По провайдерам - у groq на openrouter что-то не то с конфигом, так что осторожнее.

3) Модель зацензурена по самые помидоры. Safety!

Reddit хочет стать поисковой системой

Theio 3 авг 2025 в 13:00

Перплексити выдаёт ссылки напрямую на посты/ветки комментов на реддите которые использовались для ответа на запрос.

Сотрудники OpenAI использовали ИИ Claude для программирования. В Anthropic уже закрыли доступ

Theio 2 авг 2025 в 17:59

SWE-bench-verified, aider-polyglot, BFCL-v3, какие-нибудь блогеры типо gosucoder, самому ручками сравнивать. Вариантов очень много. Последний варик очень рекомендую, тот же sonnet 4 очень высоко в рейтингах, а если поюзать самому и поспрашивать людей, то выясняется, что у него будто СДВГ - он пихает ненужные фичи везде, может заигнорить часть запроса, делает тонну ненужных правок, и это всё на метриках не сильно видно (и в арене тоже, там большинство сравнивает результат).

Просто арена это "понравься юзеру и угадай что ему нужно"-бенч, она плохо оценивает модели. Она не оценивает уже стандартный workflow, где ассистент пихает вместе с вопросом юзера актуальную базу кода из репо и даёт модели возможность искать релевантные куски кода для ответа на вопрос или для новой фичи, в арене тонна запросов в стиле "а сделай мне html страничку с js где будет пятиугольник вращаться и шарики прыгать". 4o на том же месте где kimi k2 и sonnet 4 как бы намекают, насколько можно доверять арене. Свежий qwen 3 coder 480b где-то на 11 строчке, хотя это первая модель которая уже вплотную приблизилась к Сlaude.

Заметь, я не говорил и не говорю, что китайцы плохи. Новый qwen coder, qwen 235b новый, k2, GLM 4.5 / 4.5-air - это всё очень хорошие модели, GLM air поднимал и тестил сам, очень понравился. Но не надо судить модели, которые делаются под agentic usage, через призму оценок в веб чатике.

+13

Что за зверь n8n. Первые шаги автоматизации

Theio 2 авг 2025 в 14:30

У меня было 2 дня на то, чтоб поднять хоть что-то рабочее, и litellm не нагуглился (и я про него не знал)..

Спасибо за подсказку, n8n пользоваться всё равно не буду, но litellm выглядит интересно и удобно!

Сотрудники OpenAI использовали ИИ Claude для программирования. В Anthropic уже закрыли доступ

Theio 2 авг 2025 в 14:22

Оценивать ллм по арене в 2025?)

2 3