Comments / Profile of bstan / Habr

Stanislav Belyaev@bstan

Менеджер с разными приставками и суффиксами

15,1

Rating

Subscribers

ProfileArticles5PostsNewsComments138

Промпты которые реально работают: полный разбор с примерами 2026

bstan Apr 6 at 21:32

Вы эти промпты хоть тестировали и сравнивали между собой?

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Apr 2 at 12:17

Да, мы их не выкладывали все. С ожиданием - а кто их будет смотреть?
Но примеры вот здесь опубликованы с ответами моделей. Этот сервис мы использовали для валиадции человеком (нужно ввести email, но не то, чтобы мы их используем)
https://mysummit.school/evaluate

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Apr 2 at 08:44

Денис, с одной стороны я понимаю о чем вы говорите. С другой стороны, если следовать вашим выводам, это означает, что люди не должны пользоваться сетями (потому что это будет вредить им) или же ИИ (в обратную стороны) должны удовлетворяться запросы и этих людей. Я верю во второе.

Но, в то же время, фокус в бенмачарке все же на менеджера. Это не работник завода. Не менеджер по продажам (хотя ничего не запрещает им его использовать). Хотя задачи, которые мы подобрали подходят под их категории тоже.

Ваш опыт, связанные со студентам, не релевантен для кейса. Вы уже сказали, что математика в Африке, РФ и США – это разные системы. И здесь такой же вывод. Студенты разы, в разных ВУЗах.

И последнее. Я все еще не вижу проблемы ) Бенчмарки не смотрят примерно 98% от пользователей утилит. Они просто открывают и используют. Результаты бенча будут трансформированы в – используйте сеть Х для ваших задач. Она закроет потребности

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Apr 1 at 11:09

У нас это учтено и консистентность в оценках присутствует. За счет температуры, структурированных промптов и повторной валидации.

Более того, мы проверяли разные ответы по одному сценарию от одной и той же модели. Оценки судей оставались стабильными, в рамках погрешности.

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Apr 1 at 11:07

Не согласен с доводом про обесценивание. Если вы считаете, что с нейросетями должны пользоваться только профессионалы (которые умеют в промпт-инжиниринг), то изначальной цели такой не было.

Цель понять, какие ИИ / LLM способны закрыть потребности среднего менеджера, который не агентские системы разрабатывает, а использует именно для повседневности.

Относительно второго довода (специальные промпты для специальных ИИ) – это следующий этап исследования у нас, чтобы понять как и можно ли получить от слабых моделей эквивалентный премиум моделям ответ. И тут уже все практики будут применены

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 31 at 12:11

Можете сказать больше, что увидели, что нет? Что хотели увидеть?

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 31 at 10:30

В этом случае, да. С API бесплатных нет. Но мы не искали подобное

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 31 at 08:03

У нас так или иначе исследование не окончено. Ниже описывал и признавал ограниченность текущего бенчмарка. Поэтому у нас остается шанс применить его. Может еще и Mythos от Claude успеет протестировать

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 31 at 08:01

Все бесплатные – одинаковые, да. У нас следующий проект – понять, можно ли заставить Alice LLM или GigaChat давать ответы выше качества. Слабая вера в это, исходя из возможностей. Но нужно проверить

Deepseek более или менее бесплатен.

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 31 at 04:45

Мы проводили слепое тестирование моделей, чтобы сделать калибровку, с участием людей. Можно посмотреть ответы тут (ну и дать вашу оценку, к этим постам – это улучшить нашу калиброку)
https://mysummit.school/evaluate

В целом же, вы действительно правы, что ИИ может написать хорошо структурированный текст, но пустой по сути. У нас есть все ответы моделей, их можно выложить для примера, но их все равно никто читать не будет, поэтому лежат в архиве.

В нашем же случае, были эталонные ответы к моделям (что мы ждали увидеть в ответ), и с этими эталонами сравнивали ответы. Поэтому оценка "можно идти на совещание", основана именно на сравнении с эталоном

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 30 at 19:50

Да, у нас тоже, если мы не сделали ошибку в статье :)

Относительно бенчмарка он получился ниже у нас, но тоже достойный. Вроде версия 5.1 выше по качеству

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 30 at 13:18

Спасибо за развёрнутый комментарий – по существу вы правы, и я это признаю.
По статистической мощности. В основе исследования – 4 сценария на категорию на модель, двое LLM-судей (Claude Opus 4.5 + Gemini 3 Pro). Мы сами считали post-hoc тесты (сейчас перепроверили эти цифры): Tukey HSD даёт p-adj = 1.0000 для всех попарных сравнений в топ-15. Minimum Detectable Difference (MDD) при количестве сценариев в рамках одной модели 4 – 1.255 балла. То есть бенчмарк статистически не может различить модели внутри верхней группы. Мы это знали и прописали в методологии equivalence bands: разница < 0,10 – «идентичны», 0,10–0,30 – «в рамках шума». Но в статье эти оговорки потерялись, а утверждения вроде «отстаёт на 0,06» остались. Это ошибка подачи – выводы вышли за рамки того, что данные позволяют утверждать.

По Claude 4.5 vs 4.6. В наших данных по категориям: анализ – 4.83 vs 4.71, команда – 4.70 vs 4.84. Это внутри нашего же значения "шума". Рекомендовать 4.5 при доступном 4.6 по той же цене – действительно не имеет смысла. Поправим.

По порогу 4.50. Согласен – он не обоснован статистически. В ANOVA все 54 модели попали в один статистический tier. Граница произвольная.

Что бенчмарк может, а что – нет. Он хорошо разделяет уровни: GigaChat (2.82) vs Kimi (4.74) – разница 1.92, это выше MDD, Cohen’s d > 0.8. Российские модели объективно отстают от глобального топа – это подтверждается. Но ранжировать внутри топ-15–20 он не может.

Заявления "китайские модели догнали западные" на основе разницы в 0.06 – некорректны. Корректно сказать "топ-15 моделей статистически неразличимы на нашем наборе задач".

Пример с Nemotron 3 Super vs GLM-5 – точный. У нас Cohen’s d между ними 0.006. Бенчмарк этого не видит – и это его ограничение, а не свойство моделей.

Что будем менять. Уберём рекомендацию 4.5 vs 4.6. Переформулируем топ как кластер («эти N моделей статистически неразличимы»), а не ранжированный список. Добавим equivalence bands на страницу результатов – они есть в методологии, но не дошли до публичной версии.

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 30 at 12:08

Здесь все в рамках погрешности, вы правы. Можно считать качество одним и тем же

Бенчмарк не знает ничего про модели, передовые или нет. Оценивается результат ответа на вопрос, его глубина, содержание, точность цифр, актуальность информации, эффективность (стоимость). В результате, может оказаться что передовая модель, которая стоит дороже (Opus) имеет меньшее количество баллов в рейтинге. Но это в рамках погрешности, как вы правильно заметили.

Относительно интерпретации, то в этой редакции статьи мы убрали разделение на Эшелоны / Кластеры / Tier. Но изначально предполагалось, что все выше 4.50 – это все премиальное качество и нет смысла смотреть на места. И если смотреть так, GLM-5 и выше – одного качества. Для конечного потребителя особой разницы нет, не видно.

Мы протестировали 34 AI-модели на задачах менеджера. Вот что доступно в России без VPN

bstan Mar 30 at 11:40

Следущая статья опубликована
https://habr.com/en/articles/1016648/

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 30 at 09:37

Доступен. Что вы имеете в виду "под не работает"? Русского интерфейса нет, но это критично для чата?

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 30 at 09:36

Открыл, работает. Возможно, вы хотите сказать, что нельзя оплатить? @caesium-137

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

bstan Mar 30 at 09:27

Да, фокус именно на GigaChat'e сделан. Ultra тоже протестирована и в таблице есть. Да, на уровне GPT-4o. Но это все еще конец рейтинга.

То есть, ни с чем не спорю, даже