Pull to refresh
16K+
11
Stanislav Belyaev@bstan

Менеджер с разными приставками и суффиксами

15,1
Rating
15
Subscribers
Send message

Вы эти промпты хоть тестировали и сравнивали между собой?

Да, мы их не выкладывали все. С ожиданием - а кто их будет смотреть?
Но примеры вот здесь опубликованы с ответами моделей. Этот сервис мы использовали для валиадции человеком (нужно ввести email, но не то, чтобы мы их используем)
https://mysummit.school/evaluate

Денис, с одной стороны я понимаю о чем вы говорите. С другой стороны, если следовать вашим выводам, это означает, что люди не должны пользоваться сетями (потому что это будет вредить им) или же ИИ (в обратную стороны) должны удовлетворяться запросы и этих людей. Я верю во второе.

Но, в то же время, фокус в бенмачарке все же на менеджера. Это не работник завода. Не менеджер по продажам (хотя ничего не запрещает им его использовать). Хотя задачи, которые мы подобрали подходят под их категории тоже.

Ваш опыт, связанные со студентам, не релевантен для кейса. Вы уже сказали, что математика в Африке, РФ и США – это разные системы. И здесь такой же вывод. Студенты разы, в разных ВУЗах.

И последнее. Я все еще не вижу проблемы ) Бенчмарки не смотрят примерно 98% от пользователей утилит. Они просто открывают и используют. Результаты бенча будут трансформированы в – используйте сеть Х для ваших задач. Она закроет потребности

У нас это учтено и консистентность в оценках присутствует. За счет температуры, структурированных промптов и повторной валидации.

Более того, мы проверяли разные ответы по одному сценарию от одной и той же модели. Оценки судей оставались стабильными, в рамках погрешности.

Не согласен с доводом про обесценивание. Если вы считаете, что с нейросетями должны пользоваться только профессионалы (которые умеют в промпт-инжиниринг), то изначальной цели такой не было.

Цель понять, какие ИИ / LLM способны закрыть потребности среднего менеджера, который не агентские системы разрабатывает, а использует именно для повседневности.

Относительно второго довода (специальные промпты для специальных ИИ) – это следующий этап исследования у нас, чтобы понять как и можно ли получить от слабых моделей эквивалентный премиум моделям ответ. И тут уже все практики будут применены

Можете сказать больше, что увидели, что нет? Что хотели увидеть?

В этом случае, да. С API бесплатных нет. Но мы не искали подобное

У нас так или иначе исследование не окончено. Ниже описывал и признавал ограниченность текущего бенчмарка. Поэтому у нас остается шанс применить его. Может еще и Mythos от Claude успеет протестировать

Все бесплатные – одинаковые, да. У нас следующий проект – понять, можно ли заставить Alice LLM или GigaChat давать ответы выше качества. Слабая вера в это, исходя из возможностей. Но нужно проверить

Deepseek более или менее бесплатен.

Мы проводили слепое тестирование моделей, чтобы сделать калибровку, с участием людей. Можно посмотреть ответы тут (ну и дать вашу оценку, к этим постам – это улучшить нашу калиброку)
https://mysummit.school/evaluate

В целом же, вы действительно правы, что ИИ может написать хорошо структурированный текст, но пустой по сути. У нас есть все ответы моделей, их можно выложить для примера, но их все равно никто читать не будет, поэтому лежат в архиве.

В нашем же случае, были эталонные ответы к моделям (что мы ждали увидеть в ответ), и с этими эталонами сравнивали ответы. Поэтому оценка "можно идти на совещание", основана именно на сравнении с эталоном

Да, у нас тоже, если мы не сделали ошибку в статье :)

Относительно бенчмарка он получился ниже у нас, но тоже достойный. Вроде версия 5.1 выше по качеству

Спасибо за развёрнутый комментарий – по существу вы правы, и я это признаю.
По статистической мощности. В основе исследования – 4 сценария на категорию на модель, двое LLM-судей (Claude Opus 4.5 + Gemini 3 Pro). Мы сами считали post-hoc тесты (сейчас перепроверили эти цифры): Tukey HSD даёт p-adj = 1.0000 для всех попарных сравнений в топ-15. Minimum Detectable Difference (MDD) при количестве сценариев в рамках одной модели 4 – 1.255 балла. То есть бенчмарк статистически не может различить модели внутри верхней группы. Мы это знали и прописали в методологии equivalence bands: разница < 0,10 – «идентичны», 0,10–0,30 – «в рамках шума». Но в статье эти оговорки потерялись, а утверждения вроде «отстаёт на 0,06» остались. Это ошибка подачи – выводы вышли за рамки того, что данные позволяют утверждать.

По Claude 4.5 vs 4.6. В наших данных по категориям: анализ – 4.83 vs 4.71, команда – 4.70 vs 4.84. Это внутри нашего же значения "шума". Рекомендовать 4.5 при доступном 4.6 по той же цене – действительно не имеет смысла. Поправим.

По порогу 4.50. Согласен – он не обоснован статистически. В ANOVA все 54 модели попали в один статистический tier. Граница произвольная.

Что бенчмарк может, а что – нет. Он хорошо разделяет уровни: GigaChat (2.82) vs Kimi (4.74) – разница 1.92, это выше MDD, Cohen’s d > 0.8. Российские модели объективно отстают от глобального топа – это подтверждается. Но ранжировать внутри топ-15–20 он не может.

Заявления "китайские модели догнали западные" на основе разницы в 0.06 – некорректны. Корректно сказать "топ-15 моделей статистически неразличимы на нашем наборе задач".

Пример с Nemotron 3 Super vs GLM-5 – точный. У нас Cohen’s d между ними 0.006. Бенчмарк этого не видит – и это его ограничение, а не свойство моделей.

Что будем менять. Уберём рекомендацию 4.5 vs 4.6. Переформулируем топ как кластер («эти N моделей статистически неразличимы»), а не ранжированный список. Добавим equivalence bands на страницу результатов – они есть в методологии, но не дошли до публичной версии.

Здесь все в рамках погрешности, вы правы. Можно считать качество одним и тем же

Бенчмарк не знает ничего про модели, передовые или нет. Оценивается результат ответа на вопрос, его глубина, содержание, точность цифр, актуальность информации, эффективность (стоимость). В результате, может оказаться что передовая модель, которая стоит дороже (Opus) имеет меньшее количество баллов в рейтинге. Но это в рамках погрешности, как вы правильно заметили.

Относительно интерпретации, то в этой редакции статьи мы убрали разделение на Эшелоны / Кластеры / Tier. Но изначально предполагалось, что все выше 4.50 – это все премиальное качество и нет смысла смотреть на места. И если смотреть так, GLM-5 и выше – одного качества. Для конечного потребителя особой разницы нет, не видно.

Доступен. Что вы имеете в виду "под не работает"? Русского интерфейса нет, но это критично для чата?

Открыл, работает. Возможно, вы хотите сказать, что нельзя оплатить? @caesium-137

Да, фокус именно на GigaChat'e сделан. Ultra тоже протестирована и в таблице есть. Да, на уровне GPT-4o. Но это все еще конец рейтинга.

То есть, ни с чем не спорю, даже

Видимо, мы это пропустили. Нужно перепроверить

Что именно? Выше написали, что Кими недоступен, что мы могли пропустить

Нет, мы не тестировали версию 3.1, тестировал. Gemini 3 Pro был судья, поэтому его не было в рейтинге.

1
23 ...

Information

Rating
568-th
Date of birth
Registered
Activity

Specialization

Менеджер проекта, Директор проекта
Ведущий
Управление проектами
Управление людьми
Стратегическое управление
Управление разработкой