Search
Write a publication
Pull to refresh

Comments 9

Открываю первый же запрос o3-mini‑high:

  • трудносопровождаемый copy-paste код, требующий примерно столько же комментариев, сколько и сам запрос

  • ошибка при выводе/формировании результата (для величин < 8.005)

Если это претензия к пролистанной статье, то вам стоит пролистнуть до результатов ещё раз и посмотреть не последнюю картинку, а предпоследнюю. Из тестируемых нейросетей o3-mini-high по методологии автора занял последнее место по всем фронтам

Скорее, претензия к компетентности авторов в теме сиквела. Открываем результат "призера" о3 и видим то же яйцо, но сбоку ту же проблему и ошибку.

Тем временем автор достаточно корректно использует модель отсутствующую в тестировании для анализа результатов, но при этом использует ту модель которая в том же LiveSQLBench даже не тестировалась, то есть не очевидно, что эта модель покажет хорошие результаты. Я бы предложил использовать для ее оценки победителя текущей номинации и посмотреть куда Grok 3 попадет в лидерборде

А все модели сейчас настолько похожие в использовании, что их можно в лоб сравнивать? Ну там : размер контекста, подбор контекста через категоризацию, монетизация?

Это шутка? Если задача влезает в контекст, значит влезает. Вы хотите понижающий коэффициент для рейтинга, если задачу нельзя запихать в контекст трижды? Или что?

<зануда мод он>

Ну вообще-то, желательно для каждой модели отдельно промт оптимизировать. Я много экспериментировал с переводом через LLM, там промт очень сильно влияет на качество, один и тот же промт на все модели приводит к недоиспользованию потенциала

</зануда мод офф>

Наша база данных — это как бортовой журнал космического корабля.

А это к чему?

Робот так пишет когда его просят что то объяснить. Он не видит перед собой бородатого дядьку но должен какое то объяснение выдать, выдает обычно версию для детей.

Sign up to leave a comment.