Comments 9
Открываю первый же запрос o3-mini‑high:
трудносопровождаемый copy-paste код, требующий примерно столько же комментариев, сколько и сам запрос
ошибка при выводе/формировании результата (для величин < 8.005)
Если это претензия к пролистанной статье, то вам стоит пролистнуть до результатов ещё раз и посмотреть не последнюю картинку, а предпоследнюю. Из тестируемых нейросетей o3-mini-high по методологии автора занял последнее место по всем фронтам
Тем временем автор достаточно корректно использует модель отсутствующую в тестировании для анализа результатов, но при этом использует ту модель которая в том же LiveSQLBench даже не тестировалась, то есть не очевидно, что эта модель покажет хорошие результаты. Я бы предложил использовать для ее оценки победителя текущей номинации и посмотреть куда Grok 3 попадет в лидерборде
А все модели сейчас настолько похожие в использовании, что их можно в лоб сравнивать? Ну там : размер контекста, подбор контекста через категоризацию, монетизация?
Это шутка? Если задача влезает в контекст, значит влезает. Вы хотите понижающий коэффициент для рейтинга, если задачу нельзя запихать в контекст трижды? Или что?
Наша база данных — это как бортовой журнал космического корабля.
А это к чему?
Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)