dmitrifriend Jul 7 at 15:22

Топ LLM для задач text‑to‑SQL: результаты теста DeepSeek R1-0528, Gemini 2.5 Pro, o3 (и ещё трёх моделей)

Medium

13 min

5.9K

BotHub corporate blogDatabase Administration * Artificial IntelligenceMachine learning * Programming *

Review

+18

Comments 9

cross_join Jul 7 at 16:31

Открываю первый же запрос o3-mini‑high:

трудносопровождаемый copy-paste код, требующий примерно столько же комментариев, сколько и сам запрос
ошибка при выводе/формировании результата (для величин < 8.005)

thethee Jul 7 at 19:14

Если это претензия к пролистанной статье, то вам стоит пролистнуть до результатов ещё раз и посмотреть не последнюю картинку, а предпоследнюю. Из тестируемых нейросетей o3-mini-high по методологии автора занял последнее место по всем фронтам

cross_join Jul 7 at 22:18

Скорее, претензия к компетентности авторов в теме сиквела. Открываем результат "призера" о3 и видим ~~то же яйцо, но сбоку~~ ту же проблему и ошибку.

thethee Jul 7 at 19:19

Тем временем автор достаточно корректно использует модель отсутствующую в тестировании для анализа результатов, но при этом использует ту модель которая в том же LiveSQLBench даже не тестировалась, то есть не очевидно, что эта модель покажет хорошие результаты. Я бы предложил использовать для ее оценки победителя текущей номинации и посмотреть куда Grok 3 попадет в лидерборде

RomanPokrovskij Jul 7 at 20:42

А все модели сейчас настолько похожие в использовании, что их можно в лоб сравнивать? Ну там : размер контекста, подбор контекста через категоризацию, монетизация?

Hardcoin Jul 7 at 21:09

Это шутка? Если задача влезает в контекст, значит влезает. Вы хотите понижающий коэффициент для рейтинга, если задачу нельзя запихать в контекст трижды? Или что?

einhorn Jul 8 at 04:04

<зануда мод он>

Ну вообще-то, желательно для каждой модели отдельно промт оптимизировать. Я много экспериментировал с переводом через LLM, там промт очень сильно влияет на качество, один и тот же промт на все модели приводит к недоиспользованию потенциала

</зануда мод офф>

rikert Jul 8 at 07:54

Наша база данных — это как бортовой журнал космического корабля.

А это к чему?

Hopenolis Jul 8 at 07:59

Робот так пишет когда его просят что то объяснить. Он не видит перед собой бородатого дядьку но должен какое то объяснение выдать, выдает обычно версию для детей.