Обновить

Какой табличный формат LLM понимают лучше всего? (Результаты по 11 форматам)

Время на прочтение8 мин
Просмотры4.1K
Всего голосов 12: ↑11 и ↓1+11
Комментарии8

Комментарии 8

То есть примерно в половину случаев LLM возвращала неверный результат?

Учитывая, что там старая и мелкая 4o-nano, это еще не так плохо

Это же было полмесяца назад на реддите. Все кто хотел, там прочитали.

Было бы интересно сравнить с TextSQL.

Есть ли репозиторий с исходниками для теста? Хочется повторить то же самое с claude, gpt5, groxk, qwen.

Понять насколько важно это для более современных систем, обученных на множестве чатов

ЛЛМ не должна таким заниматься. Записи в базу, ЛЛМ делает запрос. Точность сразу будет под 100%. Ну на старой нано может она не сможет запрос иногда сделать корректно, но всё равно гораздо лучше будет работать. И по токенам тоже.

А почему нет? Понятно, что использовать LLM для прямого чтения какой-нибудь бороды на 10 млн строк, чтобы банально выдернуть конкретное значение, которое итак предельно ясно как искать - глупо. Здесь задача по выводу возраста человека - это сродни needle in a haystack теста, что-то вроде "2+2=" из арифметики. Понятно, что с этим базы данных и табличные процессоры справятся гораздо лучше.
Но во-первых, если речь идёт о сравнительно небольшой таблице вроде сводной, то здесь вполне может пригодиться способность LLM находить паттерны и взаимосвязи, а ещё можно немного облегчить жизнь офисному планктону генерацией отчётов по этим сводным.
Во-вторых, не всегда очевидно то, где и как искать нужные нам данные. Некоторые таблицы изобилуют текстовыми комментариями, их нейросетка нормально учтёт. А где-то просто сама таблица ведётся через пень-колоду, и тут тоже теоретически LLM может помочь в ней разобраться.
И в-третьих, одно другое не исключает. Кто сказал, что запросы под запретом? Просто чтобы написать адекватный запрос, нужно иметь представление о структуре данных, а чтобы эту информацию получить, таблицу нужно прочесть. Чем лучше LLM "поймёт" таблицу, тем лучше будет обращаться с ней, и это справедливо вне зависимости от того, используем ли мы инструменты, запросы и формулы, или решаем задачу "в лоб".
Наконец, иногда тест - это всего лишь тест. Если некая нейросеть ошибается в половине случаев при работе табличными данными, мы можем сделать вывод о том, что доверять такие данные такой модельке не стоит вовсе - хоть напрямую, хоть через запрос, она не справляется. И напротив, повышение точности ответов будет говорить о том, что возможности LLM по работе с таблицами растут. А дальше уже наше дело, как этими возможностями распоряжаться.

Но во-первых, если речь идёт о сравнительно небольшой таблице вроде сводной, то здесь вполне может пригодиться способность LLM находить паттерны и взаимосвязи, а ещё можно немного облегчить жизнь офисному планктону генерацией отчётов по этим сводным.

Если речь идет о сравнительно небольшой таблице, то особо не важно какой формат используется - любая влезет в контекст, подойдет формат, который лучше всего сочетается с остальным документом.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации