Comments 8
статья не об этом. другие способы тоже есть. но мультимодальные ЛЛМ например умеют таблицы, выделяют изображения, описывают чарты итд и вообще выглядят как наиболее универсальное решение из известных мне по крайней мере
Абсолютно согласен с автором относительно выдающихся восстановительных способностей LLM. Недавно я загрузил "кривую" транскрипцию онлайн-встречи на нидерландском языке в Google Gemini 2.5 Pro, и модель отлично уловила суть обсуждения, изложив технические и юридические детали простым и понятным языком. Читать сырой машинный текст — интерпретацию потоковой болтовни фламандских коллег — настоящая пытка, а вот итоговое резюме от Gemini оказалось лёгким для восприятия и действительно информативным.
Последнее предложение, собственно, сняло у меня все вопросы про выбор инструмента для решения задачи.
Мешанину из столбов ллм поймет. Если скормить документ целикомв контекст. Но корректно прочанкать такой документ уже не выйдет без нормальной конвертации.
Это не может происходить из-за того, что ллм разбивает текст на отдельные нграммы (не уверен какие именно в гпт), и выучивает связи именно между разными нграммами среди всего текста, то есть любые комбинации? Поэтому ему и не так важна композиция и стройность текста
Сверхспособность LLM в понимании документа, сконвертированного в текст с ошибками — или почему наш RAG работает