Игорь Воронцов@master_program
Преподаватель МФТИ и ВШЭ, физик, Data Scientist
Information
- Rating
- 46-th
- Location
- Москва, Москва и Московская обл., Россия
- Date of birth
- Registered
- Activity
Specialization
Ученый по данным
Стажёр
Преподаватель МФТИ и ВШЭ, физик, Data Scientist
Т.е. смотрите.
Измеряли метрику - процент ячеек с ошибками. Там около 1 процента.
При этом строк полностью правильных больше половины, но точно не измеряли. В каждой строке 78 ячеек.
Ошибок при извлечении данных промптом не было, если использовать Gemini. Все ошибки были связаны с несовершенством правил кода.
Но вообще, видимо, LLM нужен как раз такой запутанный промпт для правильного извлечения данных именно потому, что он инструкции не идеально выполнять может.
Там же куча уточняющих правил, получается даже если часть инструкций не выполнилась, за счет избыточности всё работает.
Это интересный вопрос, за счет чего именно удалось сделать так, чтобы LLM перестал забывать те или иные данные с pdf документа.
Но в процессе удлинения промпта самой нейронкой становилось всё лучше, до тех пока не возникла ситуация, в которой все таблицы извлекались без потерь.
Если дать ему промпт короткий, он обязательно что-нибудь не перенесет.
А вот DeepSeek, к примеру, даже с этим промптом извлекал с ошибками, например букву О и цифру 0 путал друг с другом или даже с буквой D. У Gemini таких проблем не было.
Всяких задач по перекладыванию бумажек и заполнению документов, переписыванию чисел из таблицы в таблицу - полным полно.
И LLM в них позволяют и снизить количество требуемого человеческого труда, и даже повысить качество обработки.
Да, именно так. А заказчику нужно максимально быстро и дёшево решить свою конкретную проблему, а не масштабировать, расширять или делать тому подобное.
Это какие модели? У Gemini такой проблемы нет.
Ошибочно заполненных ячеек около 1 %.
Там больше половины строк были правильные целиком.
Ну да, на то что нужны было несколько часов вдвоём, а потом ещё сверка и контроль, теперь за 15 минут.
Большинство тут - больше половины. С каждого нужно 78 ячеек.
Человек также нужен в процессе исправления, который происходит быстро.
Ключевая метрика была - процент правильно заполненных ячеек.
В большинстве документов ошибок нет вообще. В среднем заполняется правильно около 99 % ячеек. Это при первом запуске, без проверок и повторных запусков.
Там проблема в очень запутанных и многочисленных правилах определения, какие данные считывать из таблиц и в какие ячейки вставлять. Ведь при распознавании, хотя и удалось добиться безошибочного извлечения всех данных без пропусков, полученные таблицы могут выглядеть сильно по-разному.
Так то функции обработки разных ячеек были разделены, но это не сильно помогает понять полностью, почему это должно так работать.
Человек нужен в этом процессе, просто всё происходит теперь значительно быстрее. Нужен всего лишь один человек (вместо двух), и делается за минуты времени этого человека вместо часов.
Измерялся процент ошибок и возможность их автоматизированного определения и исправления.
OCR не подводил, в книге так и написано. Поэтому и я не обратил внимания своими глазами, я проверил только правильный перенос из книги в LaTeX и его отображение. Так как такое форматирование, присутствующее в некоторых книгах, менее удобно для читателей, теперь буду исправлять.
У меня противоположный подход. Использование ИИ — признак качества сделанных материалов. Могу показать пример моего сайта
Вычислительная математика — Вычислительная математика
Весь сайт написан с помощью LLM. В результате этого работать с ним очень удобно — кладешь документ блокнот юпитер-ноутбук в папку, в нужном месте появляется новая страница. Всё настроено как нужно конкретному пользователю.
Все учебные материалы доведены до текущего очень презентабельного состояния именно с помощью ИИ.
В январе все выйдут.
Кстати говоря, нашел книгу Кардано автобиографическую. https://disk.yandex.ru/i/45pQzUAdh3s99g
Ляпов тут никаких нет. Использование знака корня перед скобками (например, √(ab+c) ) является общепринятым и стандартным в современной математической записи. Другое дело, что массовому читателю это может не понравиться, особенно тому, который не часто это встречал.
Как я и написал, взято это было из популярной книги по истории математики.
Можно, он тут работает.
Тут дело в том, что это кажется нормальным (такие значки корня), потому что в старых книгах часто такое встречается.
Там смысл в том, что переосмысляем сначала обычные числа геометрически. Умножение на положительное число тогда дает растяжение-сжатие, на минус единицу центральное отражение. Тогда мнимая единица дает поворот.
Тут как геометрическая алгебра в
, только не на векторной плоскости, а на числовой. Если же рассматривать двумерную геометрическую алгебру, то комплексная числовая плоскость изображает четную подалгебру в Cl(2,0,0).
В
аналогичная четная подалгебра — дает кватернионы.
Прикол еще в том, Cl(2,0,0) изоморфна алгебре всех вещественных матриц 2 на 2, а Cl(3,0,0) — всех комплексных матриц 2 на 2. Я вообще за то, чтобы популяризировать теорию всех комплексных матриц 2 на 2, как минимум. Там очень много геометрического смысла, и эффективных методов вычислений (например, от любых таких матриц легко считать любые аналитические функции, если знать как, а вот в более сложных случаях уже нет, грубо можно сказать комплексные матрицы 2 на 2 являются объектом максимальной сложности, на котором аналитические функции определены максимально просто — для всех объектов проще есть простые явные формулы для них, а для всех объектов сложнее их уже нет).
Это где переписка математиков поплыли?
Их из исторической книги mathpix-м выдирал, могу переписать их нейронкой.