Comments / Profile of master

Игорь Воронцов@master_program

Преподаватель МФТИ и ВШЭ, физик, Data Scientist

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 18:56

Ну как в чем, получить деньги от заказчика. Такую задачу непонятно как иначе еще решить можно, там же нет единого формата паспортов.

Более того, думаю, многие задачи автоматизации рутины примерно такие же: их сложно автоматизировать понятным скриптом, вместо общих правил - куча примеров.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 18:32

Еще LLM может быстро написать код для расчета всяких корреляций и поиска сложных взаимосвязей. Но на самом деле лучше иметь готовый блокнот, где уже это всё нормально написано. Еще есть визуализаторы разные.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:42

Т.е. смотрите.

Измеряли метрику - процент ячеек с ошибками. Там около 1 процента.
При этом строк полностью правильных больше половины, но точно не измеряли. В каждой строке 78 ячеек.
Ошибок при извлечении данных промптом не было, если использовать Gemini. Все ошибки были связаны с несовершенством правил кода.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:38

Но вообще, видимо, LLM нужен как раз такой запутанный промпт для правильного извлечения данных именно потому, что он инструкции не идеально выполнять может.

Там же куча уточняющих правил, получается даже если часть инструкций не выполнилась, за счет избыточности всё работает.

Это интересный вопрос, за счет чего именно удалось сделать так, чтобы LLM перестал забывать те или иные данные с pdf документа.

Но в процессе удлинения промпта самой нейронкой становилось всё лучше, до тех пока не возникла ситуация, в которой все таблицы извлекались без потерь.

Если дать ему промпт короткий, он обязательно что-нибудь не перенесет.

А вот DeepSeek, к примеру, даже с этим промптом извлекал с ошибками, например букву О и цифру 0 путал друг с другом или даже с буквой D. У Gemini таких проблем не было.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:26

Всяких задач по перекладыванию бумажек и заполнению документов, переписыванию чисел из таблицы в таблицу - полным полно.

И LLM в них позволяют и снизить количество требуемого человеческого труда, и даже повысить качество обработки.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:07

Как будто требуемый результат — это исключительно довольство заказчика

Да, именно так. А заказчику нужно максимально быстро и дёшево решить свою конкретную проблему, а не масштабировать, расширять или делать тому подобное.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:05

Это какие модели? У Gemini такой проблемы нет.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:02

Ошибочно заполненных ячеек около 1 %.

Там больше половины строк были правильные целиком.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 17:01

Ну да, на то что нужны было несколько часов вдвоём, а потом ещё сверка и контроль, теперь за 15 минут.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 16:56

Большинство тут - больше половины. С каждого нужно 78 ячеек.

Человек также нужен в процессе исправления, который происходит быстро.

Ключевая метрика была - процент правильно заполненных ячеек.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 16:49

В большинстве документов ошибок нет вообще. В среднем заполняется правильно около 99 % ячеек. Это при первом запуске, без проверок и повторных запусков.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 16:46

Там проблема в очень запутанных и многочисленных правилах определения, какие данные считывать из таблиц и в какие ячейки вставлять. Ведь при распознавании, хотя и удалось добиться безошибочного извлечения всех данных без пропусков, полученные таблицы могут выглядеть сильно по-разному.

Так то функции обработки разных ячеек были разделены, но это не сильно помогает понять полностью, почему это должно так работать.

Как заработать на LLM, перестав писать «правильные промпты»

master_program Dec 30 2025 at 16:41

Человек нужен в этом процессе, просто всё происходит теперь значительно быстрее. Нужен всего лишь один человек (вместо двух), и делается за минуты времени этого человека вместо часов.

Измерялся процент ошибок и возможность их автоматизированного определения и исправления.

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 30 2025 at 16:25

OCR не подводил, в книге так и написано. Поэтому и я не обратил внимания своими глазами, я проверил только правильный перенос из книги в LaTeX и его отображение. Так как такое форматирование, присутствующее в некоторых книгах, менее удобно для читателей, теперь буду исправлять.

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 30 2025 at 13:07

У меня противоположный подход. Использование ИИ — признак качества сделанных материалов. Могу показать пример моего сайта

Вычислительная математика — Вычислительная математика

Весь сайт написан с помощью LLM. В результате этого работать с ним очень удобно — кладешь документ блокнот юпитер-ноутбук в папку, в нужном месте появляется новая страница. Всё настроено как нужно конкретному пользователю.

Все учебные материалы доведены до текущего очень презентабельного состояния именно с помощью ИИ.

-1

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 30 2025 at 12:00

В январе все выйдут.

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 29 2025 at 20:02

Кстати говоря, нашел книгу Кардано автобиографическую. https://disk.yandex.ru/i/45pQzUAdh3s99g

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 29 2025 at 19:05

Ляпов тут никаких нет. Использование знака корня перед скобками (например, √(ab+c) ) является общепринятым и стандартным в современной математической записи. Другое дело, что массовому читателю это может не понравиться, особенно тому, который не часто это встречал.

Как я и написал, взято это было из популярной книги по истории математики.

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 29 2025 at 18:55

Можно, он тут работает.

Царский путь к пониманию комплексных чисел. Часть I

master_program Dec 29 2025 at 17:57

Тут дело в том, что это кажется нормальным (такие значки корня), потому что в старых книгах часто такое встречается.

1 2

4 5 ...

36 37

Information

Specialization