Игорь Воронцов@master_program
Преподаю в МФТИ, МГУ, ЦУ и ВШЭ, сотрудник ЦНК МФТИ
29,8
Rating
438
Subscribers
Information
- Rating
- 319-th
- Location
- Москва, Москва и Московская обл., Россия
- Date of birth
- Registered
- Activity
Specialization
Ученый по данным
Стажёр
Нужен выход в интернет с ВПН, чтобы запускать Gemini для первичного распознавания с промптом.
Скрипты собираются в готовое приложение, инструкция была
Есть инструкция, один человек всему научился, который со мной взаимодействовал. Можно легко быстро научить другого, но вроде как у них больше нет в этом потребности (достаточно одного). Все дополнительные вложения - затраты времени этого человека ( он собирал файлы, оформлял договоры, объяснял что и как нужно заполнять, контролировал качество работы) . Никаких подписок и дополнительных устройств не нужно.
Могу больше подробностей в личку. Напишите личное сообщение.
Как действовал Муавр.
Уже из обычных формул сложения:
следует тождество умножения:
Дальше методом математической индукции можно получить:
Именно это мы сейчас называем формулой Муавра (для целых
).
Вы своими комментариями подсказали хорошую идею, как начать вторую статью. Можно начать с разбора, а как люди вообще решали эту проблему. Собственно, Муавр первым придумал явную формулу.
А в геометрической интерпретации решение очевидно.
Вообще в поворотах есть прямой смысл, связанный как раз с исходной задачей, из которой мнимые числа и появились. Как извлечь кубический корень из комплексного числа? Это ведь нужно в формуле Кардано.
Использовали метод неопределенных коэффициентов, а тут есть прямой способ - нужно осуществить трисекцию угла.
Они нужны для начального этапа подбора оборудования.
Больших подробностей я не знаю, так как я не работаю в этой фирме, меня просто наняли, чтобы я помог автоматизировать ручной труд. И все параметры задачи мне объяснили в объеме, достаточном для выполнения задания, а не больше.
Мне за эту шайтан-машину заплатили 100к рублей, а у них за полгода человеко-часы, требуемые для обработки подобных паспортов, ощутимо дороже обходятся. Благодаря Gemini я ее довольно быстро сделал, так что это и мне было весьма выгодно.
А сейчас наняли делать еще один комплекс программ автоматизации их рутины, но там нужны нормальные скрипты, а не шайтан машина: у них просто множество вычислений и обработки данных с датчиков делается в эксель-файлах вручную, нужно сделать несколько скриптов, которые весь этот ручной труд автоматизируют.
Я могу делать и то, и другое, если будет что-то такое нужно - можете обращаться.
На pdf один из возможных вариантов, как они делают эти паспорта. Таблицы могут быть по-другому устроены и иначе расположены. Но, конечно, сильно помогает, что надписи одни и те же используются, технические термины, обозначения.
Не получится, единых стандартов нет, а заказчики все очень разные.
При извлечении таблиц куча сложностей: нужное число может быть под нужным описанием, справа или даже в той же клетке. А в таблице посреди всего этого может стоять логотип, график или рисунок, что тоже затрудняет.
Промпт по извлечению таблиц добился того. чтобы разные данные, написанной в одной и той же клетке таблицы pdf (то есть число и его описание, как правило), попадали все-таки в разные клетки таблицы.
Далее сложности: как правильно во всех случаях считывать именно нужное число, ведь там могут быть другие числа рядом, а еще может перенести в соседнюю таблицу. И для этого как раз LLM придумывает огромную кучу эмпирических правил, опираясь на обратную связь и примеры того, как его правила работают в конкретных случаях.
В этих правилах также используются известные данные о том, в каком диапазоне могут быть числа, какие бывают марки того или иного оборудования и т.п., это всё скармливалось в LLM.
Или, например, оказалось, что во всех образцах паспортов данные не разрываются на странице, то есть если есть данные для чего-то (например, вентилятора), то они все на одной странице находятся, исключений из этого не было. Это позволило использовать информацию о том, с какой страницы извлечена таблица, в этих правилах.
В частных случаях получал. В общем случае нет.
Бомбелли работал уже более системно, он кубические корни из комплексных чисел вычислял. Например, тут описано https://www.ms.uky.edu/~sohum/ma330/files/eqns_4.pdf .
Вторую часть сложнее всего написать. Остальное проще.
Ваш собеседник предлагает вводить через алгебраическую аксиому (как расширение поля), а вы предлагаете сразу вводить поворот. Проблема первого способа в том, что так ничего непонятно, проблема второго в том, что поворот как будто ниоткуда взялся. Я сам третий подход собираюсь показать: комплексные числа появляются в геометрической алгебре.
А как еще решать?
В том то и дело, что сложно придумать алгоритм, но решать как-то надо. LLM может написать такой вот "шайтан-код", на принципе обратной связи, который как-то задачу решает.
Вообще в автоматизации рутины очень много таких задач, которые решить программой довольно сложно, так как нет четко поставленных условий и ясного алгоритма.
Задачи попроще такого рода часто решаются просто прямыми вопросами к LLM, что облегчает людям жизнь. Иногда для этого полезно написать промпт.
А тут пример задачи. где может помочь целая шайтан-машина.
Я думаю, что нужно разработать какой-то подход, например эволюционное программирование + LLM (на эту тему как раз статьи из тех, на какие ссылки в конце текста оставил), который позволит решать подобные задачи.
На АЭС много дублирующих протоколов безопасности, при этом часть из них не слишком надежные. Главное там, чтобы их много было и как минимум некоторые очень надежные.
Ну как в чем, получить деньги от заказчика. Такую задачу непонятно как иначе еще решить можно, там же нет единого формата паспортов.
Более того, думаю, многие задачи автоматизации рутины примерно такие же: их сложно автоматизировать понятным скриптом, вместо общих правил - куча примеров.
Еще LLM может быстро написать код для расчета всяких корреляций и поиска сложных взаимосвязей. Но на самом деле лучше иметь готовый блокнот, где уже это всё нормально написано. Еще есть визуализаторы разные.
Т.е. смотрите.
Измеряли метрику - процент ячеек с ошибками. Там около 1 процента.
При этом строк полностью правильных больше половины, но точно не измеряли. В каждой строке 78 ячеек.
Ошибок при извлечении данных промптом не было, если использовать Gemini. Все ошибки были связаны с несовершенством правил кода.
Но вообще, видимо, LLM нужен как раз такой запутанный промпт для правильного извлечения данных именно потому, что он инструкции не идеально выполнять может.
Там же куча уточняющих правил, получается даже если часть инструкций не выполнилась, за счет избыточности всё работает.
Это интересный вопрос, за счет чего именно удалось сделать так, чтобы LLM перестал забывать те или иные данные с pdf документа.
Но в процессе удлинения промпта самой нейронкой становилось всё лучше, до тех пока не возникла ситуация, в которой все таблицы извлекались без потерь.
Если дать ему промпт короткий, он обязательно что-нибудь не перенесет.
А вот DeepSeek, к примеру, даже с этим промптом извлекал с ошибками, например букву О и цифру 0 путал друг с другом или даже с буквой D. У Gemini таких проблем не было.
Всяких задач по перекладыванию бумажек и заполнению документов, переписыванию чисел из таблицы в таблицу - полным полно.
И LLM в них позволяют и снизить количество требуемого человеческого труда, и даже повысить качество обработки.
Да, именно так. А заказчику нужно максимально быстро и дёшево решить свою конкретную проблему, а не масштабировать, расширять или делать тому подобное.
Это какие модели? У Gemini такой проблемы нет.