Pull to refresh
16K+
211
Игорь Воронцов@master_program

Преподаю в МФТИ, МГУ, ЦУ и ВШЭ, сотрудник ЦНК МФТИ

13
Rating
460
Subscribers
Send message

Судя по всему, написанного в статье и в комментариях, ему достаточно, чтобы понять, что задача решается точно также, как задача с конусом, только момент инерции другой. Задачи с конусами он решать умеет (такого в обучающей выборке полным полно), считать моменты инерции тоже, если четко прописано, что и относительно чего (при подготовке этой статьи LLM постоянно ошибались с расчетом момента инерции, потому что не могли понять, относительно чего и как надо считать, а тут просто случай как с конусом).

Я специально не выкладывал правильного решения, чтобы LLM не научились ее решать.

Видимо, ему оказалось достаточно разбора ошибок.

По вашей ссылке правильное решение и ответ.

Нет, в феврале. Я делаю паузу сейчас, полно других дел появилось.

Вторую часть вчера дописал и отложил на 7 февраля, она в 2 раза больше первой вышла и концептуально сложнее.

К остальному вернусь в начале февраля.

Цикл про комплексные числа — в каком-то смысле продолжение. Это дополнение к математическому анализу, я буду там ссылаться на этот цикл тоже.

Вторую часть теории групп собираюсь скоро дописать.

Да, плюс конкретно у Gemini очень хорошая встроенная работа с изображениями.

Дипсик для описываемых целей непригоден, например.

И любая теория в физике, начиная с Ньютона, на категориальном уровне именно так и устроена (состояния, переходы и операторы).

Различие есть только между "монадами" (отдельными объектами) и полями. Первые описываются как объекты, имеющие небольшое число степеней свободы и свое пространство состояний, а вторые - клеточные автоматы.

Кусочек промпта могу показать (там такого несколько страниц).

Изнутри весь вопрос сводится к методу обратной связи, промпт пишет сама LLM.

И последнее, насчет OCR. На данный момент любые OCR работают гораздо хуже, чем Gemini 3.0, в задаче распознавания изображений, и чем другие современные LLM.

Это касается даже очень узкоспециализированных задач. Например, есть Mathpix, специализированный инструмент для обработки текста (превращает текст и формулы с изображений в LaTeX и ворд). Если сравнить качество его работы с Gemini 3.0, оно намного хуже. В случаях написания текста плохим почерком, или сканов старых книг, Mathpix допускает очень много ошибок, а Gemini 3.0 работает практически идеально.

Главная проблема не в распознавании. Она в другом - так как таблицы разные все, сделаны по разным форматам, а еще при извлечении данных таблица может превратиться в две, или наоборот, две в одну, то непонятно, как сделать единое правило, которое позволяет определить, как именно заполнить ту или иную ячейку.

Человеку это понятно по пониманию контекста, а машина его не понимает.

Если бы документы были все +- одинаковые, то правила были бы достаточно простые и ошибок бы вообще не возникало.

"Мне представляется, что из этих 1% ошибок (уверен, что их больше), о которых вы говорите, львиная доля порождается фундаментальной рандомностью нейросети и влиянием контекста на вывод. "

Как ни странно, вообще 0. То есть не было ни разу ошибок извлечения табличных данных из pdf. Все ошибки порождены неидеальностью скрипта.

Вы написали длинное сообщение об ошибках, которые у меня не появляются вообще. Промпт идеально работает. Я думаю, причина в многократной избыточности инструкций этого промпта.

Можно попробовать Gemini как раз, у него длинный контекст. Или платный ChatGPT.

В МФТИ я как раз вычислительную математику преподаю. https://toomanydigits.online/ . Можете посмотреть мой сайт.

Нет. Просто промпты пишу. Там 78 ячеек надо заполнить, а я за раз прошу от 1 до 4-5 дописать алгоритм заполнения и меняю строго этот участок кода.

Сначала сгружаю всю доступную информацию про эти ячейки и примеры таблиц, и что надо было заполнить и куда с них. Ллм присылает функцию. Затем тестирую, вижу в части случаев заполняет не то. Присылаю ему скрины из ворд файла и прошу переделать функцию, но так, чтобы больше ничего не сломалось (прикрепляю также примеры правильной работы). Он тогда дописывает дополнительных правил в функцию.

И так до тех пор, пока эти от 1 до 4-5 ячеек не станут правильно работать на всех моих примерах. Затем следующие. Так все 78 ячеек правильно заполняет.

А потом ещё от заказчика приходят ещё примеры, на которых не работает что-то. Снова дорабатываем. Если на каких-то прошлых примерах работать перестало как надо - тоже сообщаю в LLM, он переделывает код функции.

Ценность решения измеряется не красотой кода и безошибочностью, а количеством экономии человеко-часов специалистов в год.

  1. Нужен выход в интернет с ВПН, чтобы запускать Gemini для первичного распознавания с промптом.

  2. Скрипты собираются в готовое приложение, инструкция была

  3. Есть инструкция, один человек всему научился, который со мной взаимодействовал. Можно легко быстро научить другого, но вроде как у них больше нет в этом потребности (достаточно одного). Все дополнительные вложения - затраты времени этого человека ( он собирал файлы, оформлял договоры, объяснял что и как нужно заполнять, контролировал качество работы) . Никаких подписок и дополнительных устройств не нужно.

  4. Могу больше подробностей в личку. Напишите личное сообщение.

Как действовал Муавр.

Уже из обычных формул сложения:

\cos (\alpha+\beta)=\cos \alpha \cos \beta-\sin \alpha \sin \beta, \quad \sin (\alpha+\beta)=\sin \alpha \cos \beta+\cos \alpha \sin \beta

следует тождество умножения:

(\cos \alpha+i \sin \alpha)(\cos \beta+i \sin \beta)=\cos (\alpha+\beta)+i \sin (\alpha+\beta)

Дальше методом математической индукции можно получить:

(\cos \theta+i \sin \theta)^n=\cos (n \theta)+i \sin (n \theta) .

Именно это мы сейчас называем формулой Муавра (для целых n ).

Вы своими комментариями подсказали хорошую идею, как начать вторую статью. Можно начать с разбора, а как люди вообще решали эту проблему. Собственно, Муавр первым придумал явную формулу.

А в геометрической интерпретации решение очевидно.

Вообще в поворотах есть прямой смысл, связанный как раз с исходной задачей, из которой мнимые числа и появились. Как извлечь кубический корень из комплексного числа? Это ведь нужно в формуле Кардано.

Использовали метод неопределенных коэффициентов, а тут есть прямой способ - нужно осуществить трисекцию угла.

Они нужны для начального этапа подбора оборудования.

Больших подробностей я не знаю, так как я не работаю в этой фирме, меня просто наняли, чтобы я помог автоматизировать ручной труд. И все параметры задачи мне объяснили в объеме, достаточном для выполнения задания, а не больше.

Мне за эту шайтан-машину заплатили 100к рублей, а у них за полгода человеко-часы, требуемые для обработки подобных паспортов, ощутимо дороже обходятся. Благодаря Gemini я ее довольно быстро сделал, так что это и мне было весьма выгодно.

А сейчас наняли делать еще один комплекс программ автоматизации их рутины, но там нужны нормальные скрипты, а не шайтан машина: у них просто множество вычислений и обработки данных с датчиков делается в эксель-файлах вручную, нужно сделать несколько скриптов, которые весь этот ручной труд автоматизируют.

Я могу делать и то, и другое, если будет что-то такое нужно - можете обращаться.

На pdf один из возможных вариантов, как они делают эти паспорта. Таблицы могут быть по-другому устроены и иначе расположены. Но, конечно, сильно помогает, что надписи одни и те же используются, технические термины, обозначения.

Information

Rating
586-th
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Ученый по данным
Стажёр