Игорь Воронцов@master_program
Преподаю в МФТИ, МГУ, ЦУ и ВШЭ, сотрудник ЦНК МФТИ
13
Rating
460
Subscribers
Information
- Rating
- 586-th
- Location
- Москва, Москва и Московская обл., Россия
- Date of birth
- Registered
- Activity
Specialization
Ученый по данным
Стажёр
Судя по всему, написанного в статье и в комментариях, ему достаточно, чтобы понять, что задача решается точно также, как задача с конусом, только момент инерции другой. Задачи с конусами он решать умеет (такого в обучающей выборке полным полно), считать моменты инерции тоже, если четко прописано, что и относительно чего (при подготовке этой статьи LLM постоянно ошибались с расчетом момента инерции, потому что не могли понять, относительно чего и как надо считать, а тут просто случай как с конусом).
Я специально не выкладывал правильного решения, чтобы LLM не научились ее решать.
Видимо, ему оказалось достаточно разбора ошибок.
По вашей ссылке правильное решение и ответ.
Нет, в феврале. Я делаю паузу сейчас, полно других дел появилось.
Вторую часть вчера дописал и отложил на 7 февраля, она в 2 раза больше первой вышла и концептуально сложнее.
К остальному вернусь в начале февраля.
Цикл про комплексные числа — в каком-то смысле продолжение. Это дополнение к математическому анализу, я буду там ссылаться на этот цикл тоже.
Вторую часть теории групп собираюсь скоро дописать.
Да, плюс конкретно у Gemini очень хорошая встроенная работа с изображениями.
Дипсик для описываемых целей непригоден, например.
И любая теория в физике, начиная с Ньютона, на категориальном уровне именно так и устроена (состояния, переходы и операторы).
Различие есть только между "монадами" (отдельными объектами) и полями. Первые описываются как объекты, имеющие небольшое число степеней свободы и свое пространство состояний, а вторые - клеточные автоматы.
Кусочек промпта могу показать (там такого несколько страниц).
Изнутри весь вопрос сводится к методу обратной связи, промпт пишет сама LLM.
И последнее, насчет OCR. На данный момент любые OCR работают гораздо хуже, чем Gemini 3.0, в задаче распознавания изображений, и чем другие современные LLM.
Это касается даже очень узкоспециализированных задач. Например, есть Mathpix, специализированный инструмент для обработки текста (превращает текст и формулы с изображений в LaTeX и ворд). Если сравнить качество его работы с Gemini 3.0, оно намного хуже. В случаях написания текста плохим почерком, или сканов старых книг, Mathpix допускает очень много ошибок, а Gemini 3.0 работает практически идеально.
Главная проблема не в распознавании. Она в другом - так как таблицы разные все, сделаны по разным форматам, а еще при извлечении данных таблица может превратиться в две, или наоборот, две в одну, то непонятно, как сделать единое правило, которое позволяет определить, как именно заполнить ту или иную ячейку.
Человеку это понятно по пониманию контекста, а машина его не понимает.
Если бы документы были все +- одинаковые, то правила были бы достаточно простые и ошибок бы вообще не возникало.
"Мне представляется, что из этих 1% ошибок (уверен, что их больше), о которых вы говорите, львиная доля порождается фундаментальной рандомностью нейросети и влиянием контекста на вывод. "
Как ни странно, вообще 0. То есть не было ни разу ошибок извлечения табличных данных из pdf. Все ошибки порождены неидеальностью скрипта.
Вы написали длинное сообщение об ошибках, которые у меня не появляются вообще. Промпт идеально работает. Я думаю, причина в многократной избыточности инструкций этого промпта.
Можно попробовать Gemini как раз, у него длинный контекст. Или платный ChatGPT.
В МФТИ я как раз вычислительную математику преподаю. https://toomanydigits.online/ . Можете посмотреть мой сайт.
Нет. Просто промпты пишу. Там 78 ячеек надо заполнить, а я за раз прошу от 1 до 4-5 дописать алгоритм заполнения и меняю строго этот участок кода.
Сначала сгружаю всю доступную информацию про эти ячейки и примеры таблиц, и что надо было заполнить и куда с них. Ллм присылает функцию. Затем тестирую, вижу в части случаев заполняет не то. Присылаю ему скрины из ворд файла и прошу переделать функцию, но так, чтобы больше ничего не сломалось (прикрепляю также примеры правильной работы). Он тогда дописывает дополнительных правил в функцию.
И так до тех пор, пока эти от 1 до 4-5 ячеек не станут правильно работать на всех моих примерах. Затем следующие. Так все 78 ячеек правильно заполняет.
А потом ещё от заказчика приходят ещё примеры, на которых не работает что-то. Снова дорабатываем. Если на каких-то прошлых примерах работать перестало как надо - тоже сообщаю в LLM, он переделывает код функции.
Ценность решения измеряется не красотой кода и безошибочностью, а количеством экономии человеко-часов специалистов в год.
Нужен выход в интернет с ВПН, чтобы запускать Gemini для первичного распознавания с промптом.
Скрипты собираются в готовое приложение, инструкция была
Есть инструкция, один человек всему научился, который со мной взаимодействовал. Можно легко быстро научить другого, но вроде как у них больше нет в этом потребности (достаточно одного). Все дополнительные вложения - затраты времени этого человека ( он собирал файлы, оформлял договоры, объяснял что и как нужно заполнять, контролировал качество работы) . Никаких подписок и дополнительных устройств не нужно.
Могу больше подробностей в личку. Напишите личное сообщение.
Как действовал Муавр.
Уже из обычных формул сложения:
следует тождество умножения:
Дальше методом математической индукции можно получить:
Именно это мы сейчас называем формулой Муавра (для целых
).
Вы своими комментариями подсказали хорошую идею, как начать вторую статью. Можно начать с разбора, а как люди вообще решали эту проблему. Собственно, Муавр первым придумал явную формулу.
А в геометрической интерпретации решение очевидно.
Вообще в поворотах есть прямой смысл, связанный как раз с исходной задачей, из которой мнимые числа и появились. Как извлечь кубический корень из комплексного числа? Это ведь нужно в формуле Кардано.
Использовали метод неопределенных коэффициентов, а тут есть прямой способ - нужно осуществить трисекцию угла.
Они нужны для начального этапа подбора оборудования.
Больших подробностей я не знаю, так как я не работаю в этой фирме, меня просто наняли, чтобы я помог автоматизировать ручной труд. И все параметры задачи мне объяснили в объеме, достаточном для выполнения задания, а не больше.
Мне за эту шайтан-машину заплатили 100к рублей, а у них за полгода человеко-часы, требуемые для обработки подобных паспортов, ощутимо дороже обходятся. Благодаря Gemini я ее довольно быстро сделал, так что это и мне было весьма выгодно.
А сейчас наняли делать еще один комплекс программ автоматизации их рутины, но там нужны нормальные скрипты, а не шайтан машина: у них просто множество вычислений и обработки данных с датчиков делается в эксель-файлах вручную, нужно сделать несколько скриптов, которые весь этот ручной труд автоматизируют.
Я могу делать и то, и другое, если будет что-то такое нужно - можете обращаться.
На pdf один из возможных вариантов, как они делают эти паспорта. Таблицы могут быть по-другому устроены и иначе расположены. Но, конечно, сильно помогает, что надписи одни и те же используются, технические термины, обозначения.