Игорь Воронцов@master_program
Преподаю в МФТИ, МГУ, ЦУ и ВШЭ, сотрудник ЦНК МФТИ
30,3
Рейтинг
438
Подписчики
Информация
- В рейтинге
- 301-й
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Ученый по данным
Стажёр
Ошибочно заполненных ячеек около 1 %.
Там больше половины строк были правильные целиком.
Ну да, на то что нужны было несколько часов вдвоём, а потом ещё сверка и контроль, теперь за 15 минут.
Большинство тут - больше половины. С каждого нужно 78 ячеек.
Человек также нужен в процессе исправления, который происходит быстро.
Ключевая метрика была - процент правильно заполненных ячеек.
В большинстве документов ошибок нет вообще. В среднем заполняется правильно около 99 % ячеек. Это при первом запуске, без проверок и повторных запусков.
Там проблема в очень запутанных и многочисленных правилах определения, какие данные считывать из таблиц и в какие ячейки вставлять. Ведь при распознавании, хотя и удалось добиться безошибочного извлечения всех данных без пропусков, полученные таблицы могут выглядеть сильно по-разному.
Так то функции обработки разных ячеек были разделены, но это не сильно помогает понять полностью, почему это должно так работать.
Человек нужен в этом процессе, просто всё происходит теперь значительно быстрее. Нужен всего лишь один человек (вместо двух), и делается за минуты времени этого человека вместо часов.
Измерялся процент ошибок и возможность их автоматизированного определения и исправления.
OCR не подводил, в книге так и написано. Поэтому и я не обратил внимания своими глазами, я проверил только правильный перенос из книги в LaTeX и его отображение. Так как такое форматирование, присутствующее в некоторых книгах, менее удобно для читателей, теперь буду исправлять.
У меня противоположный подход. Использование ИИ — признак качества сделанных материалов. Могу показать пример моего сайта
Вычислительная математика — Вычислительная математика
Весь сайт написан с помощью LLM. В результате этого работать с ним очень удобно — кладешь документ блокнот юпитер-ноутбук в папку, в нужном месте появляется новая страница. Всё настроено как нужно конкретному пользователю.
Все учебные материалы доведены до текущего очень презентабельного состояния именно с помощью ИИ.
В январе все выйдут.
Кстати говоря, нашел книгу Кардано автобиографическую. https://disk.yandex.ru/i/45pQzUAdh3s99g
Ляпов тут никаких нет. Использование знака корня перед скобками (например, √(ab+c) ) является общепринятым и стандартным в современной математической записи. Другое дело, что массовому читателю это может не понравиться, особенно тому, который не часто это встречал.
Как я и написал, взято это было из популярной книги по истории математики.
Можно, он тут работает.
Тут дело в том, что это кажется нормальным (такие значки корня), потому что в старых книгах часто такое встречается.
Там смысл в том, что переосмысляем сначала обычные числа геометрически. Умножение на положительное число тогда дает растяжение-сжатие, на минус единицу центральное отражение. Тогда мнимая единица дает поворот.
Тут как геометрическая алгебра в
, только не на векторной плоскости, а на числовой. Если же рассматривать двумерную геометрическую алгебру, то комплексная числовая плоскость изображает четную подалгебру в Cl(2,0,0).
В
аналогичная четная подалгебра — дает кватернионы.
Прикол еще в том, Cl(2,0,0) изоморфна алгебре всех вещественных матриц 2 на 2, а Cl(3,0,0) — всех комплексных матриц 2 на 2. Я вообще за то, чтобы популяризировать теорию всех комплексных матриц 2 на 2, как минимум. Там очень много геометрического смысла, и эффективных методов вычислений (например, от любых таких матриц легко считать любые аналитические функции, если знать как, а вот в более сложных случаях уже нет, грубо можно сказать комплексные матрицы 2 на 2 являются объектом максимальной сложности, на котором аналитические функции определены максимально просто — для всех объектов проще есть простые явные формулы для них, а для всех объектов сложнее их уже нет).
Это где переписка математиков поплыли?
Их из исторической книги mathpix-м выдирал, могу переписать их нейронкой.
Надо посмотреть.
Со своей стороны порекомендую Гиндикина "Рассказы о физиках и математиках".
Там про комплексные числа тоже прилично написано.
Для иллюстраций, кстати. Обнаружил, что вместо того, чтобы мучать Gemini, лучше работает связка Дипсик + чатГПТ. Т.е. черновую версию иллюстрации кодом на Питоне делает Дипсик, он это быстро генерирует (Gemini ждать дольше), а потом закидываем в чатГПТ и тот за 2-3 итерации (иногда даже сразу за одну) иллюстрацию доделывает, у него это получается лучше, чем у Gemini.
В данном случае нейронка была нужна для создания единой структуры и множества иллюстраций. К форматированию кавычек и тире я привык давно.
Скормил нейронке кучу книжек, вписал много чего, что нужно сделать, получил от нее версию плана, потом редактировал и добавлял тем еще, так через несколько итераций получил и продумал весь план целиком, ушло несколько часов на него (но тут важно то, что идеи такого цикла были уже давным давно. а весь материал мне известен, иначе бы так быстро не получилось). У меня есть детальный разбор каждого пункта плана, там можно все остальные 6 статей хоть сейчас мгновенно сгенерировать, но качество будет не то. Буду писать как эту первую часть все остальные. К тому же нейронка некоторые темы всё же пропускает, и не совсем то что нужно пишет.
К билдам — научился от нейронки сам недавно, выделения помогают чтению.
В тексте есть куски исторические, они просто выборочно переписаны с исторических книг, цитаты и формулы скопированы из них же.
А остальное — по сути есть в иллюстрациях этих, так что тут текст от нейронки не нужен был совсем. Вот даже это хваленого бота запускал, ничего не находит.
В статье по теории групп я сначала сделал текст от нейронки, потом переписал сам, бот что-то находил всё равно в небольших количествах, хотя это я просто вручную переписал с сохранением смысла своими словами. А тут писал текст сам полностью, признаков ИИ нет совсем.
Видимо, генерировать текст множеством промптов, а потом переписывать, идея не очень. Куда лучше генерировать структуру множеством промптов, чтобы нейронка сложила все нужные идеи в промптах, а также материал из пособий и статей в единую структуру, а потом заполнять самому эту структуру.
Тут не раскрыт вопрос, а почему производная экспоненты такая.
На самом деле можно вывести эту формулу без дифференцирования, используя определение e = lim(1+1/n)^n .
Там получается многоугольник, который стремится к дуге окружности при
Там поправил уже. Верно так
Мы же определили уже, что