Представьте семинар у физиков или математиков. Идёт автоматическая запись лекции, а затем распознавание речи в аккуратный текст. В большинстве мест современные ASR-системы справятся неплохо. Но значительная часть такой записи будет состоять из фраз вроде «интеграл от икс в квадрате до бесконечности», «сумма по i от единицы до n» или «производная по t от функции f».

Формально голос может быть распознан правильно. В расшифровке даже могут появляться отдельные символы вроде +, π или x. Но если человек произносит длинную формулу, результат почти всегда превращается в линейную фразу, читать которую физически больно. Хочется другого: чтобы система сразу понимала, где обычный текст, где математическое выражение, и выдавала не «один делить на икс плюс два», а корректный LaTeX-код, например, \frac{1}{x+2} или \frac{1}{x}+2, в зависимости от смысла.

Эта задача называется Speech-to-LaTeX или S2L: преобразование озвученных математических выражений и предложений в формальную LaTeX-запись. В отличие от обычного speech-to-text, здесь нужно распознать не только слова, но и структуру: дроби, индексы, степени, пределы, суммы, интегралы, скобки, вложенные выражения и границы формул.

Например, фраза «два делить на пи» в обычной расшифровке может остаться как «2 делить на π». Но в LaTeX она должна стать \frac{2}{\pi}. Именно такой формат нужен для статей, учебников, конспектов, Overleaf и других LaTeX-редакторов.

Несмотря на прогресс в automatic speech recognition (ASR), задача прямого преобразования озвученной математики в LaTeX долго оставалась почти неразработанной. Более того, нормальных открытых датасетов с человеческими аудиозаписями для такой задачи практически не было. В нашей работе мы попытались закрыть этот пробел: собрали открытый двуязычный датасет и сравнили несколько подходов к Speech-to-LaTeX. В статье, которую мы представили на ICLR 2026, описан датасет из более чем 66 тысяч человеческих аудиозаписей и 571 тысячи синтетических аудиозаписей на английском и русском языках. 

Постановка задачи

Распознавание математической речи имеет несколько принципиальных трудностей, с которыми обычный speech-to-text сталкивается намного реже.

Во-первых, такая речь сама по себе редкая. В данных для обучения ASR обычно много бытовой речи, интервью, подкастов, новостей, диалогов, но мало лекций, где кто-то последовательно произносит длинные формулы.

Во-вторых, математическая речь структурно сложнее. В ней есть вложенные конструкции: дробь внутри суммы, степень внутри интеграла, индекс у переменной, предел у последовательности. Человеку легко сказать это линейно, но системе нужно восстановить двумерную иерархическую структуру.

В-третьих, математическая речь часто неоднозначна. Фраза «икс плюс один в квадрате» может означать (x+1)^2 или x+1^2, хотя человек обычно понимает правильный вариант из контекста и интонации. В реальной лекции часть информации вообще находится не в аудио, а на слайде, доске или в уже написанной формуле.

В-четвёртых, система должна понимать, когда человек просто говорит, а когда произносит формулу. В предложении «мы получаем, что энергия равна m c квадрат» нужно сохранить обычный текст и одновременно правильно оформить математическую часть.

Сбор датасета

До нашей работы существующие решения покрывали эту задачу лишь частично. Например, MathBridge был полезен для Text-to-LaTeX: там есть формулы, контекст и текстовое произношение, но не человеческое аудио. MathSpeech предложил post-correction pipeline: сначала ASR делает транскрипт, затем языковая модель переводит его в LaTeX. Однако этот подход был ориентирован в основном на изолированные выражения, использовал ограниченный тестовый набор и не давал полноценного открытого обучающего датасета с человеческой речью. 

Мы пошли дальше и собрали датасет, в котором есть как отдельные формулы, так и математические предложения с формулами внутри. В работе используются два поднабора: S2L-equations для изолированных выражений и S2L-sentences для предложений, где формулы встроены в обычный текст. Всего в человеческой части датасета около 12 тысяч уникальных математических предложений и 10,7 тысячи отдельных уравнений; каждый пример мог быть озвучен несколькими людьми, всего участвовали 33 аннотатора. 

Человеческие записи собирались через платформу разметки. Добровольцам показывали формулу или предложение и просили озвучить его. Это важно: чем больше разных голосов, акцентов, темпов речи и способов произнесения, тем лучше модель должна обобщаться на новых пользователей. После этого датасет был расширен синтетическими аудиозаписями: мы использовали TTS и voice conversion, чтобы увеличить объём данных без пропорционального роста стоимости разметки. 

Отдельно пришлось заниматься нормализацией LaTeX. Одна и та же формула может быть записана разными способами: \sum_i^n i и \sum_{i}^{n}i, \frac{ n( n+1 ) }{ 2 } и \frac{n(n+1)}{2}. Для человека это почти одно и то же, но посимвольная метрика увидит большую разницу. Поэтому формулы нормализовывались: убирались лишние пробелы, унифицировались скобки, операторы и структура выражений.

Эксперименты

Мы сравнили два основных подхода.

Первый — ASR post-correction. Здесь аудио сначала прогоняется через обычную ASR-модель, например Whisper-Large v3. На выходе получается текстовая расшифровка произнесённой формулы. Затем отдельная LLM преобразует эту расшифровку в LaTeX. Для этого мы использовали модели семейства Qwen2.5 и Qwen2.5-Math разных размеров: 0.5B, 1.5B и 7B. Часть моделей дообучалась, часть проверялась в few-shot режиме. Простой ASR без коррекции оказался недостаточным: на английском S2L-equations Whisper-Large v3 давал около 88% CER, то есть практически не решал задачу LaTeX-транскрипции.

Post-correction практичен тем, что опирается на уже сильные ASR-модели и сравнительно небольшие LLM. В реальном продукте это может быть оптимальным компромиссом: модели на 0.5–1.5B параметров значительно легче развернуть, чем большие мультимодальные системы, а качество уже становится заметно лучше, чем у ASR-only подхода.

Второй подход — end-to-end Audio-LLM. В этом случае система не строит промежуточный текстовый транскрипт, а напрямую получает аудио и генерирует LaTeX. Мы тестировали несколько мультимодальных моделей, включая SALMONN-13B, Gemma-3n, Audio Flamingo-3 и Qwen-Audio. В такой архитектуре аудио сначала кодируется аудиоэнкодерами, затем адаптер приводит аудиопризнаки к формату, совместимому с LLM, после чего модель генерирует LaTeX. Для дообучения использовалась LoRA; аудиоэнкодеры и адаптеры при этом замораживались. 

Рис. 1. Схематическая иллюстрация методов S2L. (A) Пост-коррекция. (B) Мультимодальный end-to-end подход SALMONN. В (A) аудио транскрибируется ASR-моделью, после чего результат передаётся в LLM для преобразования в LaTeX. В (B) сырое аудио обрабатывается двумя аудиоэнкодерами и адаптером, а полученные аудиотокены вместе с текстовыми токенами промпта подаются в LLM на основе LLaMA для генерации LaTeX.
Рис. 1. Схематическая иллюстрация методов S2L. (A) Пост-коррекция. (B) Мультимодальный end-to-end подход SALMONN. В (A) аудио транскрибируется ASR-моделью, после чего результат передаётся в LLM для преобразования в LaTeX. В (B) сырое аудио обрабатывается двумя аудиоэнкодерами и адаптером, а полученные аудиотокены вместе с текстовыми токенами промпта подаются в LLM на основе LLaMA для генерации LaTeX.

По качеству лучше всего себя показал end-to-end подход, особенно SALMONN-13B. На нашем английском S2L-equations benchmark SALMONN достиг 17.5% CER, тогда как сильный post-correction вариант на Qwen2.5-0.5B после нормализации давал около 27.2%. Для сравнения, MathSpeech на нашем бенчмарке после дополнительной нормализации показал 64.0% CER. При этом на самом MathSpeech benchmark наши модели были сопоставимы с MathSpeech: 27.7% у MathSpeech, 30.0% у Qwen и 27.7% у SALMONN.

На задаче S2L-sentences, где формулы встроены в обычные предложения, качество ожидаемо ниже. Это более трудная постановка: нужно распознать не только формулу, но и её границы внутри текста. Лучший результат снова показал SALMONN: около 39.7% CER на формульной части предложений и около 9.6% CER на обычной текстовой части. Это хорошо показывает, что обычный текст модели уже распознают значительно лучше, а основная сложность остаётся именно в математической структуре. 

Выводы

Приведённые числа нельзя интерпретировать так же прямолинейно, как обычную ошибку в ASR. В LaTeX даже семантически правильное предсказание может получить большую посимвольную ошибку, если модель выбрала чуть другую, но эквивалентную запись. Например, \int_{a}^{b} f(x) dx и \int_a^b f(x)dx означают одно и то же, но отличаются как строки. Дополнительные сложности создают регистр, стили шрифтов, скобки и разные допустимые LaTeX-команды. Поэтому мы использовали нормализацию и специальные метрики, но полностью решить проблему оценки качества здесь пока нельзя. 

Тем не менее, результаты показывают, что задача уже технически решаема в первом приближении. Большинство предсказанных формул у лучших моделей компилируются в LaTeX; в нашей работе указано, что доля успешно компилируемых предсказаний находится примерно в диапазоне 98–99.5%, а основные сбои связаны со скобками. 

Ограничения при этом остаются серьёзными. 30–40% ошибки на формульной части —  всё ещё много. Нельзя сказать, что Speech-to-LaTeX уже решён. В реальной лекции человек часто не произносит всю структуру формулы, указывает на доску, говорит «вот это выражение», возвращается к предыдущей строке или использует визуальный контекст. Наши данные лучше предыдущих решений, но всё равно не полностью воспроизводят реальные условия лекционной записи. Для практического применения на семинарах и лекциях, скорее всего, потребуется добавлять визуальный канал и увеличивать доступный контекст. 

Зато для более ограниченных сценариев технология уже выглядит перспективно. Например, её можно использовать для голосового ввода формул в Overleaf, для черновиков научных заметок, для автоматической подготовки конспектов, для образовательных ассистентов и для интерфейсов, где человеку неудобно набирать LaTeX руками.

Отдельная ценность работы — сам датасет. Он полностью открыт, двуязычен, содержит как человеческую, так и синтетическую речь, покрывает изолированные уравнения и предложения с формулами. Его можно использовать не только для Speech-to-LaTeX, но и для других речевых задач: распознавания речи в научном домене, language detection, voice biometrics, анализа устойчивости ASR, а также, потенциально, для voice anti-spoofing.

Итог простой: мы не решили Speech-to-LaTeX окончательно, но сделали важный шаг. Мы собрали открытый датасет, предложили первые сильные baseline-модели, показали, что end-to-end Audio-LLM действительно может напрямую генерировать LaTeX из аудио, и обозначили, что именно мешает таким системам стать практически надёжными.

Код и демо: https://github.com/dkorzh10/speech2latex 

Датасет: https://huggingface.co/datasets/marsianin500/Speech2Latex 

Текст статьи: https://arxiv.org/abs/2508.03542