Статьи / Профиль dkorzh10 / Хабр

dkorzh10 22 мая в 07:25

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Средний

7 мин

6.6K

Блог компании AIRIИскусственный интеллектМашинное обучение * Математика *

Кейс

Представьте семинар у физиков или математиков. Идёт автоматическая запись лекции, а затем распознавание речи в аккуратный текст. В большинстве мест современные ASR-системы справятся неплохо. Но значительная часть такой записи будет состоять из фраз вроде «интеграл от икс в квадрате до бесконечности», «сумма по i от единицы до n» или «производная по t от функции f».

Формально голос может быть распознан правильно. В расшифровке даже могут появляться отдельные символы вроде +, π или x. Но если человек произносит длинную формулу, результат почти всегда превращается в линейную фразу, читать которую физически больно. Хочется другого: чтобы система сразу понимала, где обычный текст, где математическое выражение, и выдавала не «один делить на икс плюс два», а корректный LaTeX-код, например, \frac{1}{x+2} или \frac{1}{x}+2, в зависимости от смысла.

Эта задача называется Speech-to-LaTeX или S2L: преобразование озвученных математических выражений и предложений в формальную LaTeX-запись. В отличие от обычного speech-to-text, здесь нужно распознать не только слова, но и структуру: дроби, индексы, степени, пределы, суммы, интегралы, скобки, вложенные выражения и границы формул.

Например, фраза «два делить на пи» в обычной расшифровке может остаться как «2 делить на π». Но в LaTeX она должна стать \frac{2}{\pi}. Именно такой формат нужен для статей, учебников, конспектов, Overleaf и других LaTeX-редакторов.

Несмотря на прогресс в automatic speech recognition (ASR), задача прямого преобразования озвученной математики в LaTeX долго оставалась почти неразработанной. Более того, нормальных открытых датасетов с человеческими аудиозаписями для такой задачи практически не было. В нашей работе мы попытались закрыть этот пробел: собрали открытый двуязычный датасет и сравнили несколько подходов к Speech-to-LaTeX. В статье, которую мы представили на ICLR 2026, описан датасет из более чем 66 тысяч человеческих аудиозаписей и 571 тысячи синтетических аудиозаписей на английском и русском языках.

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Голос под защитой. Запускаем хакатон SafeSpeak-2024, посвящённый борьбе с голосовыми дипфейками

Информация