Обновить
4K+
2
Дмитрий Корж@dkorzh10

Пользователь

1
Рейтинг
Отправить сообщение

Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.6K

Представьте семинар у физиков или математиков. Идёт автоматическая запись лекции, а затем распознавание речи в аккуратный текст. В большинстве мест современные ASR-системы справятся неплохо. Но значительная часть такой записи будет состоять из фраз вроде «интеграл от икс в квадрате до бесконечности», «сумма по i от единицы до n» или «производная по t от функции f».

Формально голос может быть распознан правильно. В расшифровке даже могут появляться отдельные символы вроде +, π или x. Но если человек произносит длинную формулу, результат почти всегда превращается в линейную фразу, читать которую физически больно. Хочется другого: чтобы система сразу понимала, где обычный текст, где математическое выражение, и выдавала не «один делить на икс плюс два», а корректный LaTeX-код, например, \frac{1}{x+2} или \frac{1}{x}+2, в зависимости от смысла.

Эта задача называется Speech-to-LaTeX или S2L: преобразование озвученных математических выражений и предложений в формальную LaTeX-запись. В отличие от обычного speech-to-text, здесь нужно распознать не только слова, но и структуру: дроби, индексы, степени, пределы, суммы, интегралы, скобки, вложенные выражения и границы формул.

Например, фраза «два делить на пи» в обычной расшифровке может остаться как «2 делить на π». Но в LaTeX она должна стать \frac{2}{\pi}. Именно такой формат нужен для статей, учебников, конспектов, Overleaf и других LaTeX-редакторов.

Несмотря на прогресс в automatic speech recognition (ASR), задача прямого преобразования озвученной математики в LaTeX долго оставалась почти неразработанной. Более того, нормальных открытых датасетов с человеческими аудиозаписями для такой задачи практически не было. В нашей работе мы попытались закрыть этот пробел: собрали открытый двуязычный датасет и сравнили несколько подходов к Speech-to-LaTeX. В статье, которую мы представили на ICLR 2026, описан датасет из более чем 66 тысяч человеческих аудиозаписей и 571 тысячи синтетических аудиозаписей на английском и русском языках. 

Читать далее

Голос под защитой. Запускаем хакатон SafeSpeak-2024, посвящённый борьбе с голосовыми дипфейками

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.2K

Всем привет! Как и многие читатели Хабра (надеемся), мы в AIRI и МТУСИ терпеть не можем телефонных мошенников. К сожалению, с каждым годом арсенал их методов расширяется. А в связи с развитием и удешевлением ML‑решений в руках мошенников появляются предобученные модели синтеза речи и преобразования голоса.

ML‑сообщество, конечно же, активизировалось для борьбы с этой и другими проблемами, связанными с распространениями голосовых подделок. Чтобы привлечь к решению задач безопасности голосовой коммуникации больше исследователей, наша команда решила провести хакатон SafeSpeak-2024, посвящённый разработке технологий обнаружения аудио‑спуфинга, и нацеленный на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.

Подробности — в тексте ниже.

Читать далее

Информация

В рейтинге
1 910-й
Зарегистрирован
Активность