Pull to refresh

ВКонтакте запустила в видео автоматические субтитры на базе собственных технологий распознавания речи

Reading time2 min
Views2.7K

Команда ВКонтакте рассказала, что после обновления в видеоплеере социальной сети появилась возможность включить субтитры на русском языке, которые генерируются автоматически при помощи собственных технологий компании. В частности, речь идет о распознавании речи, алгоритмах машинного обучения и шумоподавлении.

Особенностью функции является наличие знаков препинания и заглавных букв в тексте субтитров. В перспективе технология будет разносить слова говорящих на разные реплики. 

Ограниченное число пользователей уже сейчас может воспользоваться новой функции при просмотре некоторых видео из верифицированных пабликов. Демонстрация субтитров запущена в тестовом режиме. Компания поясняет, что данная функция будет полезна для людей с проблемами слуха, а также тем, кто не может посмотреть видеоролик со звуком.

Расшифровка субтитров проходит в четыре этапа. Первоначально при помощи технологии интеллектуального шумоподавления звуковая дорожка видео очищается от фоновых шумов, причем даже в любительских роликах. Затем нейросеть преобразовывает слова в текст. После этого пунктуационная модель проставляет в тексте знаки препинания и прописные буквы. На последнем этапе технология машинного обучения распределяет текст по кадрам.

За счет высокой производительности субтитры к новым видео будут генерироваться максимально быстро, сказано в пресс-релизе ВКонтакте. С помощью технологии диаризации реплики разных спикеров в стенограмме будут разделены, даже если между фразами нет заметных пауз.

До конца года функция добавления автоматических субтитров будет доступна в большинстве видео. 

Автогенерация субтитров в соцсети работает на базе собственных разработок ВКонтакте, говорит технический директор компании Александр Тоболь. Он рассказал, что для новой функции была усовершенствована технология распознавания речи. В будущем команда социальной сети будет развивать нейросети и интегрирует машинное обучения в остальных сервисах ВКонтакте. 

Летом 2020 года компания запустила функцию распознавания голосовых сообщений длительностью до 30 секунд. С весны 2021 года у пользователей появилась расшифровать уже 60 минутные аудиосообщения.

В начале месяца ВКонтакте удалось добиться ускорения старта видео в 1,5 раза при помощи расширения геораспределенной сети доставки контента и разработке собственного решения для маршрутизации. Команда компании снизила число буферизаций и повысила качество потоковых видео на 20 %.

Ранее ВКонтакте заявила, что начала применять в своей инфраструктуре собственную разработку технологии передачи данных на основе протокола QUIC. Данное решение сокращает время передачи контента в 1,5-2 раза без потери качества.

Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
Total votes 4: ↑4 and ↓0+4
Comments0

Other news