Pull to refresh
82
28
Илья Оводов @iovodov

Программист-аналитик в области CV

Send message

Жестовый язык: похожее в непохожем и наоборот

Level of difficultyMedium
Reading time9 min
Views1.5K

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. 

Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.

Читать далее

Какой трансформер в океане плавает быстрее всех? Тестируем скорость нейросетей для видео-энкодеров

Level of difficultyMedium
Reading time10 min
Views2K

Одно из направлений работы нашей команды компьютерного зрения Vision RnD в SberDevices — распознавание жестового языка. Об этой задаче и о том, как мы ее решаем, мы уже писали на Хабре тут и тут (а еще тут и тут). Некоторое время назад перед нами встал вопрос выбора архитектуры нейросети для быстрой и качественной обработки изображений (видео‑энкодера). Хотя сама задача распознавания жестового языка предполагает обработку видео, в качестве первого этапа нужна нейросеть, обрабатывающая изображения на отдельных кадрах. Причем делающая это достаточно быстро, чтобы обеспечить работу всей конструкции в реальном времени. Безусловно, за последний десяток лет человечеству стало известно немало архитектур нейросетей для обработки изображений. Однако, сопоставить их по критерию цена‑качество точность‑производительность и выбрать лидера не так просто. Мы решили собрать несколько популярных решений‑претендентов на звание чемпиона и провести состязание в славном городе Гамбурге тестирование в идентичных условиях. Результатами этого исследования делимся под катом.

Читать далее

Система распознавания шрифта Брайля. Читаем написанное белым по белому

Reading time13 min
Views13K

В 2018 году мы взяли из детдома в семью слепую девочку Анжелу. Тогда я думал, что это чисто семейное обстоятельство, никак не связанное с моей профессией разработчика систем компьютерного зрения. Но благодаря дочери через два года появилась программа и интернет-сервис для распознавания текстов, написанных шрифтом Брайля - Angelina Braille Reader.

Сейчас этот сервис используют сотни людей и в России, и за ее пределами. Тема оказалась хайповой, сюжет о программе даже показали в федеральных новостях на ТВ. Но что важнее - за свою многолетнюю карьеру в ИТ ни в одном проекте я не получал столько искренних благодарностей от пользователей.

Ниже расскажу о том, как делалась эта разработка и с какими трудностями пришлось столкнуться. Более развернутое описание приведено в публикациях [1,2].

Возможно, кто-то захочет внести в проект свой вклад.

Читать далее

Как подружить PyTorch и C++. Используем TorchScript

Reading time12 min
Views22K

Около года назад разработчики PyTorch представили сообществу TorchScript — инструмент, который позволяет с помощью пары строк кода и нескольких щелчков мыши сделать из пайплайна на питоне отчуждаемое решение, которое можно встроить в систему на C++. Ниже я делюсь опытом его использования и постараюсь описать встречающиеся на этом пути подводные камни. Особенное внимание уделю реализации проекта на Windows, поскольку, хотя исследования в ML обычно делаются на Ubuntu, конечное решение часто (внезапно!) требуется под "окошками".


Примеры кода для экспорта модели и проекта на C++, использующего модель, можно найти в репозиториии на GitHub.


Читать дальше →

Information

Rating
419-th
Location
Зеленоград, Москва и Московская обл., Россия
Registered
Activity