Соблюдаем традицию подводить итоги уходящего года. Несмотря на то, что у нас десятки проектов развиваются одновременно, мы решили рассказать о трех, но самых интересных. За каждым из них - большая команда, сотни рабочих часов, десятки гипотез и тестов.

ТОП – 3: Помогли создать самый большой датасет распознавания жестов

В этом году SberDevices представил в открытом доступе огромный датасет для распознавания жестов - HaGRID (Hand Gesture Recognition Image Dataset). Он может быть полезен при создании виртуальных помощников для тех людей, которые используют язык жестов.

В этом проекте мы как собирали, так и размечали данные на нашей платформе Elementary. Задача состояла в том, чтобы подготовить согласно инструкции достаточное количество качественных изображений, т.е. «данных», для дальнейшего обучений нейросетей.

Созданный SberDevices датасет состоит из 552992 элементов, разделённых на 18 классов. В каждом из них примерно по 30 тысяч фото. Изображения — RGB-картинки, преимущественно FullHD (~91% датасета). На них представлены реальные люди, показывающие жесты на камеру. Количество уникальных пользователей в датасете — не менее 34700, при этом набор данных содержит как минимум столько же разнообразных сцен с людьми (различное освещение, расстояние до камеры и положение кистей относительно человека). Датасет в равных пропорциях распределён по полу (число женщин лишь немногим больше мужчин), а возраст исполнителей — от 18 до 60 лет.

ТОП-2: Усовершенствовали процессы разработки скриптов

В течение года мы занимались разработкой различных сервисов, которые могли бы освободить человеческие р��сурсы от рутинных процессов. Один из таких проектов решал нашу внутреннюю задачу по разработке скриптов. Об этом проекте мы недавно рассказали в этой статье. Автоматический генератор скриптов помогает нам значительно экономить время.

ТОП-1: Добавили больше эмпатии голосовому роботу

В этом году мы продолжили совершенствовать робота. Теперь он может точнее  распознавать эмоции в диалоге, быстрее реагировать в нестандартных ситуациях, произносить фразы с «живой» интонацией и т.д. Наша модель определяет эмоцию по голосу абонента без опоры на распознавание речи.

Еще мы собрали команду аналитиков и методологов, которые используя наш собственный сервис речевой аналитики создавали, анализировали и меняли логику диалогов до тех пор, пока не получали наилучший эффект от звонков робота. Так, в одном из NPS–опросов с участием 250 тысяч респондентов, каждый второй абонент, до которого мы дозвонились, прошел анкету до конца.

Всего же в этом году мы создали более 130 новых скриптов, а количество минут разговоров нашего робота увеличилось на 40%.

Чтобы голос робота звучал естественно, несколько месяцев наши дикторы занимались с педагогом по сценической речи и актерскому мастерству.

Подводя итоги, скажем честно: как обычно, год был не простым, но продуктивным. Загадываем в следующем году всем еще больше интересных проектов, профессиональных побед и красивого кода.

С наступающим!