Соблюдаем традицию подводить итоги уходящего года. Несмотря на то, что у нас десятки проектов развиваются одновременно, мы решили рассказать о трех, но самых интересных. За каждым из них - большая команда, сотни рабочих часов, десятки гипотез и тестов.
ТОП – 3: Помогли создать самый большой датасет распознавания жестов
В этом году SberDevices представил в открытом доступе огромный датасет для распознавания жестов - HaGRID (Hand Gesture Recognition Image Dataset). Он может быть полезен при создании виртуальных помощников для тех людей, которые используют язык жестов.
В этом проекте мы как собирали, так и размечали данные на нашей платформе Elementary. Задача состояла в том, чтобы подготовить согласно инструкции достаточное количество качественных изображений, т.е. «данных», для дальнейшего обучений нейросетей.
Созданный SberDevices датасет состоит из 552992 элементов, разделённых на 18 классов. В каждом из них примерно по 30 тысяч фото. Изображения — RGB-картинки, преимущественно FullHD (~91% датасета). На них представлены реальные люди, показывающие жесты на камеру. Количество уникальных пользователей в датасете — не менее 34700, при этом набор данных содержит как минимум столько же разнообразных сцен с людьми (различное освещение, расстояние до камеры и положение кистей относительно человека). Датасет в равных пропорциях распределён по полу (число женщин лишь немногим больше мужчин), а возраст исполнителей — от 18 до 60 лет.
ТОП-2: Усовершенствовали процессы разработки скриптов
В течение года мы занимались разработкой различных сервисов, которые могли бы освободить человеческие р��сурсы от рутинных процессов. Один из таких проектов решал нашу внутреннюю задачу по разработке скриптов. Об этом проекте мы недавно рассказали в этой статье. Автоматический генератор скриптов помогает нам значительно экономить время.
ТОП-1: Добавили больше эмпатии голосовому роботу
В этом году мы продолжили совершенствовать робота. Теперь он может точнее распознавать эмоции в диалоге, быстрее реагировать в нестандартных ситуациях, произносить фразы с «живой» интонацией и т.д. Наша модель определяет эмоцию по голосу абонента без опоры на распознавание речи.
Еще мы собрали команду аналитиков и методологов, которые используя наш собственный сервис речевой аналитики создавали, анализировали и меняли логику диалогов до тех пор, пока не получали наилучший эффект от звонков робота. Так, в одном из NPS–опросов с участием 250 тысяч респондентов, каждый второй абонент, до которого мы дозвонились, прошел анкету до конца.
Всего же в этом году мы создали более 130 новых скриптов, а количество минут разговоров нашего робота увеличилось на 40%.
Чтобы голос робота звучал естественно, несколько месяцев наши дикторы занимались с педагогом по сценической речи и актерскому мастерству.
Подводя итоги, скажем честно: как обычно, год был не простым, но продуктивным. Загадываем в следующем году всем еще больше интересных проектов, профессиональных побед и красивого кода.
С наступающим!
