SberDevices, Москва - Создаём умные устройства / Статьи / Хабр

Как стать автором

Профиль Статьи 93Новости 20Подписчики 62KСотрудники 50

djunka 8 фев 2023 в 13:32

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

9 мин

7.8K

Блог компании SberDevicesOpen source*Data Mining*Машинное обучение*Искусственный интеллект

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону. Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

Читать далее

+17

mmet 23 дек 2022 в 12:59

Маэстро: как виртуальные ассистенты Салют превращают текст в музыку

7 мин

2.2K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектЗвук

2022 год войдет в историю как год прорыва генеративных нейронных технологий. Такие модели, как Midjourney, Stable Diffusion, DALL·E 2, Imagen и их аналоги показали нам, что нейронная сеть по обычному текстовому описанию может создавать картины, не уступающие произведениям талантливых художников. Это вызвало многочисленные протесты со стороны творческого сообщества, но прогресс не остановить, и все больше художников начинают использовать генеративные модели в своем рабочем процессе.

Наша команда решила адаптировать подход text-to-image к музыке в нотном домене. В результате этой работы у виртуальных ассистентов Салют появился навык «Маэстро», с помощью которого по текстовому запросу вы можете сгенерировать уникальные музыкальные композиции. Сейчас навык доступен в мобильных приложениях «Салют» и «Сбербанк Онлайн», и скоро будет доступен на умных устройствах Sber. Просто активируйте виртуального ассистента и скажите «Запусти Маэстро».

А как это все работает, мы расскажем дальше.

Читать далее

+10

Rybolos 21 дек 2022 в 14:10

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

9 мин

3.1K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500 сабмитов. Мы продолжаем разрабатывать инструменты для русского языка и в этой статье расскажем, как создали новый бенчмарк, который:

- опирается на оценку моделей в режимах zero-shot и few-shot;

- использует новую библиотеку RuTransform для создания состязательных атак и трансформации данных с учётом особенностей русского языка на уровне слов и предложений — библиотека может быть использована как инструмент для аугментации данных;

- позволяет проводить детальный анализ качества модели на подмножествах тестовой выборки с учётом длин примеров, категории целевого класса, а также предметной области.

Читать далее

+27

gra-paul 29 ноя 2022 в 18:01

Нейрофэнтези: сочиняем с ruGPT-3. Русский вариант AI Dungeon уже доступен пользователям ассистентов Салют

7 мин

6.3K

Блог компании SberDevicesМашинное обучение*Искусственный интеллект

Из песочницы

Мы в SberDevices выпустили первый продукт в серии Нейроквестов — Нейрофэнтези. Квестами мы решили заняться по разным причинам. Например, в квестах можно испытать всю генеративную мощь семейства GPT-моделей. Квест также одновременно и литературный, и игровой формат взаимодействия с пользователем. В процессе игры фактически создается новая история. Среди решений на английском языке популярным стал проект AI Dungeon, мы захотели сделать нечто похожее на русском, попытавшись при этом превзойти оригинал, а также улучшить некоторые аспекты взаимодействия с пользователем. В этом посте расскажу, как мы разбирались с ходом сюжетных поворотов и с саджестами, и даже пришли к разработке инструмента для преобразования художественных текстов в обучающие данные в формате квеста.

Читать далее

+26

djunka 28 ноя 2022 в 13:03

Умный дом Sber теперь полностью автономный. Из чего он состоит?

8 мин

11K

Блог компании SberDevicesГаджетыУмный домГолосовые интерфейсы*

SberDevices сегодня перезапустили собственную платформу умного дома, отказавшись от сторонних инфраструктурных решений и сделав ее полностью автономной. Также с сегодняшнего дня в продажу поступило первое устройство умного дома Sber нового поколения – самая популярная лампа А60.

В этой статье мы хотим рассказать, как устроена наша платформа и как с её помощью мы выпускаем свои устройства и интегрируем устройства партнёров.

Читать далее

-10

Bobrosoft 29 авг 2022 в 12:55

Как мы сделали распознавание речи нескольких говорящих

9 мин

10K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственный интеллект? Можно ли добиться высокого качества распознавания речи, когда на записи говорят несколько человек?

Не так давно мы отметили 1 миллион проданных устройств с виртуальными ассистентами Салют. В нашей линейке в числе прочего представлены farfield-устройства, то есть те, с которыми можно “разговаривать” на расстоянии: смарт-дисплей SberPortal, ТВ-медиацентр SberBox Top и умная медиаколонка SberBox Time. В комнатах, где они стоят, может говорить одновременно несколько людей или играть телевизор, что существенно усложняет задачу распознавания. Иногда необходимость распознать больше одного голоса на записи возникает и у клиентов нашего API SmartSpeech — например, если это разговор двух людей.

В статье я расскажу, как мы решали эту проблему. Подробно остановимся на архитектуре нашего решения, узнаем о процессе её создания и возникавших сложностях, послушаем примеры работы системы.

Читать далее

+22

borges 27 июн 2022 в 13:35

Добавляем голосовое управление на русском языке в VR-проект

5 мин

2.9K

Блог компании SberDevicesUnity*Разработка под AR и VR*AR и VRГолосовые интерфейсы*

Туториал

Тема виртуальной, дополненной реальности, метавселенных набирает обороты. Но что это такое, как должно выглядеть, как этим пользоваться, никто толком пока не знает. Однако, как в своё время переход от десктопных приложений к мобильным, миграция в VR принесёт и новые паттерны взаимодействия с пользователем. Да, в виртуальной реальности уже можно «потрогать» предметы, но этого недостаточно для полноценного решения пользовательских задач. Кажется, что голосовое управление в VR станет ещё более актуальным, чем в мобильных устройствах — в виде, например, голосовых команд или ввода текстовых данных.

Ниже опишу пошагово, как можно добавить голосовое управление на русском языке в VR-проект.

Читать далее

+4

hukenovs 21 июн 2022 в 10:30

HaGRID — огромный открытый датасет для распознавания жестов

9 мин

7.2K

Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

Хороший набор данных невероятно важен при обучении нейросетей. Наш датасет изображений с жестами HaGRID (Hand Gesture Recognition Image Dataset) — один из таких. С его помощью можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов. Ниже рассказываем, как всё это работает, и делимся ссылками на датасет и набор предобученных моделей к нему.

Читать далее

+19

Gugutse 14 июн 2022 в 16:03

Большая версия ruDALL-E, или Как отличить Кандинского от Малевича

13 мин

60K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Искусственный интеллект

Прошло около полугода с момента выхода базовой модели ruDALL-E XL (1.3B), мы – команды Sber AI и SberDevices – получили много лайков и, как подобается таким разработкам, дизлайков. Всё хорошее отразилось в гигантском наплыве пользователей в первые недели релиза: порядка 800 тыс. уникальных пользователей (на текущий момент уже более 2 млн.), – 1.2k ⭐ в репозитории и последующем изрядном списке фантастических файнтюнов (Emojich XL, Surrealist XL, генератор кроссовок, генератор покемонов). Но если читатель обратится к прошлой статье, то обязательно вспомнит, что в ней речь шла о двух версиях модели: XL (1.3B) и XXL (12B). На достигнутом мы не остановились, поэтому, сделав релиз текущего на тот момент чекпоинта XXL на SberCloud, продолжили заниматься сбором данных и дообучением модели. И вот, наконец, мы готовы вывести её в свет.

Читать далее

+41

alenusch 26 мая 2022 в 10:46

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

8 мин

16K

Блог компании SberDevicesPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать далее

+7

Rybolos 25 мая 2022 в 11:47

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

9 мин

15K

Блог компании SberDevicesPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices.

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла.

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

Читать далее

+24

Colindonolwe 19 мая 2022 в 12:43

Практические применения генеративных моделей: как мы делали суммаризатор текстов

9 мин

11K

Блог компании SberDevicesPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики.

Читать дальше →

+14

Christina29 28 апр 2022 в 14:28

Как мы делали Салют ТВ: российскую платформу для умных телевизоров

8 мин

17K

Блог компании SberDevicesГаджетыМониторы и ТВУмный дом

В мае 2021 года мы представили Салют ТВ — платформу для телевизоров, разработанную командой SberDevices. Тогда СМИ назвали новинку «убийцей» Android TV.

Салют ТВ — это адаптированная под телевизоры версия операционной системы StarOS, которая используется в умных устройствах Sber. Благодаря Салют ТВ телевизором можно управлять с помощью голоса, взаимодействовать с виртуальными ассистентами, выходить в интернет и даже заказывать продукты. Такой набор функций украсит любой SmartTV, но особенно полезен для бюджетных моделей. Ведь это поднимает их на качественно иной уровень, не задирая ценник.

С запуска прошёл почти год. Всё это время мы исследовали аудиторию, находили новых партнёров и расширяли линейку телевизоров с нашей платформой внутри. Но с чего всё началось? Почему мы решили делать софт именно для телевизоров? Как выбирали поставщиков? А факапы были? В статье мы расскажем «большую историю с нуля» о том, как создавали Салют ТВ.

Читать далее

+4

Rybolos 21 апр 2022 в 13:48

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

10 мин

9K

Блог компании SberDevicesOpen source*Машинное обучение*Искусственный интеллектNatural Language Processing*

Генеративные языковые модели уверенно обосновались в практике Natural Language Processing (NLP). Большие предобученные трансформеры двигаются сразу в трёх направлениях: мультимодальность, мультизадачность и мультиязычность. Сегодня мы расскажем про последнюю — о том, как учили модель на основе GPT-3 на 61 языке мира.

Это — самая многоязычная авторегрессионная модель на сегодня. Такую модель можно использовать, например, чтобы создать вопросно-ответную систему, обрабатывающую тексты на многих языках, научить диалогового ассистента говорить на разных языках, а также сделать более универсальные решения для парсинга текста, извлечения информации.

Этим релизом мы хотим привлечь внимание к развитию NLP для языков стран СНГ, а также народов России. Для многих из представленных языков эта модель стала первой авторегрессионной языковой моделью.

Модель доступна в двух вариантах размеров: mGPT XL на 1,3 миллиарда параметров — в открытом доступе, а mGPT 13B — будет доступна в ML Space SberCloud.

Читать далее

+27

inkoziev 14 апр 2022 в 12:07

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

8 мин

9.2K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*

Всем привет! Меня зовут Илья Козиев, я работаю в Управлении экспериментальных систем машинного обучения SberDevices над вопросами генерации текстового контента. В этой статье я хочу представить эффективный способ решения такой интересной задачи, как генерация стихов, с помощью одной из самых современных нейросетевых архитектур — GPT-3. Я подробно распишу все необходимые шаги на пути к получению стихов примерно вот такого уровня:

Я оставляю брошенные фразы
Иного смеха, слабости и слёз
Я превращаюсь в голубые стразы
Кружась ветвями молодых берёз

Читать далее

+27

Christina29 1 апр 2022 в 12:09

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

3 мин

58K

Блог компании SberDevicesКонтент и копирайтинг*Управление медиа*Голосовые интерфейсы*

Бот конвертирует голосовые сообщения на русском языке в текстовый формат, также работает с загруженными одноканальными аудиофайлами. Его можно использовать даже в групповых чатах. В основе решения — технологии SmartSpeech от SberDevices.

Читать далее

+15

Christina29 30 мар 2022 в 11:45

Как подключить рекламную монетизацию к приложениям для виртуальных ассистентов Салют

6 мин

946

Блог компании SberDevicesМонетизация IT-систем*Монетизация веб-сервисов*Монетизация мобильных приложений*

Туториал

Для виртуальных ассистентов Салют можно создавать приложения с красивым интерфейсом и возможностью управлять ими разными способами: голосом, текстовыми сообщениями, касанием, жестами и пультом. Такие приложения называются Canvas App, они доступны пользователям на умных устройствах Sber и в мобильных приложениях Сбербанк Онлайн и Салют. Один из самых простых способов монетизации ваших Canvas App — реклама. Доступны два её вида:

Rewarded video — формат видеорекламы, когда пользователь получает награду за просмотр ролика. Наградой может быть внутриигровая валюта, дополнительные жизни, попытки, опыт и другие ресурсы в смартапе (навыке).

Fullscreen-баннеры — формат полноэкранной рекламы. Её можно демонстрировать между уровнями, экранами и логическими блоками смартапа.

Наша команда подготовила SDK для подключения и управления показом рекламы в ваших навыках. Давайте пройдём все шаги её подключения.

Читать далее

+4

ditivi 24 янв 2022 в 11:55

Умная медиаколонка с часами: почему басы не сбивают ход стрелок, а тиканье не мешает микрофонам

15 мин

36K

Блог компании SberDevicesУправление проектами*Производство и разработка электроники*ГаджетыУмный дом

Недавно мы выпустили SberBox Time — умную медиаколонку (и по совместительству приставку для телевизора) с аналоговыми часами. Совмещение таких разных устройств в одном корпусе вывело задачу на новый уровень инженерной сложности. Как сделать отдельно колонку или отдельно часы — понятно. А вот как избежать влияния низких частот на чувствительный часовой механизм? Или как сделать так, чтобы farfield-микрофонам не мешало тиканье? Это уже вызовы, которые требуют особого подхода и исследования.

Или вот вам задача: как организовать настройку времени на аналоговом часовом механизме?

Ну и уж совсем мелочи вроде того, куда ставить микрофоны и какие они должны быть, чтобы услышать команду с другого конца комнаты, когда буквально в нескольких сантиметрах из динамиков звучит музыка.

В посте я расскажу про разработку SberBox Time от идеи до серийного производства: про сложности, тупиковые прототипы и инсайты в процессе R&D.

Читать дальше →

+38

timurnav 24 дек 2021 в 10:05

Разбираемся с библиотекой лексического анализа ANTLR4

9 мин

13K

Блог компании SberDevicesПрограммирование*Java*

Туториал

У нас в SberDevices разрабатывается платформа по управлению рекомендациями, которая взаимодействует с разными ML-движками. Со временем их станет много, и, когда пользователь умных устройств Sber будет запрашивать контент – искать фильмы, музыку, спрашивать о чём-то виртуальных ассистентов Салют, – запрос будет проходить через нашу платформу.

Сначала выбор движка мы хотели завязывать на источник сообщений – пользовательское приложение на устройстве. Сейчас мы решили управлять маршрутизацией на основе содержания сообщений – по различным полям. Для этого используется набор правил, похожих на условие WHERE в SQL, т.е. мы выбираем маршруты, у которых совпадают условия со значениями полей сообщений.

В SQL-запросе пользователь шлёт условие, по которому из существующих строк таблицы выбираются подходящие. В нашей задаче получается наоборот: входящему сообщению нужно сопоставить все условия, которые у нас есть, и вернуть те, которые прошли проверку. Правила маршрутизации – это настройки и их должны создавать не только программисты, но и менеджеры контента или дейта-сайентисты. С такими задачами справляются такие фреймворки, как, например Drools, но мы решили написать своё легковесное решение с упрощенным DSL, условия на котором может понять не только разработчик.

Для обработки правил, написанных на кастомном DSL, лучшая библиотека – ANTLR4. Я находил много статей, в которых описываются разные аспекты работы с ANTLR4, но ни в одной из них я не увидел, то, что изучил на пути создания production-ready кода. Поэтому, разобравшись, я решил собрать туториал. Ниже опишу пример парсинга SQL SELECT-запроса в объектную модель Java. Будем двигаться постепенно, в этот раз рассмотрим простейший случай. На нём мы разберём саму идею этого парсера, сделаем минимальную реализацию.

Читать далее

+12

konodyuk 17 дек 2021 в 10:00

Управляем генерацией ruGPT-3: библиотека ruPrompts

7 мин

12K

Блог компании SberDevicesPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

Наше семейство моделей ruGPT-3 уже нашло множество применений у сообщества: кто-то генерирует гороскопы, кто-то — факты о лягушках, статьи нейроуголовного кодекса, нейроновости и прочее. Модели накопили в себе массу знаний о нашем мире и способны подстроиться практически под любую задачу. Тем не менее, в данный момент подобная подгонка (fine-tuning) часто требует значительных вычислительных затрат, что не всегда позволяет использовать достаточно большие модели. В этом посте мы предлагаем сообществу новый инструмент для того, чтобы дообучать ruGPT-3 под свои нужды и делиться своими результатами с другими.

Читать далее

+22

3