Как стать автором
Обновить
332.28
SberDevices
Создаём умные устройства
Сначала показывать

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

Время на прочтение9 мин
Количество просмотров7.8K

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону.  Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

Читать далее
Всего голосов 19: ↑18 и ↓1+17
Комментарии6

Маэстро: как виртуальные ассистенты Салют превращают текст в музыку

Время на прочтение7 мин
Количество просмотров2.2K

2022 год войдет в историю как год прорыва генеративных нейронных технологий. Такие модели, как Midjourney, Stable Diffusion, DALL·E 2, Imagen и их аналоги показали нам, что нейронная сеть по обычному текстовому описанию может создавать картины, не уступающие произведениям талантливых художников. Это вызвало многочисленные протесты со стороны творческого сообщества, но прогресс не остановить, и все больше художников начинают использовать генеративные модели в своем рабочем процессе.

Наша команда решила адаптировать подход text-to-image к музыке в нотном домене. В результате этой работы у виртуальных ассистентов Салют появился навык «Маэстро», с помощью которого по текстовому запросу вы можете сгенерировать уникальные музыкальные композиции. Сейчас навык доступен в мобильных приложениях «Салют» и «Сбербанк Онлайн», и скоро будет доступен на умных устройствах Sber. Просто активируйте виртуального ассистента и скажите «Запусти Маэстро».

А как это все работает, мы расскажем дальше.

Читать далее
Всего голосов 12: ↑11 и ↓1+10
Комментарии7

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

Время на прочтение9 мин
Количество просмотров3.1K

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500 сабмитов. Мы продолжаем разрабатывать инструменты для русского языка и в этой статье расскажем, как создали новый бенчмарк, который:

- опирается на оценку моделей в режимах zero-shot и few-shot; 

- использует новую библиотеку RuTransform для создания состязательных атак и трансформации данных с учётом особенностей русского языка на уровне слов и предложений — библиотека может быть использована как инструмент для аугментации данных;

- позволяет проводить детальный анализ качества модели на подмножествах тестовой выборки с учётом длин примеров, категории целевого класса, а также предметной области.

Читать далее
Всего голосов 27: ↑27 и ↓0+27
Комментарии1

Нейрофэнтези: сочиняем с ruGPT-3. Русский вариант AI Dungeon уже доступен пользователям ассистентов Салют

Время на прочтение7 мин
Количество просмотров6.3K

Мы в SberDevices выпустили первый продукт в серии Нейроквестов — Нейрофэнтези. Квестами мы решили заняться по разным причинам. Например, в квестах можно испытать всю генеративную мощь семейства GPT-моделей. Квест также одновременно и литературный, и игровой формат взаимодействия с пользователем. В процессе игры фактически создается новая история. Среди решений на английском языке популярным стал проект AI Dungeon, мы захотели сделать нечто похожее на русском, попытавшись при этом превзойти оригинал, а также улучшить некоторые аспекты взаимодействия с пользователем. В этом посте расскажу, как мы разбирались с ходом сюжетных поворотов и с саджестами, и даже пришли к разработке инструмента для преобразования художественных текстов в обучающие данные в формате квеста.

Читать далее
Всего голосов 28: ↑27 и ↓1+26
Комментарии5

Умный дом Sber теперь полностью автономный. Из чего он состоит?

Время на прочтение8 мин
Количество просмотров11K

SberDevices сегодня перезапустили собственную платформу умного дома, отказавшись от сторонних инфраструктурных решений и сделав ее полностью автономной. Также с сегодняшнего дня в продажу поступило первое устройство умного дома Sber нового поколения – самая популярная лампа А60.

В этой статье мы хотим рассказать, как устроена наша платформа и как с её помощью мы выпускаем свои устройства и интегрируем устройства партнёров.

Читать далее
Всего голосов 40: ↑15 и ↓25-10
Комментарии21

Как мы сделали распознавание речи нескольких говорящих

Время на прочтение9 мин
Количество просмотров10K

В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственный интеллект? Можно ли добиться высокого качества распознавания речи, когда на записи говорят несколько человек?

Не так давно мы отметили 1 миллион проданных устройств с виртуальными ассистентами Салют. В нашей линейке в числе прочего представлены farfield-устройства, то есть те, с которыми можно “разговаривать” на расстоянии: смарт-дисплей SberPortal, ТВ-медиацентр SberBox Top и умная медиаколонка SberBox Time. В комнатах, где они стоят, может говорить одновременно несколько людей или играть телевизор, что существенно усложняет задачу распознавания. Иногда необходимость распознать больше одного голоса на записи возникает и у клиентов нашего API SmartSpeech — например, если это разговор двух людей.

В статье я расскажу, как мы решали эту проблему. Подробно остановимся на архитектуре нашего решения, узнаем о процессе её создания и возникавших сложностях, послушаем примеры работы системы.

Читать далее
Всего голосов 24: ↑23 и ↓1+22
Комментарии16

Добавляем голосовое управление на русском языке в VR-проект

Время на прочтение5 мин
Количество просмотров2.9K

Тема виртуальной, дополненной реальности, метавселенных набирает обороты. Но что это такое, как должно выглядеть, как этим пользоваться, никто толком пока не знает. Однако, как в своё время переход от десктопных приложений к мобильным, миграция в VR принесёт и новые паттерны взаимодействия с пользователем. Да, в виртуальной реальности уже можно «потрогать» предметы, но этого недостаточно для полноценного решения пользовательских задач. Кажется, что голосовое управление в VR станет ещё более актуальным, чем в мобильных устройствах — в виде, например, голосовых команд или ввода текстовых данных. 

Ниже опишу пошагово, как можно добавить голосовое управление на русском языке в VR-проект.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии1

HaGRID — огромный открытый датасет для распознавания жестов

Время на прочтение9 мин
Количество просмотров7.2K

Хороший набор данных невероятно важен при обучении нейросетей. Наш датасет изображений с жестами HaGRID (Hand Gesture Recognition Image Dataset) — один из таких. С его помощью можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов. Ниже рассказываем, как всё это работает, и делимся ссылками на датасет и набор предобученных моделей к нему.

Читать далее
Всего голосов 19: ↑19 и ↓0+19
Комментарии12

Большая версия ruDALL-E, или Как отличить Кандинского от Малевича

Время на прочтение13 мин
Количество просмотров60K

Прошло около полугода с момента выхода базовой модели ruDALL-E XL (1.3B), мы – команды Sber AI и SberDevices – получили много лайков и, как подобается таким разработкам, дизлайков. Всё хорошее отразилось в гигантском наплыве пользователей в первые недели релиза: порядка 800 тыс. уникальных пользователей (на текущий момент уже более 2 млн.), – 1.2k ⭐ в репозитории и последующем изрядном списке фантастических файнтюнов (Emojich XL, Surrealist XL, генератор кроссовок, генератор покемонов). Но если читатель обратится к прошлой статье, то обязательно вспомнит, что в ней речь шла о двух версиях модели: XL (1.3B) и XXL (12B). На достигнутом мы не остановились, поэтому, сделав релиз текущего на тот момент чекпоинта XXL на SberCloud, продолжили заниматься сбором данных и дообучением модели. И вот, наконец, мы готовы вывести её в свет.

Читать далее
Всего голосов 45: ↑43 и ↓2+41
Комментарии20

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Время на прочтение8 мин
Количество просмотров16K

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать далее
Всего голосов 15: ↑11 и ↓4+7
Комментарии22

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Время на прочтение9 мин
Количество просмотров15K

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices. 

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла. 

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

Читать далее
Всего голосов 28: ↑26 и ↓2+24
Комментарии34

Практические применения генеративных моделей: как мы делали суммаризатор текстов

Время на прочтение9 мин
Количество просмотров11K


В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики. 
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии1

Как мы делали Салют ТВ: российскую платформу для умных телевизоров

Время на прочтение8 мин
Количество просмотров17K

В мае 2021 года мы представили Салют ТВ — платформу для телевизоров, разработанную командой SberDevices. Тогда СМИ назвали новинку «убийцей» Android TV. 

Салют ТВ — это адаптированная под телевизоры версия операционной системы StarOS, которая используется в умных устройствах Sber. Благодаря Салют ТВ телевизором можно управлять с помощью голоса, взаимодействовать с виртуальными ассистентами, выходить в интернет и даже заказывать продукты. Такой набор функций украсит любой SmartTV, но особенно полезен для бюджетных моделей. Ведь это поднимает их на качественно иной уровень, не задирая ценник.

С запуска прошёл почти год. Всё это время мы исследовали аудиторию, находили новых партнёров и расширяли линейку телевизоров с нашей платформой внутри. Но с чего всё началось? Почему мы решили делать софт именно для телевизоров? Как выбирали поставщиков? А факапы были? В статье мы расскажем «большую историю с нуля» о том, как создавали Салют ТВ.

Читать далее
Всего голосов 20: ↑12 и ↓8+4
Комментарии33

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

Время на прочтение10 мин
Количество просмотров9K

Генеративные языковые модели уверенно обосновались в практике Natural Language Processing (NLP). Большие предобученные трансформеры двигаются сразу в трёх направлениях: мультимодальность, мультизадачность и мультиязычность. Сегодня мы расскажем про последнюю — о том, как учили модель на основе GPT-3 на 61 языке мира.

Это — самая многоязычная авторегрессионная модель на сегодня. Такую модель можно использовать, например, чтобы создать вопросно-ответную систему, обрабатывающую тексты на многих языках, научить диалогового ассистента говорить на разных языках, а также сделать более универсальные решения для парсинга текста, извлечения информации.

Этим релизом мы хотим привлечь внимание к развитию NLP для языков стран СНГ, а также народов России. Для многих из представленных языков эта модель стала первой авторегрессионной языковой моделью. 

Модель доступна в двух вариантах размеров: mGPT XL на 1,3 миллиарда параметров — в открытом доступе, а mGPT 13B — будет доступна в ML Space SberCloud.

Читать далее
Всего голосов 31: ↑29 и ↓2+27
Комментарии30

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

Время на прочтение8 мин
Количество просмотров9.2K

Всем привет! Меня зовут Илья Козиев, я работаю в Управлении экспериментальных систем машинного обучения SberDevices над вопросами генерации текстового контента. В этой статье я хочу представить эффективный способ решения такой интересной задачи, как генерация стихов, с помощью одной из самых современных нейросетевых архитектур — GPT-3. Я подробно распишу все необходимые шаги на пути к получению стихов примерно вот такого уровня:

Я оставляю брошенные фразы
Иного смеха, слабости и слёз
Я превращаюсь в голубые стразы
Кружась ветвями молодых берёз

Читать далее
Всего голосов 29: ↑28 и ↓1+27
Комментарии17

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Время на прочтение3 мин
Количество просмотров58K

Бот конвертирует голосовые сообщения на русском языке в текстовый формат, также работает с загруженными одноканальными аудиофайлами. Его можно использовать даже в групповых чатах. В основе решения — технологии SmartSpeech от SberDevices.

Читать далее
Всего голосов 17: ↑16 и ↓1+15
Комментарии36

Как подключить рекламную монетизацию к приложениям для виртуальных ассистентов Салют

Время на прочтение6 мин
Количество просмотров946

Для виртуальных ассистентов Салют можно создавать приложения с красивым интерфейсом и возможностью управлять ими разными способами: голосом, текстовыми сообщениями, касанием, жестами и пультом. Такие приложения называются Canvas App, они доступны пользователям на умных устройствах Sber и в мобильных приложениях Сбербанк Онлайн и Салют. Один из самых простых способов монетизации ваших Canvas App — реклама. Доступны два её вида:

Rewarded video — формат видеорекламы, когда пользователь получает награду за просмотр ролика. Наградой может быть внутриигровая валюта, дополнительные жизни, попытки, опыт и другие ресурсы в смартапе (навыке).

Fullscreen-баннеры — формат полноэкранной рекламы. Её можно демонстрировать между уровнями, экранами и логическими блоками смартапа. 

Наша команда подготовила SDK для подключения и управления показом рекламы в ваших навыках. Давайте пройдём все шаги её подключения.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Умная медиаколонка с часами: почему басы не сбивают ход стрелок, а тиканье не мешает микрофонам

Время на прочтение15 мин
Количество просмотров36K


Недавно мы выпустили SberBox Time — умную медиаколонку (и по совместительству приставку для телевизора) с аналоговыми часами. Совмещение таких разных устройств в одном корпусе вывело задачу на новый уровень инженерной сложности. Как сделать отдельно колонку или отдельно часы — понятно. А вот как избежать влияния низких частот на чувствительный часовой механизм? Или как сделать так, чтобы farfield-микрофонам не мешало тиканье? Это уже вызовы, которые требуют особого подхода и исследования.

Или вот вам задача: как организовать настройку времени на аналоговом часовом механизме?

Ну и уж совсем мелочи вроде того, куда ставить микрофоны и какие они должны быть, чтобы услышать команду с другого конца комнаты, когда буквально в нескольких сантиметрах из динамиков звучит музыка.

В посте я расскажу про разработку SberBox Time от идеи до серийного производства: про сложности, тупиковые прототипы и инсайты в процессе R&D.
Читать дальше →
Всего голосов 40: ↑39 и ↓1+38
Комментарии71

Разбираемся с библиотекой лексического анализа ANTLR4

Время на прочтение9 мин
Количество просмотров13K

У нас в SberDevices разрабатывается платформа по управлению рекомендациями, которая взаимодействует с разными ML-движками. Со временем их станет много, и, когда пользователь умных устройств Sber будет запрашивать контент – искать фильмы, музыку, спрашивать о чём-то виртуальных ассистентов Салют, – запрос будет проходить через нашу платформу.

Сначала выбор движка мы хотели завязывать на источник сообщений – пользовательское приложение на устройстве. Сейчас мы решили управлять маршрутизацией на основе содержания сообщений – по различным полям. Для этого используется набор правил, похожих на условие WHERE в SQL, т.е. мы выбираем маршруты, у которых совпадают условия со значениями полей сообщений.

В SQL-запросе пользователь шлёт условие, по которому из существующих строк таблицы выбираются подходящие. В нашей задаче получается наоборот: входящему сообщению нужно сопоставить все условия, которые у нас есть, и вернуть те, которые прошли проверку. Правила маршрутизации – это настройки и их должны создавать не только программисты, но и менеджеры контента или дейта-сайентисты. С такими задачами справляются такие фреймворки, как, например Drools, но мы решили написать своё легковесное решение с упрощенным DSL, условия на котором может понять не только разработчик. 

Для обработки правил, написанных на кастомном DSL, лучшая библиотека – ANTLR4. Я находил много статей, в которых описываются разные аспекты работы с ANTLR4, но ни в одной из них я не увидел, то, что изучил на пути создания production-ready кода. Поэтому, разобравшись, я решил собрать туториал. Ниже опишу пример парсинга SQL SELECT-запроса в объектную модель Java. Будем двигаться постепенно, в этот раз рассмотрим простейший случай. На нём мы разберём саму идею этого парсера, сделаем минимальную реализацию.

Читать далее
Всего голосов 14: ↑13 и ↓1+12
Комментарии10

Управляем генерацией ruGPT-3: библиотека ruPrompts

Время на прочтение7 мин
Количество просмотров12K

Наше семейство моделей ruGPT-3 уже нашло множество применений у сообщества: кто-то генерирует гороскопы, кто-то — факты о лягушках, статьи нейроуголовного кодекса, нейроновости и прочее. Модели накопили в себе массу знаний о нашем мире и способны подстроиться практически под любую задачу. Тем не менее, в данный момент подобная подгонка (fine-tuning) часто требует значительных вычислительных затрат, что не всегда позволяет использовать достаточно большие модели. В этом посте мы предлагаем сообществу новый инструмент для того, чтобы дообучать ruGPT-3 под свои нужды и делиться своими результатами с другими.

Читать далее
Всего голосов 24: ↑23 и ↓1+22
Комментарии13

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Дмитрий Головин