Как стать автором
Обновить
269.74
SberDevices
Создаём умные устройства
Сначала показывать

Перфоратор не помеха. Наслаждаемся «чистым» звуком с денойзером от SaluteJazz

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров5K

Представьте себе ситуацию: вы работаете на удаленке и должны принять участие в важной видеоконференции, а в этот момент домашняя кошка решила устроить спортивный забег, снося все на своем пути. В соседней комнате заплакал ребенок, а сосед именно в этот момент решил просверлить несколько отверстий под новую полочку. Могло бы случиться непоправимое, но во избежание катастрофы мы придумали своё решение, которое не даст вашим собеседникам заметить что‑то подозрительное.

Меня зовут Артем Соколов. Я и мои коллеги занимаемся направлением улучшения звука в команде SaluteSpeech. Мы в SberDevices разрабатываем и развиваем целую линейку В2В‑решений — от речевых сервисов до видеоконференцсвязи. И во всех наших продуктах стремимся использовать собственные технологии.

Один из флагманских продуктов, который мы создаём, — сервис для видеоконференций SaluteJazz. В первую очередь он ориентирован на бизнес‑коммуникации, которые предполагают высокое качество звука без посторонних шумов. За достаточно короткий срок мы подготовили и встроили в него собственный «шумодав» (он же денойзер). Про него и пойдет речь в этой статье.

Читать далее

DETR: Бесконечная история

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров3.3K

Всем привет, с вами команда Layer!
Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных пользовательскому запросу. Мы хотим сделать эту работу как можно более доступной для каждого, кто хочет глубже разобраться в теме. Поэтому мы решили написать этот небольшой туториал, посвященный семейству моделей DETR, так как они используются не только для детекции котиков на картинках, но и в таких необычных доменах, как детекция моментов в видео. Мы уверены, что среди читателей многие знакомы с основами DETR, однако подозреваем, что не все могли следить за её развитием. Всё‑таки по сравнению с YOLO, DETRу пиара явно не достает. В этой статье мы предлагаем краткий обзор эволюции модели, чтобы помочь вам лучше ориентироваться в новых исследованиях. Если же вы впервые слышите о DETR или хотите освежить свои знания, то бегом читать — тык, если после прочтения остались вопросы, то можно ознакомиться с этими видео — тык, тык.

Давайте детальнее разберёмся, что ждёт вас в этом туториале. Сначала мы рассмотрим недостатки оригинальной версии DETR, а затем перейдём к архитектурным улучшениям, которые либо устранили эти проблемы, либо заметно их сгладили. Начнём с Deformable DETR — модели, которая оптимизировала вычисления. Затем обратим внимание на Conditional DETR и DAB DETR — архитектуры, которые существенно переосмыслили роль queries в модели. Далее мы погрузимся в особенности DN‑DETR, который стабилизирует one‑to‑one matching. После этого детально разберём DINO DETR — модель, которая объединяет и улучшает идеи DN‑DETR и DAB‑DETR, а также переизобретает RPN для детекционных трансформеров. И в завершение нашего путешествия мы познакомимся с CO‑DETR, который объединил классические детекторы, такие как ATSS, Faster RCNN, и модели типа DETR, установив новые SOTA метрики на COCO.

Читать далее

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров2.1K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥

Сочини сказку — интерактивные детские сказки c умными колонками Sber теперь и на экранах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.8K

Всем привет! На связи Настя Шахматова из команды Нейронавыков SberDevices. Мы делаем развлекательные навыки на основе GigaChat для виртуального ассистента Салют.

Под занавес 2023 года наша команда представила релиз детского навыка «Сочини сказку» на умных колонках Sberboom и Sberboom Mini на базе GigaChat Lite. Этим летом семейство умных устройств пополнила также колонка Sberboom Home.

Сегодня мы провели релиз версии для экранов на новых платформах Салют ТВ, SberBox, SberBox Top, SberBox Time на модели GigaChat Pro. Для запуска навыка, как и прежде, нужно сказать ассистенту: «Сочини сказку». Далее ассистент предложит выбрать героя, и пользователь сможет стать соавтором сказочной истории.

Читать далее

Отличается ли внимание человека и модели-трансформера?

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3.1K

Для того, чтобы понимать язык и делать различные выводы, человек рассуждает, опираясь на знания о мире и здравый смысл. Несмотря на то, что большие языковые модели достигли значительных успехов в обработке естественного языка, рассуждение на основе здравого смысла остаëтся одним из самых сложных навыков. 

Наиболее распространëнным способом оценки способностей моделей рассуждать, опираясь на здравый смысл, является тест на основе схемы Винограда (The Winograd Schema Challenge, или WSC), названный в честь Терри Винограда, профессора компьютерных наук в Стэнфордском университете. Тест основан на разрешении синтаксической неоднозначности.

Давайте рассмотрим пример из схемы Винограда:

"Кубок не помещается в коричневый чемодан, потому что он слишком большой."

Что в этом случае является слишком большим: чемодан или кубок? Для человека ответ является очевидным, а для модели?..

Мы расскажем про наше исследование, в котором сравнили внимание человека и модели, а также проанализировали, на какие слова при решении схемы Винограда обращают внимание человек и модель. Хотя внимание человека и внимание трансформера кажутся совершенно разными, отдельные результаты говорят о взаимосвязи между ними.

Читать далее

Рецепт идеальной разметки в Computer Vision

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.9K

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее

Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.4K

Привет, Хабр! Меня зовут Александр Абрамов и я ML Lead продукта в SberDevices. Эта статья — про обучение core-моделей retrieval-based диалоговых систем, поговорим про хинты для ускорения обучения и сходимости, также затрону тему общей схемы inference и оптимизации её компонентов. Речь пойдёт о ML с позиции пайплайнов и продакшена виртуального ассистента Салют.

Читать далее

Как мы делали гибридную обработку звука: всё об аудиософте в SberBoom и почему просто годных излучателей недостаточно

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.9K

40-ваттный всенаправленный звук в SberBoom — профессиональная гордость нашей команды. В прошлой статье мы рассказали, как придумали акустическую архитектуру. А в тут рассказали, как устроено звуковоспроизведение в ядре Linux. В этот раз объясним из каких софтовых решений складывается звук SberBoom. Почему стандартные методы коррекции звука — не наш выбор? Как реальность расходится с вендорской документацией и зачем реверсинжинирить усилители? Читайте под катом.

Читать далее

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.6K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее

SberBoom Home — новый этап в эволюции умных колонок

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.8K

Салют, Хабр! Сегодня стартовали продажи сразу двух новых умных колонок от SberDevices: SberBoom Home и SberBoom Mini 2. 

SberBoom Home — это новый этап в эволюции умных колонок SberBoom. Первая умная колонка SberBoom с LED-дисплеем и первая умная колонка SberBoom с Zigbee-модулем, который позволяет колонке выполнять функции хаба при управлении умным домом, а также поддерживает Zigbee-сценарии без интернета — все это SberBoom Home.

В сердце SberBoom Home динамик с неодимовым магнитом, специально подобранный для младших колонок семьи SberBoom. Он обеспечивает высокий уровень мощности при более компактных размерах, что позволило существенно увеличить полезный объем акустической камеры и тем самым получить четкий и сбалансированный звук.

За чистоту звука отвечает тонко настроенный программно-аппаратный комплекс, позволяющий передавать аудиосигналы с минимальным количеством искажений.

Финальное улучшение звука выполняется с помощью собственной технологии Salute Sound Processing , которая по специальному  алгоритму динамически усиливает бас в нужных треках и подбирает оптимальный эквалайзер для текущей громкости музыки. Весь этот уникальный комплекс аппаратных и программных решений получил название Magnetic Sound. Подробнее про технологии Magnetic Sound и SSP расскажем в отдельных статьях, а сейчас давайте поговорим о том, из чего состоит девайс и как он создавался.

Читать далее

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров8.7K

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее

Переводчик с языка, на котором нельзя говорить и писать

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров11K

Привет, Хабр! Это Александр Капитанов и Александр Нагаев из Sber Devices. Мы занимаемся задачами компьютерного зрения: генерацией, матированием и редактированием изображений, сегментацией, портретной гармонизацией, заменой лиц, распознаванием жестов. А с недавних пор ещё и распознаваниtv русского жестового языка.

Поговорим о том, что заставило нас решать данную проблему. Затронем теорию жестового языка — подозреваю, что мало кто с ней знаком. Расскажем, как мы собирали собственный датасет для распознавания русского жестового языка и затронем тему обучения моделей для решения данной задачи. Также поделимся с вами результатом и немного расскажем про семейство наших моделей signflow. 

Читать далее

Live SymFormer Show. Музыкальное шоу с использованием AI-технологий

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров766

Салют, Хабр! На связи Алексей Минин. В SberDevices наша команда занимается созданием и развитием решений в области генеративной музыки. В этой статье хочу рассказать о том, как мы реализовали музыкальное шоу с применением технологий AI на прошедшей в апреле конференции GIGA RnD Day. В тот день на сцене вживую импровизировали музыканты и вместе с ними наша нейросетевая модель для генерации музыкальных произведений — SymFormer. В результате симбиоза живого исполнения и технологий на сцене создавалась уникальная музыкальная композиция в режиме реального времени.

Читать далее

Здоровый свет. Что это? И при чём тут лампочка?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.5K

Вы когда-нибудь задумывались о важности освещения в собственной квартире и, если да, то каким оно должно быть? Давайте разбираться. 

В прошлом распорядок дня людей во многом зависел от светового дня и естественного солнечного освещения. Однако с приходом искусственного освещения в повседневную жизнь у нас появилась возможность бодрствовать до раннего утра или же проводить весь день в офисе, освещенном белым светом. К сожалению, мы не можем до конца оценить, насколько пагубно это влияет на человеческий организм, а до недавнего времени большинство людей даже не задумывались о такой проблеме. Но проблема существует, и доказано, что искусственное освещение может влиять на состояние человеческого организма не самым лучшим образом. 

Жизнь на Земле адаптирована к вращению нашей планеты. Дневной солнечный свет более холодный. Этот свет бодрит, но его длительное воздействие может привести к усталости и даже головным болям. Холодный свет блокирует выработку мелатонина, что делает его крайне нежелательным для использования перед сном. И наоборот, вечером, когда солнце близко к горизонту, свет более теплый. Он оказывает успокаивающее действие на организм.

Читать далее

Ближайшие события

Как мы собираем данные для обучения Kandinsky

Уровень сложностиСложный
Время на прочтение14 мин
Количество просмотров3.2K

Всем привет! Наша команда в Sber AI занимается генеративными моделями и сегодня мы расскажем про очень важный этап разработки моделей для генерации фотореалистичных изображений и видео — процесс сбора и фильтрации данных. Про этот этап очень редко подробно рассказывают разработчики и исследователи таких известных генеративных моделей как DALL-E 3, Stable Diffusion, MidJourney или SORA. Генеративные модели уже многих впечатлили своими возможностями создавать максимально реалистичные изображения и видеоролики, а качественные данные — далеко не последняя причина, по которой такого качества генераций удалось достичь.

Читать далее

Kandinsky Video 1.1: обновленная модель генерации видео

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.8K

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.

Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

Читать далее

SberBox 2. Что под капотом?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров18K

Салют, хабр! Сегодня стартовали продажи SberBox 2 — обновленной ТВ-приставки от SberDevices. В SberBox 2 мы учли отзывы пользователей и реализовали ряд улучшений, которые делают его еще более удобным и стабильным. Так, например, за стабильное соединение теперь отвечает разъем LAN, устройство не болтается на проводе, а надёжно крепится к телевизору с помощью велкро-липучки, а провод зарядки больше не упирается в стену.

SberBox 2 — это первое устройство, которое базируется на новых принципах дизайна. Внутри команды его даже успели прозвать «турбиной» за некоторое визуальное сходство. В этой маленькой коробочке уместилось качественное железо с отличным функционалом, но обо всем по порядку. Давайте сейчас посмотрим на то, как устройство выглядит снаружи.

Читать далее

Практические аспекты ранжирования ответов виртуального ассистента Салют

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.5K

Всем привет! Меня зовут Аня Максимова, я занимаюсь NLP в команде Нейронные сети продукта Собеседник! 5 апреля проходила конференция Giga R&D Day, где мой коллега — Артем Снегирев рассказывал про практические аспекты ранжирования ответов виртуального ассистента Салют.

В этой статье мы подробнее расскажем вам, как делаем ранжирование ответов на примере собеседника, который является частью ассистентов Салют.

У ассистента есть три голоса — Сбер, Афина и Джой. Собеседник отвечает за общение на различные темы, ответы на фактологические вопросы и за развлекательный контент. Как правило, ассистент отвечает генеративными моделями, но есть сценарии, где используются заготовленные реплики, и их достаточно много, поэтому мы используем поиск — это классический retrieval-based подход.

Читать далее

GIGA R&D DAY: материалы конференции

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3K

На недавней конференции GIGA R&D DAY, организованной командой R&D SberDevices, участники обсудили последние достижения в разработке GigaChat, NLP, Vision и Audio.

Событие собрало ведущих специалистов и экспертов в области искусственного интеллекта, которые поделились своими идеями и разработками. В день рождения GigaChat'a делимся с вами видеозаписями выступлений и презентациями докладов, которые охватывают широкий спектр тем от мультимодальности и мультиэкспертности до проблем alignment и задач генерации речи.

Читать далее

Генеративные 3D-модели

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров12K

Салют, Хабр! На связи Игорь Пасечник — технический лид направления XR RnD SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку генеративных моделей для 3D-контента. 

Современные методы генерации 2D-контента, такие, как 2D-диффузионные модели (Kandinsky 3.0, SDXL), уже достигли впечатляющих результатов и несколько лет являются неотъемлемой частью современности, генеративные видео модели также активно развиваются. Кульминацией развития таких подходов, вероятно, станет представленная не так давно модель Sora. Тем не менее большинство из этих моделей до сих пор испытывают проблемы при генерации консистентных 3D-сцен и объектов.

С другой стороны стороны, существует конвенциональная 3D-графика, а также огромная индустрия и множество прикладных областей, включая игры, XR, дизайн, архитектуру, маркетинг, 3D-проектирование, где используются пайплайны на основе 3D-графики и производится контент на их основе. Методы создания 3D-моделей, такие, как ручное моделирование, 3D-сканирование и фотограмметрия, могут быть трудоёмкими, дорогостоящими и требующими специальных навыков. 3D-продакшн в общем виде использует множество инструментов для создания и рендеринга тяжелой фотореалистичной графики, адаптация генеративных 3D-пайплайнов под такие подходы достаточно тяжела из-за множества инструментов, которые такие пайплайны должны поддерживать. Также адаптация больших латентных генеративных 2D-моделей вроде SORA для прикладных задач фотореалистичной графики может стать альтернативой классическми пайплайнам на основе физического моделирования. Тем не менее, на текущий момент пайплайны работы с графикой, использующие базовый набор примитивов, включая меши, PBR-текстуры, простые модели освещения, закрывают множество прикладных задач и также могут быть востребованы у массового пользователя в случае их демократизации.

Читать далее

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия