Как стать автором
Обновить
168.26
SberDevices
Создаём умные устройства
Сначала показывать

От идеи до реализации: как создать дашборд для виртуального ассистента «Сочини сказку»

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров807

Салют, Хабр! На связи Сергей Глуховской из команды аналитики виртуального ассистента SberDevices. В этой статье, на примере одного из продуктов виртуального ассистента — «Сочини сказку», покажу, как мы с командой поэтапно выстроили путь от процессов и требований бизнеса к готовым дашбордам, опираясь на методику Dashboard Map от Романа Бунина.

В сети находится множество статей про нужные аналитику hard-скиллы. Вы уже, конечно же, знаете все must-have инструменты в работе аналитика: это и SQL, и Python, и теория вероятности с математической статистикой. Знаете, как работать с базами данных, как их (данные) обрабатывать, как составлять прогнозы, делать выводы о генеральной совокупности и так далее. Однако немаловажным качеством аналитика является умение анализировать состояние продукта и помогать совершенствовать его на основе данных.

Одним из ключевых инструментов в этом процессе является построение дашборда — инструмента, который помогает быстро и наглядно отслеживать основные показатели продукта, выявлять зависимости и анализировать тренды. Для того чтобы дашборды действительно были полезны и помогали в принятии управленческих решений, нужно правильно выбрать метрики и типы отчетов.

Так с чего начать выстраивание дашбордов? Как понять, какие типы дашбордов необходимо применять и какие метрики на них отражать? Давайте разбираться.

Читать далее

Сбер выкладывает GigaChat Lite в открытый доступ

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров17K

Салют, Хабр! В начале ноября мы делились с вами новостями о нашем флагмане GigaChat MAX и пообещали рассказать подробнее о процессе создания наших Pretrain-моделей. Пришло время сдержать слово и даже пойти дальше! 

Предобучение больших языковых моделей — это одна из наиболее ресурсозатратных стадий, которая непосредственно влияет на весь дальнейший процесс обучения GigaChat. От успешности обучения Pretrain-модели напрямую зависит качество всех следующих этапов обучения, например, Alignment и Vision. Поэтому сегодня мы хотим поделиться весами младшей модели линейки GigaChat версий base и instruct. Модель называется GigaChat-20B-A3B, так как построена на перспективной МоЕ-архитектуре!

Но и это ещё не всё. Вместе с весами мы делимся с сообществом улучшенной реализацией DeepSeek МоЕ, а также кодом для механизма концентрации (а что это такое — читайте дальше ;)). Важно отметить, что хотя GigaChat-20B-A3B обучался на триллионах токенов преимущественно русского текста, он ещё способен на хорошем уровне понимать другие языки. Так что мы делимся мультиязычной моделью. О том, как запускать модель, какие версии доступны и как пользоваться контролируемой генерацией с помощью механизма концентрации, расскажем прямо сейчас!

Узнать что такое MoE

Kandinsky 4.0 — новая модель генерации видео

Уровень сложностиСложный
Время на прочтение28 мин
Количество просмотров18K

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video. В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. 

С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

Читать далее

Понимают ли большие языковые модели данные из таблиц?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7.1K

Всем привет! С вами команда IDP. Сегодня расскажем о том, как мы оцениваем языковые модели для ответов на вопросы по таблицам.

Наша команда занимается интеллектуальной обработкой документов, и мы нередко сталкиваемся с документами, содержащими таблицы. Человек обычно анализирует их, опираясь на геометрию и визуал (границы ячеек, выделение заголовков, выравнивание текстов в ячейках). Таблицы — это двумерные объекты, языковые модели же работают с одномерными последовательностями токенов. Это наталкивает на вопрос: а насколько хорошо LLM справляются с анализом таблиц в документах?

Мы заинтересовались этой темой неслучайно — в одном из проектов мы работали над вопросно‑ответной системой для технической документации. Большинство вопросов относилось именно к таблицам, причем таблицы были достаточно сложными, с длинными названиями столбцов, формулами и многоуровневыми заголовками. В один момент мы уперлись в потолок по метрикам и тогда решили провести более тщательное исследование.

Читать далее

GigaChat MAX — новая, сильная модель GigaChat

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров30K

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!

GigaChat MAX

Истории

State Space Models. Mamba

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров6.1K

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

Читать далее

Как научить LLM понимать видео? Часть 2

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.2K

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

Читать далее

Bukva: алфавит русского жестового языка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.8K

Всем привет!

Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

Читать далее

LLM агент для работы с Google Spreadsheets

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.8K

Салют, Хабр! На связи Арсенин Никита из команды R&D в SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку агентских систем на основе больших языковых моделей.

В этой статье мы постараемся сделать обзорный тур по ключевым технологическим аспектам проектирования и реализации LLM‑агентов, рассмотрим способы работы связок LLM и функций, некоторые компоненты мультиагентных систем, методы контролируемой генерации и повышения робастности. Кроме того, представим и подробно опишем архитектуру и способ построения одного из прототипов LLM‑агентов, нацеленных на выполнение задач в Google SpreadSheets.

Наш LLM‑агент был реализован при помощи SDK GigaChain и GigaGraph, адаптированными под работу с GigaChat. Вы можете посмотреть на итоговую версию Google SpreadSheets агента в репозитории или начать разработку своего агента с вводного туториала.

Читать далее

Как научить LLM понимать видео? Обзор подходов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4.5K

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи.

Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов. 

Читать далее

Перфоратор не помеха. Наслаждаемся «чистым» звуком с денойзером от SaluteJazz

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.6K

Представьте себе ситуацию: вы работаете на удаленке и должны принять участие в важной видеоконференции, а в этот момент домашняя кошка решила устроить спортивный забег, снося все на своем пути. В соседней комнате заплакал ребенок, а сосед именно в этот момент решил просверлить несколько отверстий под новую полочку. Могло бы случиться непоправимое, но во избежание катастрофы мы придумали своё решение, которое не даст вашим собеседникам заметить что‑то подозрительное.

Меня зовут Артем Соколов. Я и мои коллеги занимаемся направлением улучшения звука в команде SaluteSpeech. Мы в SberDevices разрабатываем и развиваем целую линейку В2В‑решений — от речевых сервисов до видеоконференцсвязи. И во всех наших продуктах стремимся использовать собственные технологии.

Один из флагманских продуктов, который мы создаём, — сервис для видеоконференций SaluteJazz. В первую очередь он ориентирован на бизнес‑коммуникации, которые предполагают высокое качество звука без посторонних шумов. За достаточно короткий срок мы подготовили и встроили в него собственный «шумодав» (он же денойзер). Про него и пойдет речь в этой статье.

Читать далее

DETR: Бесконечная история

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров2.8K

Всем привет, с вами команда Layer!
Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных пользовательскому запросу. Мы хотим сделать эту работу как можно более доступной для каждого, кто хочет глубже разобраться в теме. Поэтому мы решили написать этот небольшой туториал, посвященный семейству моделей DETR, так как они используются не только для детекции котиков на картинках, но и в таких необычных доменах, как детекция моментов в видео. Мы уверены, что среди читателей многие знакомы с основами DETR, однако подозреваем, что не все могли следить за её развитием. Всё‑таки по сравнению с YOLO, DETRу пиара явно не достает. В этой статье мы предлагаем краткий обзор эволюции модели, чтобы помочь вам лучше ориентироваться в новых исследованиях. Если же вы впервые слышите о DETR или хотите освежить свои знания, то бегом читать — тык, если после прочтения остались вопросы, то можно ознакомиться с этими видео — тык, тык.

Давайте детальнее разберёмся, что ждёт вас в этом туториале. Сначала мы рассмотрим недостатки оригинальной версии DETR, а затем перейдём к архитектурным улучшениям, которые либо устранили эти проблемы, либо заметно их сгладили. Начнём с Deformable DETR — модели, которая оптимизировала вычисления. Затем обратим внимание на Conditional DETR и DAB DETR — архитектуры, которые существенно переосмыслили роль queries в модели. Далее мы погрузимся в особенности DN‑DETR, который стабилизирует one‑to‑one matching. После этого детально разберём DINO DETR — модель, которая объединяет и улучшает идеи DN‑DETR и DAB‑DETR, а также переизобретает RPN для детекционных трансформеров. И в завершение нашего путешествия мы познакомимся с CO‑DETR, который объединил классические детекторы, такие как ATSS, Faster RCNN, и модели типа DETR, установив новые SOTA метрики на COCO.

Читать далее

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.9K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥

Сочини сказку — интерактивные детские сказки c умными колонками Sber теперь и на экранах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.6K

Всем привет! На связи Настя Шахматова из команды Нейронавыков SberDevices. Мы делаем развлекательные навыки на основе GigaChat для виртуального ассистента Салют.

Под занавес 2023 года наша команда представила релиз детского навыка «Сочини сказку» на умных колонках Sberboom и Sberboom Mini на базе GigaChat Lite. Этим летом семейство умных устройств пополнила также колонка Sberboom Home.

Сегодня мы провели релиз версии для экранов на новых платформах Салют ТВ, SberBox, SberBox Top, SberBox Time на модели GigaChat Pro. Для запуска навыка, как и прежде, нужно сказать ассистенту: «Сочини сказку». Далее ассистент предложит выбрать героя, и пользователь сможет стать соавтором сказочной истории.

Читать далее

Ближайшие события

25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Отличается ли внимание человека и модели-трансформера?

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3K

Для того, чтобы понимать язык и делать различные выводы, человек рассуждает, опираясь на знания о мире и здравый смысл. Несмотря на то, что большие языковые модели достигли значительных успехов в обработке естественного языка, рассуждение на основе здравого смысла остаëтся одним из самых сложных навыков. 

Наиболее распространëнным способом оценки способностей моделей рассуждать, опираясь на здравый смысл, является тест на основе схемы Винограда (The Winograd Schema Challenge, или WSC), названный в честь Терри Винограда, профессора компьютерных наук в Стэнфордском университете. Тест основан на разрешении синтаксической неоднозначности.

Давайте рассмотрим пример из схемы Винограда:

"Кубок не помещается в коричневый чемодан, потому что он слишком большой."

Что в этом случае является слишком большим: чемодан или кубок? Для человека ответ является очевидным, а для модели?..

Мы расскажем про наше исследование, в котором сравнили внимание человека и модели, а также проанализировали, на какие слова при решении схемы Винограда обращают внимание человек и модель. Хотя внимание человека и внимание трансформера кажутся совершенно разными, отдельные результаты говорят о взаимосвязи между ними.

Читать далее

Рецепт идеальной разметки в Computer Vision

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.6K

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее

Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.2K

Привет, Хабр! Меня зовут Александр Абрамов и я ML Lead продукта в SberDevices. Эта статья — про обучение core-моделей retrieval-based диалоговых систем, поговорим про хинты для ускорения обучения и сходимости, также затрону тему общей схемы inference и оптимизации её компонентов. Речь пойдёт о ML с позиции пайплайнов и продакшена виртуального ассистента Салют.

Читать далее

Как мы делали гибридную обработку звука: всё об аудиософте в SberBoom и почему просто годных излучателей недостаточно

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.6K

40-ваттный всенаправленный звук в SberBoom — профессиональная гордость нашей команды. В прошлой статье мы рассказали, как придумали акустическую архитектуру. А в тут рассказали, как устроено звуковоспроизведение в ядре Linux. В этот раз объясним из каких софтовых решений складывается звук SberBoom. Почему стандартные методы коррекции звука — не наш выбор? Как реальность расходится с вендорской документацией и зачем реверсинжинирить усилители? Читайте под катом.

Читать далее

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.2K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее

SberBoom Home — новый этап в эволюции умных колонок

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.1K

Салют, Хабр! Сегодня стартовали продажи сразу двух новых умных колонок от SberDevices: SberBoom Home и SberBoom Mini 2. 

SberBoom Home — это новый этап в эволюции умных колонок SberBoom. Первая умная колонка SberBoom с LED-дисплеем и первая умная колонка SberBoom с Zigbee-модулем, который позволяет колонке выполнять функции хаба при управлении умным домом, а также поддерживает Zigbee-сценарии без интернета — все это SberBoom Home.

В сердце SberBoom Home динамик с неодимовым магнитом, специально подобранный для младших колонок семьи SberBoom. Он обеспечивает высокий уровень мощности при более компактных размерах, что позволило существенно увеличить полезный объем акустической камеры и тем самым получить четкий и сбалансированный звук.

За чистоту звука отвечает тонко настроенный программно-аппаратный комплекс, позволяющий передавать аудиосигналы с минимальным количеством искажений.

Финальное улучшение звука выполняется с помощью собственной технологии Salute Sound Processing , которая по специальному  алгоритму динамически усиливает бас в нужных треках и подбирает оптимальный эквалайзер для текущей громкости музыки. Весь этот уникальный комплекс аппаратных и программных решений получил название Magnetic Sound. Подробнее про технологии Magnetic Sound и SSP расскажем в отдельных статьях, а сейчас давайте поговорим о том, из чего состоит девайс и как он создавался.

Читать далее
1
23 ...

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Дмитрий Головин