SberDevices, Москва - Создаём умные устройства / Статьи / Хабр

ПрофильСтатьи132Посты1Новости24Подписчики94K

Kandinsky 4.1 Image – новый генератор изображений от Сбера

Средний

4 мин

Блог компании СберБлог компании SberDevicesМашинное обучение*Обработка изображений*Искусственный интеллект

В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

+11

georfed 29 мая в 10:57

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Средний

19 мин

8.7K

Блог компании СберБлог компании SberDevicesМашинное обучение*Искусственный интеллектОбработка изображений*

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет?

Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!

Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!

Мы вас заинтриговали?

Тогда приятного прочтения!

+62

valentina-p 20 мая в 10:37

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Средний

8 мин

11K

Блог компании SberDevicesИскусственный интеллектМашинное обучение*

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).

Ранее мы уже рассказывали на Хабре о создании русскоязычных задач для MTEB. Напомним, что этот бенчмарк предназначен для оценки моделей, способных создавать эмбеддинги текста — векторные представления, применяемые в различных задачах NLP.

+54

ipasechnik 13 мая в 17:40

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Средний

10 мин

12K

Блог компании SberDevicesБлог компании СберРабота с 3D-графикой*Машинное обучение*Искусственный интеллект

Салют, Хабр! В прошлом году мы рассказали о наших исследованиях и разработках в сфере генеративных моделей для 3D-контента, а теперь открываем доступ для тестирования. Встречайте первый российский сервис для генерации 3D-моделей по текстовому описанию или изображению — Kandinsky 3D.

+26

ggospodinov 29 апр в 12:00

Как мы научили GigaChat слышать: погружение в аудиомодальность

Средний

13 мин

Блог компании SberDevicesБлог компании СберИскусственный интеллектМашинное обучение*

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat, эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте!

Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

+21

georfed 22 апр в 12:59

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Средний

15 мин

2.4K

Блог компании SberDevicesИскусственный интеллектМашинное обучение*Обработка изображений*Научно-популярное

Обзор

Что делать, если хочешь отредактировать картинку?

На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!»

Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать.

Мастера фотошопа, оцените!

+26

romacckka 15 апр в 12:31

Всё как в жизни. Адаптация систем распознавания жестовых языков к реальным условиям

Средний

8 мин

753

Блог компании SberDevicesМашинное обучение*Искусственный интеллект

Всем привет! Ранее мы уже писали о том, как собрали самый большой и разнородной открытый датасет русского жестового языка, как выбили первое место в мире на бенчмарке американского жестового языка и какие существуют подходы для перевода жестовой речи. Эта статья посвящена специализированным стратегиям обучения нейросетей для задачи распознавания изолированного жестового языка. Пайплайн обучения был создан с учётом особенностей домена жестовых языков и позволил нам получить state-of-the-art-метрики на популярных датасетах.

+18

valentina-p 14 апр в 15:09

Не просто умные — интеллектуальные. Перевели колонки Sber под управление GigaChat 2.0

11 мин

2.3K

Блог компании SberDevicesИскусственный интеллект

Кейс

Cалют, Хабр!

На связи сразу две команды: GigaChat Prod Data и платформы ассистента. В этом году мы объединили наши силы, чтобы вывести интеллект умных колонок Sber на новый уровень благодаря полному переходу на GigaChat 2.0.

Это означает, что базовые возможности умных колонок, такие, как коммуникация с пользователем и вызовы навыков (музыка, погода и другие), теперь под контролем искусственного интеллекта. Общение с колонками стало больше похоже на разговор с человеком. Они удерживают контекст диалога до десяти раз больше, чем ранее; значительно лучше понимают естественный язык; способны распознать в одном обращении несколько команд и выполнить их.

vorobeevich 13 мар в 15:36

GigaChat 2.0 в API

Средний

14 мин

19K

Блог компании SberDevicesБлог компании СберИскусственный интеллектМашинное обучение*Big Data*

Обзор

Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF.

Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций.

GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!

GigaChat 2

+67

AntonNuzhdin 7 мар в 13:36

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Средний

13 мин

989

Блог компании SberDevicesData Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Обзор

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

sglukhovskoy 25 дек 2024 в 15:00

От идеи до реализации: как создать дашборд для виртуального ассистента «Сочини сказку»

Простой

9 мин

1.2K

Блог компании SberDevicesУправление продуктом*Визуализация данных*

Аналитика

Салют, Хабр! На связи Сергей Глуховской из команды аналитики виртуального ассистента SberDevices. В этой статье, на примере одного из продуктов виртуального ассистента — «Сочини сказку», покажу, как мы с командой поэтапно выстроили путь от процессов и требований бизнеса к готовым дашбордам, опираясь на методику Dashboard Map от Романа Бунина.

В сети находится множество статей про нужные аналитику hard-скиллы. Вы уже, конечно же, знаете все must-have инструменты в работе аналитика: это и SQL, и Python, и теория вероятности с математической статистикой. Знаете, как работать с базами данных, как их (данные) обрабатывать, как составлять прогнозы, делать выводы о генеральной совокупности и так далее. Однако немаловажным качеством аналитика является умение анализировать состояние продукта и помогать совершенствовать его на основе данных.

Одним из ключевых инструментов в этом процессе является построение дашборда — инструмента, который помогает быстро и наглядно отслеживать основные показатели продукта, выявлять зависимости и анализировать тренды. Для того чтобы дашборды действительно были полезны и помогали в принятии управленческих решений, нужно правильно выбрать метрики и типы отчетов.

Так с чего начать выстраивание дашбордов? Как понять, какие типы дашбордов необходимо применять и какие метрики на них отражать? Давайте разбираться.

+14

vltnmmdv 13 дек 2024 в 11:29

Сбер выкладывает GigaChat Lite в открытый доступ

Средний

18 мин

24K

Блог компании SberDevicesБлог компании СберМашинное обучение*Искусственный интеллектOpen source*

Обзор

Салют, Хабр! В начале ноября мы делились с вами новостями о нашем флагмане GigaChat MAX и пообещали рассказать подробнее о процессе создания наших Pretrain-моделей. Пришло время сдержать слово и даже пойти дальше!

Предобучение больших языковых моделей — это одна из наиболее ресурсозатратных стадий, которая непосредственно влияет на весь дальнейший процесс обучения GigaChat. От успешности обучения Pretrain-модели напрямую зависит качество всех следующих этапов обучения, например, Alignment и Vision. Поэтому сегодня мы хотим поделиться весами младшей модели линейки GigaChat версий base и instruct. Модель называется GigaChat-20B-A3B, так как построена на перспективной МоЕ-архитектуре!

Но и это ещё не всё. Вместе с весами мы делимся с сообществом улучшенной реализацией DeepSeek МоЕ, а также кодом для механизма концентрации (а что это такое — читайте дальше ;)). Важно отметить, что хотя GigaChat-20B-A3B обучался на триллионах токенов преимущественно русского текста, он ещё способен на хорошем уровне понимать другие языки. Так что мы делимся мультиязычной моделью. О том, как запускать модель, какие версии доступны и как пользоваться контролируемой генерацией с помощью механизма концентрации, расскажем прямо сейчас!

Узнать что такое MoE

+74

VArkhipkin 13 дек 2024 в 10:14

Kandinsky 4.0 — новая модель генерации видео

Сложный

28 мин

22K

Блог компании СберБлог компании SberDevicesМашинное обучение*Обработка изображений*Natural Language Processing*

Обзор

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video. В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео.

С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

+54

s231644 8 ноя 2024 в 16:50

Понимают ли большие языковые модели данные из таблиц?

Средний

7 мин

7.7K

Блог компании SberDevicesМашинное обучение*Natural Language Processing*

Кейс

Всем привет! С вами команда IDP. Сегодня расскажем о том, как мы оцениваем языковые модели для ответов на вопросы по таблицам.

Наша команда занимается интеллектуальной обработкой документов, и мы нередко сталкиваемся с документами, содержащими таблицы. Человек обычно анализирует их, опираясь на геометрию и визуал (границы ячеек, выделение заголовков, выравнивание текстов в ячейках). Таблицы — это двумерные объекты, языковые модели же работают с одномерными последовательностями токенов. Это наталкивает на вопрос: а насколько хорошо LLM справляются с анализом таблиц в документах?

Мы заинтересовались этой темой неслучайно — в одном из проектов мы работали над вопросно‑ответной системой для технической документации. Большинство вопросов относилось именно к таблицам, причем таблицы были достаточно сложными, с длинными названиями столбцов, формулами и многоуровневыми заголовками. В один момент мы уперлись в потолок по метрикам и тогда решили провести более тщательное исследование.

+26

evgenijkkk 2 ноя 2024 в 13:28

GigaChat MAX — новая, сильная модель GigaChat

Средний

22 мин

37K

Блог компании SberDevicesБлог компании СберМашинное обучение*Искусственный интеллектBig Data*

Обзор

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!

GigaChat MAX

+105

100

syakubson 31 окт 2024 в 16:56

State Space Models. Mamba

Сложный

15 мин

8.1K

Блог компании SberDevicesNatural Language Processing*Искусственный интеллектМашинное обучение*

Обзор

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

+55

magoli 25 окт 2024 в 11:28

Как научить LLM понимать видео? Часть 2

Средний

12 мин

3.5K

Блог компании SberDevicesБлог компании СберМашинное обучение*Обработка изображений*Искусственный интеллект

Кейс

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

+34

hukenovs 16 окт 2024 в 11:58

Bukva: алфавит русского жестового языка

Простой

7 мин

5.6K

Блог компании СберБлог компании SberDevicesData Mining*Машинное обучение*Искусственный интеллект

Всем привет!

Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

+63

Lirol 11 окт 2024 в 11:43

LLM агент для работы с Google Spreadsheets

Средний

17 мин

2.6K

Блог компании SberDevicesМашинное обучение*Искусственный интеллект

Обзор

Салют, Хабр! На связи Арсенин Никита из команды R&D в SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку агентских систем на основе больших языковых моделей.

В этой статье мы постараемся сделать обзорный тур по ключевым технологическим аспектам проектирования и реализации LLM‑агентов, рассмотрим способы работы связок LLM и функций, некоторые компоненты мультиагентных систем, методы контролируемой генерации и повышения робастности. Кроме того, представим и подробно опишем архитектуру и способ построения одного из прототипов LLM‑агентов, нацеленных на выполнение задач в Google SpreadSheets.

Наш LLM‑агент был реализован при помощи SDK GigaChain и GigaGraph, адаптированными под работу с GigaChat. Вы можете посмотреть на итоговую версию Google SpreadSheets агента в репозитории или начать разработку своего агента с вводного туториала.

+21

hukenovs 10 окт 2024 в 10:52

Как научить LLM понимать видео? Обзор подходов

Средний

9 мин

5.7K

Блог компании СберБлог компании SberDevicesМашинное обучение*Обработка изображений*Искусственный интеллект

Обзор

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи.

Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов.

+34

2 3 ...

6 7

Kandinsky 4.1 Image – новый генератор изображений от Сбера

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Как мы научили GigaChat слышать: погружение в аудиомодальность

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Всё как в жизни. Адаптация систем распознавания жестовых языков к реальным условиям

Не просто умные — интеллектуальные. Перевели колонки Sber под управление GigaChat 2.0

GigaChat 2.0 в API

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

От идеи до реализации: как создать дашборд для виртуального ассистента «Сочини сказку»

Сбер выкладывает GigaChat Lite в открытый доступ

Kandinsky 4.0 — новая модель генерации видео

Понимают ли большие языковые модели данные из таблиц?

Ближайшие события

GigaChat MAX — новая, сильная модель GigaChat

State Space Models. Mamba

Как научить LLM понимать видео? Часть 2

Bukva: алфавит русского жестового языка

LLM агент для работы с Google Spreadsheets

Как научить LLM понимать видео? Обзор подходов

Информация