Как стать автором
Обновить
358.1
SberDevices
Создаём умные устройства
Сначала показывать

Понимают ли большие языковые модели данные из таблиц?

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров6.2K

Всем привет! С вами команда IDP. Сегодня расскажем о том, как мы оцениваем языковые модели для ответов на вопросы по таблицам.

Наша команда занимается интеллектуальной обработкой документов, и мы нередко сталкиваемся с документами, содержащими таблицы. Человек обычно анализирует их, опираясь на геометрию и визуал (границы ячеек, выделение заголовков, выравнивание текстов в ячейках). Таблицы — это двумерные объекты, языковые модели же работают с одномерными последовательностями токенов. Это наталкивает на вопрос: а насколько хорошо LLM справляются с анализом таблиц в документах?

Мы заинтересовались этой темой неслучайно — в одном из проектов мы работали над вопросно‑ответной системой для технической документации. Большинство вопросов относилось именно к таблицам, причем таблицы были достаточно сложными, с длинными названиями столбцов, формулами и многоуровневыми заголовками. В один момент мы уперлись в потолок по метрикам и тогда решили провести более тщательное исследование.

Читать далее
Всего голосов 25: ↑22 и ↓3+26
Комментарии30

GigaChat MAX — новая, сильная модель GigaChat

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров23K

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!

GigaChat MAX
Всего голосов 90: ↑85 и ↓5+104
Комментарии95

State Space Models. Mamba

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров4.6K

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

Читать далее
Всего голосов 42: ↑42 и ↓0+55
Комментарии2

Как научить LLM понимать видео? Часть 2

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3K

Привет, Хабр! В прошлой статье мы рассказали про эволюцию подходов к обучению мультимодальных больших языковых моделей для решения задачи понимания видео. Сегодня хотим рассказать про то, как мы учим LLM понимать видео и поддерживать диалог по ним на русском языке, и как мы оцениваем этот навык, чтобы сравнивать разные модели между собой.

Читать далее
Всего голосов 25: ↑25 и ↓0+34
Комментарии2

Bukva: алфавит русского жестового языка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.5K

Всем привет!

Недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем. Предлагаем ознакомиться с нашей работой, в которой мы представим новый датасет Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки. Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая не только статические, но и динамические жесты. В статье расскажем, как мы собрали датасет для решения задачи и какие модели обучили в качестве бейзлайнов. Все данные и код открыты и доступны в репозитории команды.

Читать далее
Всего голосов 52: ↑50 и ↓2+62
Комментарии6

Истории

LLM агент для работы с Google Spreadsheets

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.5K

Салют, Хабр! На связи Арсенин Никита из команды R&D в SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку агентских систем на основе больших языковых моделей.

В этой статье мы постараемся сделать обзорный тур по ключевым технологическим аспектам проектирования и реализации LLM‑агентов, рассмотрим способы работы связок LLM и функций, некоторые компоненты мультиагентных систем, методы контролируемой генерации и повышения робастности. Кроме того, представим и подробно опишем архитектуру и способ построения одного из прототипов LLM‑агентов, нацеленных на выполнение задач в Google SpreadSheets.

Наш LLM‑агент был реализован при помощи SDK GigaChain и GigaGraph, адаптированными под работу с GigaChat. Вы можете посмотреть на итоговую версию Google SpreadSheets агента в репозитории или начать разработку своего агента с вводного туториала.

Читать далее
Всего голосов 14: ↑14 и ↓0+21
Комментарии3

Как научить LLM понимать видео? Обзор подходов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.9K

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи.

Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов. 

Читать далее
Всего голосов 23: ↑23 и ↓0+34
Комментарии0

Перфоратор не помеха. Наслаждаемся «чистым» звуком с денойзером от SaluteJazz

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.4K

Представьте себе ситуацию: вы работаете на удаленке и должны принять участие в важной видеоконференции, а в этот момент домашняя кошка решила устроить спортивный забег, снося все на своем пути. В соседней комнате заплакал ребенок, а сосед именно в этот момент решил просверлить несколько отверстий под новую полочку. Могло бы случиться непоправимое, но во избежание катастрофы мы придумали своё решение, которое не даст вашим собеседникам заметить что‑то подозрительное.

Меня зовут Артем Соколов. Я и мои коллеги занимаемся направлением улучшения звука в команде SaluteSpeech. Мы в SberDevices разрабатываем и развиваем целую линейку В2В‑решений — от речевых сервисов до видеоконференцсвязи. И во всех наших продуктах стремимся использовать собственные технологии.

Один из флагманских продуктов, который мы создаём, — сервис для видеоконференций SaluteJazz. В первую очередь он ориентирован на бизнес‑коммуникации, которые предполагают высокое качество звука без посторонних шумов. За достаточно короткий срок мы подготовили и встроили в него собственный «шумодав» (он же денойзер). Про него и пойдет речь в этой статье.

Читать далее
Всего голосов 20: ↑18 и ↓2+23
Комментарии14

DETR: Бесконечная история

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров2.6K

Всем привет, с вами команда Layer!
Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных пользовательскому запросу. Мы хотим сделать эту работу как можно более доступной для каждого, кто хочет глубже разобраться в теме. Поэтому мы решили написать этот небольшой туториал, посвященный семейству моделей DETR, так как они используются не только для детекции котиков на картинках, но и в таких необычных доменах, как детекция моментов в видео. Мы уверены, что среди читателей многие знакомы с основами DETR, однако подозреваем, что не все могли следить за её развитием. Всё‑таки по сравнению с YOLO, DETRу пиара явно не достает. В этой статье мы предлагаем краткий обзор эволюции модели, чтобы помочь вам лучше ориентироваться в новых исследованиях. Если же вы впервые слышите о DETR или хотите освежить свои знания, то бегом читать — тык, если после прочтения остались вопросы, то можно ознакомиться с этими видео — тык, тык.

Давайте детальнее разберёмся, что ждёт вас в этом туториале. Сначала мы рассмотрим недостатки оригинальной версии DETR, а затем перейдём к архитектурным улучшениям, которые либо устранили эти проблемы, либо заметно их сгладили. Начнём с Deformable DETR — модели, которая оптимизировала вычисления. Затем обратим внимание на Conditional DETR и DAB DETR — архитектуры, которые существенно переосмыслили роль queries в модели. Далее мы погрузимся в особенности DN‑DETR, который стабилизирует one‑to‑one matching. После этого детально разберём DINO DETR — модель, которая объединяет и улучшает идеи DN‑DETR и DAB‑DETR, а также переизобретает RPN для детекционных трансформеров. И в завершение нашего путешествия мы познакомимся с CO‑DETR, который объединил классические детекторы, такие как ATSS, Faster RCNN, и модели типа DETR, установив новые SOTA метрики на COCO.

Читать далее
Всего голосов 24: ↑20 и ↓4+22
Комментарии0

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров1.8K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥
Всего голосов 23: ↑23 и ↓0+33
Комментарии3

Сочини сказку — интерактивные детские сказки c умными колонками Sber теперь и на экранах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.4K

Всем привет! На связи Настя Шахматова из команды Нейронавыков SberDevices. Мы делаем развлекательные навыки на основе GigaChat для виртуального ассистента Салют.

Под занавес 2023 года наша команда представила релиз детского навыка «Сочини сказку» на умных колонках Sberboom и Sberboom Mini на базе GigaChat Lite. Этим летом семейство умных устройств пополнила также колонка Sberboom Home.

Сегодня мы провели релиз версии для экранов на новых платформах Салют ТВ, SberBox, SberBox Top, SberBox Time на модели GigaChat Pro. Для запуска навыка, как и прежде, нужно сказать ассистенту: «Сочини сказку». Далее ассистент предложит выбрать героя, и пользователь сможет стать соавтором сказочной истории.

Читать далее
Всего голосов 23: ↑19 и ↓4+21
Комментарии5

Отличается ли внимание человека и модели-трансформера?

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.9K

Для того, чтобы понимать язык и делать различные выводы, человек рассуждает, опираясь на знания о мире и здравый смысл. Несмотря на то, что большие языковые модели достигли значительных успехов в обработке естественного языка, рассуждение на основе здравого смысла остаëтся одним из самых сложных навыков. 

Наиболее распространëнным способом оценки способностей моделей рассуждать, опираясь на здравый смысл, является тест на основе схемы Винограда (The Winograd Schema Challenge, или WSC), названный в честь Терри Винограда, профессора компьютерных наук в Стэнфордском университете. Тест основан на разрешении синтаксической неоднозначности.

Давайте рассмотрим пример из схемы Винограда:

"Кубок не помещается в коричневый чемодан, потому что он слишком большой."

Что в этом случае является слишком большим: чемодан или кубок? Для человека ответ является очевидным, а для модели?..

Мы расскажем про наше исследование, в котором сравнили внимание человека и модели, а также проанализировали, на какие слова при решении схемы Винограда обращают внимание человек и модель. Хотя внимание человека и внимание трансформера кажутся совершенно разными, отдельные результаты говорят о взаимосвязи между ними.

Читать далее
Всего голосов 16: ↑15 и ↓1+20
Комментарии4

Рецепт идеальной разметки в Computer Vision

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.5K

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

Читать далее
Всего голосов 10: ↑10 и ↓0+17
Комментарии1

Ускорение и облегчение моделей для поддержания диалога виртуальных ассистентов Салют

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.1K

Привет, Хабр! Меня зовут Александр Абрамов и я ML Lead продукта в SberDevices. Эта статья — про обучение core-моделей retrieval-based диалоговых систем, поговорим про хинты для ускорения обучения и сходимости, также затрону тему общей схемы inference и оптимизации её компонентов. Речь пойдёт о ML с позиции пайплайнов и продакшена виртуального ассистента Салют.

Читать далее
Всего голосов 14: ↑14 и ↓0+18
Комментарии0

Ближайшие события

Как мы делали гибридную обработку звука: всё об аудиософте в SberBoom и почему просто годных излучателей недостаточно

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.4K

40-ваттный всенаправленный звук в SberBoom — профессиональная гордость нашей команды. В прошлой статье мы рассказали, как придумали акустическую архитектуру. А в тут рассказали, как устроено звуковоспроизведение в ядре Linux. В этот раз объясним из каких софтовых решений складывается звук SberBoom. Почему стандартные методы коррекции звука — не наш выбор? Как реальность расходится с вендорской документацией и зачем реверсинжинирить усилители? Читайте под катом.

Читать далее
Всего голосов 13: ↑12 и ↓1+15
Комментарии7

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.1K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее
Всего голосов 26: ↑25 и ↓1+32
Комментарии2

SberBoom Home — новый этап в эволюции умных колонок

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.6K

Салют, Хабр! Сегодня стартовали продажи сразу двух новых умных колонок от SberDevices: SberBoom Home и SberBoom Mini 2. 

SberBoom Home — это новый этап в эволюции умных колонок SberBoom. Первая умная колонка SberBoom с LED-дисплеем и первая умная колонка SberBoom с Zigbee-модулем, который позволяет колонке выполнять функции хаба при управлении умным домом, а также поддерживает Zigbee-сценарии без интернета — все это SberBoom Home.

В сердце SberBoom Home динамик с неодимовым магнитом, специально подобранный для младших колонок семьи SberBoom. Он обеспечивает высокий уровень мощности при более компактных размерах, что позволило существенно увеличить полезный объем акустической камеры и тем самым получить четкий и сбалансированный звук.

За чистоту звука отвечает тонко настроенный программно-аппаратный комплекс, позволяющий передавать аудиосигналы с минимальным количеством искажений.

Финальное улучшение звука выполняется с помощью собственной технологии Salute Sound Processing , которая по специальному  алгоритму динамически усиливает бас в нужных треках и подбирает оптимальный эквалайзер для текущей громкости музыки. Весь этот уникальный комплекс аппаратных и программных решений получил название Magnetic Sound. Подробнее про технологии Magnetic Sound и SSP расскажем в отдельных статьях, а сейчас давайте поговорим о том, из чего состоит девайс и как он создавался.

Читать далее
Всего голосов 21: ↑16 и ↓5+21
Комментарии21

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.9K

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее
Всего голосов 29: ↑27 и ↓2+35
Комментарии6

Переводчик с языка, на котором нельзя говорить и писать

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров10K

Привет, Хабр! Это Александр Капитанов и Александр Нагаев из Sber Devices. Мы занимаемся задачами компьютерного зрения: генерацией, матированием и редактированием изображений, сегментацией, портретной гармонизацией, заменой лиц, распознаванием жестов. А с недавних пор ещё и распознаваниtv русского жестового языка.

Поговорим о том, что заставило нас решать данную проблему. Затронем теорию жестового языка — подозреваю, что мало кто с ней знаком. Расскажем, как мы собирали собственный датасет для распознавания русского жестового языка и затронем тему обучения моделей для решения данной задачи. Также поделимся с вами результатом и немного расскажем про семейство наших моделей signflow. 

Читать далее
Всего голосов 24: ↑24 и ↓0+29
Комментарии2

Live SymFormer Show. Музыкальное шоу с использованием AI-технологий

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров635

Салют, Хабр! На связи Алексей Минин. В SberDevices наша команда занимается созданием и развитием решений в области генеративной музыки. В этой статье хочу рассказать о том, как мы реализовали музыкальное шоу с применением технологий AI на прошедшей в апреле конференции GIGA RnD Day. В тот день на сцене вживую импровизировали музыканты и вместе с ними наша нейросетевая модель для генерации музыкальных произведений — SymFormer. В результате симбиоза живого исполнения и технологий на сцене создавалась уникальная музыкальная композиция в режиме реального времени.

Читать далее
Всего голосов 16: ↑16 и ↓0+19
Комментарии0

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Дмитрий Головин