Pull to refresh
75
0
Rai220 @Rai220

User

Send message

Перфоратор не помеха. Наслаждаемся «чистым» звуком с денойзером от SaluteJazz

Level of difficultyMedium
Reading time14 min
Views2.1K

Представьте себе ситуацию: вы работаете на удаленке и должны принять участие в важной видеоконференции, а в этот момент домашняя кошка решила устроить спортивный забег, снося все на своем пути. В соседней комнате заплакал ребенок, а сосед именно в этот момент решил просверлить несколько отверстий под новую полочку. Могло бы случиться непоправимое, но во избежание катастрофы мы придумали своё решение, которое не даст вашим собеседникам заметить что‑то подозрительное.

Меня зовут Артем Соколов. Я и мои коллеги занимаемся направлением улучшения звука в команде SaluteSpeech. Мы в SberDevices разрабатываем и развиваем целую линейку В2В‑решений — от речевых сервисов до видеоконференцсвязи. И во всех наших продуктах стремимся использовать собственные технологии.

Один из флагманских продуктов, который мы создаём, — сервис для видеоконференций SaluteJazz. В первую очередь он ориентирован на бизнес‑коммуникации, которые предполагают высокое качество звука без посторонних шумов. За достаточно короткий срок мы подготовили и встроили в него собственный «шумодав» (он же денойзер). Про него и пойдет речь в этой статье.

Читать далее
Total votes 16: ↑14 and ↓2+16
Comments7

DETR: Бесконечная история

Level of difficultyHard
Reading time13 min
Views2.1K

Всем привет, с вами команда Layer!
Мы рады сообщить, что совсем скоро выйдет наша новая исследовательская работа, посвященная поиску моментов в видео, релевантных пользовательскому запросу. Мы хотим сделать эту работу как можно более доступной для каждого, кто хочет глубже разобраться в теме. Поэтому мы решили написать этот небольшой туториал, посвященный семейству моделей DETR, так как они используются не только для детекции котиков на картинках, но и в таких необычных доменах, как детекция моментов в видео. Мы уверены, что среди читателей многие знакомы с основами DETR, однако подозреваем, что не все могли следить за её развитием. Всё‑таки по сравнению с YOLO, DETRу пиара явно не достает. В этой статье мы предлагаем краткий обзор эволюции модели, чтобы помочь вам лучше ориентироваться в новых исследованиях. Если же вы впервые слышите о DETR или хотите освежить свои знания, то бегом читать — тык, если после прочтения остались вопросы, то можно ознакомиться с этими видео — тык, тык.

Давайте детальнее разберёмся, что ждёт вас в этом туториале. Сначала мы рассмотрим недостатки оригинальной версии DETR, а затем перейдём к архитектурным улучшениям, которые либо устранили эти проблемы, либо заметно их сгладили. Начнём с Deformable DETR — модели, которая оптимизировала вычисления. Затем обратим внимание на Conditional DETR и DAB DETR — архитектуры, которые существенно переосмыслили роль queries в модели. Далее мы погрузимся в особенности DN‑DETR, который стабилизирует one‑to‑one matching. После этого детально разберём DINO DETR — модель, которая объединяет и улучшает идеи DN‑DETR и DAB‑DETR, а также переизобретает RPN для детекционных трансформеров. И в завершение нашего путешествия мы познакомимся с CO‑DETR, который объединил классические детекторы, такие как ATSS, Faster RCNN, и модели типа DETR, установив новые SOTA метрики на COCO.

Читать далее
Total votes 23: ↑19 and ↓4+21
Comments0

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Level of difficultyHard
Reading time11 min
Views1.5K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥
Total votes 23: ↑23 and ↓0+33
Comments3

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Level of difficultyEasy
Reading time27 min
Views86K

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →
Total votes 226: ↑220 and ↓6+248
Comments351

SberBoom Home — новый этап в эволюции умных колонок

Level of difficultyMedium
Reading time8 min
Views4.4K

Салют, Хабр! Сегодня стартовали продажи сразу двух новых умных колонок от SberDevices: SberBoom Home и SberBoom Mini 2. 

SberBoom Home — это новый этап в эволюции умных колонок SberBoom. Первая умная колонка SberBoom с LED-дисплеем и первая умная колонка SberBoom с Zigbee-модулем, который позволяет колонке выполнять функции хаба при управлении умным домом, а также поддерживает Zigbee-сценарии без интернета — все это SberBoom Home.

В сердце SberBoom Home динамик с неодимовым магнитом, специально подобранный для младших колонок семьи SberBoom. Он обеспечивает высокий уровень мощности при более компактных размерах, что позволило существенно увеличить полезный объем акустической камеры и тем самым получить четкий и сбалансированный звук.

За чистоту звука отвечает тонко настроенный программно-аппаратный комплекс, позволяющий передавать аудиосигналы с минимальным количеством искажений.

Финальное улучшение звука выполняется с помощью собственной технологии Salute Sound Processing , которая по специальному  алгоритму динамически усиливает бас в нужных треках и подбирает оптимальный эквалайзер для текущей громкости музыки. Весь этот уникальный комплекс аппаратных и программных решений получил название Magnetic Sound. Подробнее про технологии Magnetic Sound и SSP расскажем в отдельных статьях, а сейчас давайте поговорим о том, из чего состоит девайс и как он создавался.

Читать далее
Total votes 21: ↑16 and ↓5+21
Comments21

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Level of difficultyMedium
Reading time11 min
Views5.3K

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее
Total votes 29: ↑27 and ↓2+35
Comments6

Live SymFormer Show. Музыкальное шоу с использованием AI-технологий

Level of difficultyMedium
Reading time5 min
Views596

Салют, Хабр! На связи Алексей Минин. В SberDevices наша команда занимается созданием и развитием решений в области генеративной музыки. В этой статье хочу рассказать о том, как мы реализовали музыкальное шоу с применением технологий AI на прошедшей в апреле конференции GIGA RnD Day. В тот день на сцене вживую импровизировали музыканты и вместе с ними наша нейросетевая модель для генерации музыкальных произведений — SymFormer. В результате симбиоза живого исполнения и технологий на сцене создавалась уникальная музыкальная композиция в режиме реального времени.

Читать далее
Total votes 16: ↑16 and ↓0+19
Comments0

GIGA R&D DAY: материалы конференции

Level of difficultyEasy
Reading time6 min
Views2.7K

На недавней конференции GIGA R&D DAY, организованной командой R&D SberDevices, участники обсудили последние достижения в разработке GigaChat, NLP, Vision и Audio.

Событие собрало ведущих специалистов и экспертов в области искусственного интеллекта, которые поделились своими идеями и разработками. В день рождения GigaChat'a делимся с вами видеозаписями выступлений и презентациями докладов, которые охватывают широкий спектр тем от мультимодальности и мультиэкспертности до проблем alignment и задач генерации речи.

Читать далее
Total votes 20: ↑20 and ↓0+24
Comments0

Какой плащ был у Понтия Пилата? Отвечает GigaChat

Level of difficultyMedium
Reading time10 min
Views9.1K

Всем привет! На связи лид разработки SDK GigaChat’a — Константин Крестников. В этой статье я расскажу о том, что такое GigaChain и как в целом SDK позволяет упростить жизнь разработчика LLM, например, научить LLM давать ответы на вопросы по вашим документам или работать в режиме автономного агента. Также поговорим про решения, которые практически невозможно сделать без использования SDK.

GigaСhain — это ответвление (fork) открытой библиотеки LangСhain на Python. Её главная цель — облегчить жизнь разработчику. Библиотека состоит из большого количества различных компонентов, которые позволяют работать с промптами, объединять вызовы к большим языковым моделям в цепочки, загружать данные из разных источников и сохранять обработанные ответы языковой модели. 

Читать далее
Total votes 27: ↑27 and ↓0+27
Comments18

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

Level of difficultyMedium
Reading time18 min
Views19K

С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи.

За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.

Читать далее
Total votes 42: ↑39 and ↓3+46
Comments44

GigaSearch или Поисковая система на GigaChat

Level of difficultyMedium
Reading time4 min
Views7.1K

Галлюцинации — это явление, которое до недавнего времени было привилегией человеческого сознания. Однако, с развитием текстовых генеративных моделей, таких как GigaChat и ChatGPT, возникла возможность наблюдать подобные "иллюзии" и в мире искусственного интеллекта.

Есть случаи, когда галлюцинации генеративной модели вполне уместны. Например, если вы попросите модель сгенерировать детскую сказку, то наличие в ней выдуманных персонажей и событий будет весьма кстати и понравится малышу.

Но мы точно не хотим получать выдуманную информацию про реальных людей или события. Кому интересно почитать о том, как мы боремся с галлюцинациями в GigaChat — добро пожаловать под кат.

Читать дальше
Total votes 13: ↑12 and ↓1+16
Comments17

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Level of difficultyMedium
Reading time8 min
Views24K

Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество тибетских монахов о наступлении конца света, а в повести Ника Горькавого «Астровитянка» ИИ был единственным другом маленькой девочки в течение десятка лет и помог ей выжить на чужой планете. Многие люди, включая специалистов, верят как в позитивный, так и в негативный путь развития искусственного интеллекта. К счастью, подобные системы являются лишь инструментом, который можно использовать себе во благо, или оставаться в стороне от этого. Уверен, что в течение нескольких лет ажиотаж вокруг нейросетей постепенно спадёт до такой степени, что мы будем относиться к ним как к ещё одному подарку технического прогресса.

А пока мы с вами находимся в настоящем и предвкушаем наступление новой технологической эры, предлагаю разобраться в основах машинного обучения и познакомиться с новой версией GigaChat'а. В ней нам удалось добиться качественного прорыва, обойти аналогичные по размеру языковые модели, а также расширить максимальную длину входного запроса модели и проделать множество других улучшений. Но обо всём по порядку.

Сначала освежим в памяти, что такое языковые модели и как они развивались до сегодняшних дней.

Читать далее
Total votes 56: ↑50 and ↓6+56
Comments103

Приделываем руки к ChatGPT: бот, который исполняет код в рантайме

Level of difficultyEasy
Reading time5 min
Views35K

В предыдущей статье я рассказывал, как можно доучить GPT на собственных взглядах и вкусах. Сегодня попробуем дать GPT возможность поработать программистом по‑настоящему — с запуском кода и отладкой без участия человека. Весь код опубликован в репозитарии.

Как многие уже убедились, ChatGPT хорош, но есть некоторые типы задач, с которыми у него возникают трудности:

1. Он не может получать новые актуальные знания из сети.
2. Он не может выполнить какие‑либо действия.
3. У него сложности с алгоритмическими задачами (перевернуть строку, решить уравнение, произвести вычисления с применением численных методов).

И если задача 1 решается с помощью BingChat, то 2 и 3 мы сегодня будем решать в рамках данного туториала.

Основная идея такая: пусть ChatGPT сам решает, может ли он справиться с задачей «в уме» или же это лучше сделать с помощью написания кода на python, а наш сервер сразу же выполняет этот код и снова отдает результат работы ChatGPT, чтобы он мог его интерпретировать и или выдать пользователю окончательный ответ или исправить ошибку в своей программе и попытаться ещё раз.

Дальше много примеров и немного кода...
Total votes 47: ↑46 and ↓1+60
Comments30

Переносим свою картину мира в чат-бота на базе GPT-3

Reading time4 min
Views47K

Думаю, все уже наслышаны о потрясающих возможностях ChatGPT и GPT-3, многие уже вдоволь наигрались с ними, а новые стартапы на их основе льются на нас каждый проливным дождём! Возможности ChatGPT в решении некоторых текстовых задач потрясают, порой кажется, что имеешь дело с настоящим разумом.

У меня возникла идея - что если попробовать доучить сеть так, чтобы она имитировала картину мира определенного человека? (Да, снова Черное Зеркало). Классический подход с pre-prompt для этого не подходит, так как хочется заложить в сеть побольше знаний (а также реально поменять веса связей), поэтому будем использовать fine-tune (дообучение на небольшом датасете и небольшом числе итераций). Такая опция доступна пользователям openAI за небольшую плату ($0.5-1 в моих примерах).

В этой статье я покажу как можно обучить GPT-3 (в версии davinchi-003) на своей картине мира и засунуть её внутрь телеграм-бота, потратив на всё всего несколько долларов.

Код бота доступен в репозитарии.

Читать далее
Total votes 34: ↑33 and ↓1+41
Comments31

Черное Зеркало своими руками — обучаем бота на базе своей истории чатов

Reading time4 min
Views16K

В "Черном Зеркале" была серия (S2E1), в которой создавали роботов, похожих на умерших людей, используя для обучения историю переписок в социальных сетях. Я хочу рассказать, как я попробовал сделать что-то подобное и что из этого получилось. Теории не будет, только практика.


image


Идея была простая — взять историю своих чатов из Telegram и на их основе обучить seq2seq сеть, способную по началу диалога предсказывать его завершение. Такая сеть может работать в трех режимах:


  • Предсказывать завершение фразы пользователя с учетом истории разговора
  • Работать в режиме чат-бота
  • Синтезировать логи разговоров целиком

Вот что получилось у меня


Бот предлагает завершение фразы


image


Бот предлагает завершение диалога


image


Бот общается с живым человеком


User: привет
Bot: привет
User: как ты?
Bot: собираюсь
User: баг пофиксил?
Bot: нет
User: почему?
Bot: да не получается
User: ты сегодня когда дома будешь?
Bot: не знаю пока
User: ты занят?
Bot: в магазин еду 

Дальше я расскажу, как подготовить данные и обучить такого бота самому.

Читать дальше →
Total votes 38: ↑36 and ↓2+34
Comments11

3D-движок, написанный на формулах MS Excel

Reading time9 min
Views117K

Скриншот экрана игры

Эта статья посвящена тому, как я смог написать 3D-движок только на формулах Excel. Я реализовал следующий функционал:

  • бесконечная процедурно генерируемая карта лабиринта
  • рендеринг трассировкой лучей в реальном времени
  • вычисление окклюзии
  • рендеринг простейшего освещения
  • шейдер освещения и вычислений
  • движок естественного движения
  • в 3D-движке не используются макросы

* чтобы управлять игрой нажатием клавиш, нужны макросы, управляющие движением с помощью одной простой инструкции копирования.

Можете скачать файл и протестировать его самостоятельно!
Total votes 229: ↑226 and ↓3+223
Comments101

Cubic Robotics: почему мы решили идти на мировой краудфайндинг

Reading time4 min
Views28K
Весной этого года наш стартап, который занимается разработкой и производством домашнего робота-помощника Cubic получил инвестиции в $500 000, мы показали работающие прототипы устройства, продали 10 тестовых экземпляров. Мы планировали продать первый серийный Cubic летом этого года. Однако, в самый последний момент мы решили пойти на краудфайндинг. Почему – мы попробуем объяснить в этой статье



Читать дальше →
Total votes 48: ↑39 and ↓9+30
Comments57

Домашний робот: от идеи к продукту

Reading time3 min
Views21K
С древних времен человек хотел разговаривать с окружающим миром. Говорящие вещи окружали его в сказках и легендах. Злая королева общается с говорящим зеркалом, Горлум жалуется на тяготы и невзгоды бытия Кольцу Всевластья, Тамерлан разговаривал с камнями и давал им имена.

Все это потому, что голос — самый естественный способ общения для человека, вербальные коммуникации заложены в наших генах. И вот сегодня мы вплотную приблизились к воплощению древнейшей мечты человечества при помощи высоких технологий.

В Cubic Robotics мы верим, что скорейший путь к “говорящему миру” лежит через создание универсальной голосовой операционной системы, которую с одной стороны можно было бы установить на любое устройство. С другой стороны такую систему могли бы развивать независимые разработчики по всему миру. Именно такой является разработанная и запатентованная нами голосовая операционная система V.O.I.S. (Voice Operation Intellectual System).

image

V.O.I.S. — универсальная голосовая операционная система, при помощи которой можно сделать говорящим почти любой предмет. Разговаривать значит, не просто принимать голосовые приказы, но действительно понимать человека, поддерживать и даже инициировать разговор. Это тот самый искусственный интеллект, находящийся внутри нашей разработки — роботе-ассистенте Cubic (о нем мы рассказывали подробно в прошлой статье).

Также на базе V.O.I.S. уже создаются и проектируются разговаривающие автомобили, интеллектуальные помощники для смартфонов и носимых гаджетов.

Читать дальше →
Total votes 49: ↑47 and ↓2+45
Comments70

Как мы делали домашнего робота

Reading time4 min
Views54K
Человечество давно мечтает о домашних роботах. За последние сто лет образ домашнего робота сформирован в фантастических фильмах и книгах: чаще всего это антропоморфное устройство с головой, руками и ногами. Такой робот всегда готов приготовить и принести хозяину чашечку кофе, подмести пол, протереть окно и выполнить другую домашнюю работу. А еще домашние роботы из фантастики всегда могут поговорить с хозяином. Не просто выполнять команды, а быть секретарем, помощником, партнером или даже другом!

image

Когда мы с друзьями решили сделать своего домашнего робота, то тоже сначала смотрели на андроидов. Хотелось построить этакого дворецкого, чтобы и завтрак мог приготовить, и ковер пропылесосить, и гостей встретить. К сожалению, изучив рынок, мы поняли, что сегодня такого робота сделать нельзя. Вернее сделать-то можно, но он будет стоить как новая иномарка и требовать регулярного сервисного обслуживания, при этом адаптация такого робота под каждую конкретную кухню будет не проще, чем пересобрать Ubuntu на Z80. Понятно, что желающих купить такого робота будет не очень много.

И тогда пришло понимание, что домашнему роботу на первых порах совсем не обязательно ходить по дому. Вдохновением для нас стал Jarvis (Джарвис) — герой фильма «Железный человек». Это дворецкий, искусственный интеллект, не имеющий тела, но способный управлять различными устройствами в доме главного героя. В результате у нас получился Cubic — домашний робот, который живет дома и может полноценно (более или менее) разговаривать с его обитателями, а также управлять различными системами типа «умный дом».

Читать дальше →
Total votes 96: ↑93 and ↓3+90
Comments123

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity