Обновить
62.56
MWS AI
Создаем решения будущего уже сегодня
Сначала показывать

Как мы собирали датасет для разработки ML-инструмента, помогающего спасать жизни

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели8.2K

Привет, Хабр! В этом посте речь пойдет о специфическом датасете, предназначенном для решения очень важной задачи — разработки ML-инструмента, помогающего своевременно выявлять предпосылки и предотвращать суициды. Мы с командой «Пситехлаб», специализирующейся на ИИ-решениях для психотерапии, собирали его по вечерам. Этот проект диссертационный, он не входит в мои обязанности в рамках работы в MWS AI, но опыт, приобретенный в компании, стал базой, без которой его бы не было.

Читать далее

Как мы первыми в России научились заселять в отель без паспорта — по лицу

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8.8K

Привет, Хабр! 

Меня зовут Константин Евсеев, я тружусь в компании VisionLabs, которая специализируется на технологиях биометрии и компьютерного зрения. В этом посте расскажу о проекте, к воплощению которого я хотел приложить руку еще за четыре года до его появления. Конкретно — о разработке системы для заселения в отель по биометрии. Почему? Все просто: если ты инженер и видишь, что что-то можно улучшить, то руки чешутся, пока не сделаешь. 

Читать далее

Как сжимать языковые модели без дообучения

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели9.4K

Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.

Читать далее

Разрабатываем голосового ассистента на Rockchip. Часть 1

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели6.8K

Всем привет! Я Виктор Загускин, руководитель отдела голосового ML в MWS AI. Мы разрабатываем продукт формата «спичкит» — распознавание и синтез речи, анализ ее содержания. Наши клиенты используют эту технологию как кубики для создания прикладных продуктов. Чтобы лучше прочувствовать их потребности и боли, лучше познакомиться с тем, как реализовать голосовые ассистенты на основе современных решений, я решил попробовать сделать подобный продукт самостоятельно. Это будет работающий на локальном устройстве голосовой ассистент со встроенной LLM.

В этом цикле материалов я буду рассказывать о процессе создания ассистента, примененных технологиях, выбранном железе, трудностях и путях их преодоления, буду  демонстрировать этапы работ. Попутно расскажу основные концепции, необходимые для реализации голосовых технологий. 

Первая часть цикла посвящена базе — выбору «железа», тулкитов для инференса, моделей для синтеза и распознавания речи и LLM. Поехали!

Читать далее

ML глазами практика и препода. Часть 2. Границы роста и цена энергии

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели8.9K

Всем привет! Это вторая часть моего лонгрида о том, как ИИ меняет ИТ и не только. Тут я размышляю на тему no-code-моды, физических ограничениях и энергетической цены нынешнего ИИ-бума, а также о трансформациях, которые происходят в науке и медицине благодаря нейросетям. 

Если вы не читали первую часть, то вам сюда

Читать далее

Нельзя просто так взять и заменить тысячи строк кода на промпты. Мы убедились в этом на практике

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6.1K

Привет, Хабр!

Меня зовут Наталья Корсакова, я руководитель департамента лингвистической разработки MWS AI (входит в МТС Web Services и разрабатывает ИИ-продукты и решения как для экосистемы МТС, так и для внешнего рынка). На последнем Conversations AI в Питере на пару с Еленой Деликановой (это наш тимлид разработчиков-лингвистов) мы рассказали, как прикручивали LLM к чат-ботам МТС. Так мы надеялись улучшить лояльность клиентов (абонентов МТС), ускорить разработку и упростить поддержку громоздких диалоговых систем. По многочисленным просьбам излагаем наш опыт в тексте. 

Спойлер: оказалось, что нельзя просто так взять и заменить тысячи строк кода на промпты. То есть можно, но жизнь разработчикам это не упростит, а в некоторых случаях даже усложнит. Однако работа наша оказалась небесполезной: мы поняли, что нужен баланс между традиционной логикой бота и генеративкой, и пришли к идее гибридной архитектуры. Но обо всем по порядку. 

Хотите узнать больше — жмите сюда

Почему «больше токенов ≠ лучше» или Как научить LLM работать с длинным контекстом

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели6.3K

Всем привет! Меня зовут Наталья Бруй, я промпт-инженер в MWS AI. Вместе с моей коллегой  Анастасией Тищенковой мы решили ответить на вопрос, который мучает нашего пиарщика многих – почему больше токенов не равно лучше и  как заставить LLM работать адекватно на длинном контексте. 

Если вы создаете ИИ-решения для работы с большим объемом документов и хотите, чтобы LLM вам в этом помогала ( отвечала на вопросы по содержанию, генерировала запросы и заявления на их основе, делала резюме и и пр.) не абы как, а опираясь на выданные ей данные, тогда вам под кат. 

Оговорочка: эта статья для тех, кто находится на первых этапах освоения темы работы с длинным контекстом и вовлечен в создание каких-нибудь новых ИИ-продуктов на основе языковых моделей. Если вы уже две диссертации об этом написали, тогда можете сразу в комментариях ссылки оставить – мы почитаем. 

Читать далее

Все еще борешься с галлюцинациями? Ты просто не умеешь их использовать

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели4.4K

Привет, Хабр! Меня зовут Василий Коновалов, я работаю в команде «Вычислительная семантика» в AIRI. Наша команда сфокусирована на исследовании галлюцинаций и на решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними.

Но, возможно, мы не всегда должны делать это. Тем более, что научные работы показывают, что галлюцинации неизбежны. Вместо этого мы извлекли из них пользу: мы применили галлюцинации больших мультимодальных моделей для детекции странных картинок — то есть картинок, противоречащих здравому смыслу.

Об этом мы вместе с коллегами из Сколтеха, MWS AI и МФТИ написали научную статью Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images, которую приняли на NAACL. Здесь я кратко расскажу, что именно мы сделали.

Читать далее

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.4K

Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5 практических заданий: полностраничный OCR (страница→текст), структурированный OCR (страница→markdown), grounding (координаты текста), KIE/JSON (извлечение ключей) и VQA (вопрос‑ответ). Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). Код и валидационный сплит открываем; приватный тест — по запросу. Повторить запуск можно менее чем за 1 час.

За подробностями

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.5K

Всем привет! Пару месяцев Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил MERA CODE — бенчмарк для оценки качества умений написания кода для больших языковых моделей.  Инструмент хороший, но есть одна проблема. Все задачи в MERA CODE, как впрочем и в SWE-bench и других бенчмарках подобного назначения , следуют классической парадигме: есть фиксированный обучающий набор данных и, что более важно, фиксированный проверочный набор, которые имеют свойство устаревать. Например, многие из наборов данных для таких бенчмарков собраны из открытых источников типа GitHub.  Большие языковые модели, которые мы  пытаемся оценивать нашим набором задач, также учатся на GitHub и рано или поздно (и в наше время скорее рано) они во время обучения увидят данные из проверочного множества. Это явление называется контаминацией данных. Из-за этого мы не можем больше быть уверены в том, что оценка способностей моделей является объективной.

Мы думали об этой проблеме, и пришли к выводу, что ее влияние можно минимизировать, если мы будем периодически обновлять проверочное множество. Так родилась идея для нашего нового бенчмарка — SWE-MERA, о котором и пойдет речь в этой статье. 

Читать далее

ML глазами практика и препода. Часть 1. Новая парадигма в обработке знаний или хайп?

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели7.5K

Всем привет!

Меня зовут Андрей Иванов, я занимаюсь технологиями искусственного интеллекта последние лет 8: сейчас работаю в MWS AI, а в свободное время — преподаю различные дисциплины, связанные с ИИ. На недавнем Codefest мои коллеги провели опрос разработчиков, который показал, что многие из них (большинство) главным драйвером развития всей сферы информационных технологий считают как раз ИИ, точнее — машинное обучение. Действительно, об этой технологии сейчас вещают все инфлюенсеры от мала до велика и из каждого утюга, причем с разной степенью понимания, того что конкретно она меняет в нашем мире. А на самом ли деле ИИ настолько влиятелен, что его можно ставить в один ряд с изобретением колеса, и нет ли тут очередного раздутого пузыря завышенных ожиданий? Я тут поразмышлял над этим вопросом в философском, научном и практическом аспектах. Мои размышления вылились сразу в два текста — этот первый. 

Читать далее

Как мы строим умный «файрвол» для LLM

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели1.4K

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт‑атакам. Мы его назвали AVI — Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале MDPI. Applied Sciences. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть. 

Заинтересовавшиеся – велком под кат.

Читать далее

ИИ в праве: генеративные фантазии и законодательные дыры

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели1.1K

Всем привет!

Меня зовут Кирилл Дьяков. Я новый писатель на Хабре, так как в основном обитаю на порталах юридических, а не технических. Но поскольку тружусь я в области разработки искусственного интеллекта и очень интересуюсь темой применения ИИ в юридической практике, то решил поделиться с вами своим небольшим обзором – как ИИ проникает в сферу права и какие порядки (и беспорядки) в ней наводит. Расскажу, как и где технология уже применяется юристами, какие задачи помогает решать, какие правовые и технические вызовы создает и даже кого уже успели за ее применение наказать.  

Читать далее

Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1K

Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLM) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют.

В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question)  — то есть вопроса, ответ на который не зависит ни от времени, когда вы его задаёте, ни от места, вопроса про факт, который зафиксирован в истории и не меняется от обстоятельств.

В рамках этой работы мы совместно с MWS AI собрали датасет изменяемых и неизменных вопросов EverGreenQA (открытый доступ), обучили классификатор на базе многоязычного энкодера E5, и применили его для оценки собственных знаний модели. Наши результаты показывают, что большие языковые модели чаще всего правильно отвечают на неизменные вопросы, не прибегая к помощи RAG пайплайна.

Теперь обо всем по порядку.

Ближайшие события

Как мы сделали новых ИИ-помощников для программистов компактными и при этом могучими

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели3.6K

В прошлом году мы уже рассказывали, как создавали нашего помощника программиста Kodify. Не прошло и года, и мы представили вам новую его версию — Kodify 2. А буквально сегодня объявили о выпуске опенсорсной — Kodify Nano. Kodify 2 доступен только для корпоративных заказчиков, а Kodify Nano мы сделали открытым — выложили на Hugging Face.

Ключевое слово для обеих этих версий — компактность. В этой статье отвечаем на главный вопрос, который нам отовсюду прилетал при запуске Kodify: Почему мы решили пойти против течения и создать «легких» ИИ‑помощников для разработчиков? Также вы узнаете, как мы их учили, чтобы они справлялись с поставленными задачами не хуже, чем их собратья схожего или даже большего размера, и какую методологию оценки использовали.

Читать далее

Почему граф в RAG работает лучше, чем вы думаете… но не так, как вам рассказали

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели3.6K

В RAG-решениях все чаще обращаются к графовым базам данных. В этой статье я опишу своё мнение относительно того, в каких ситуациях графовые базы данных действительно оправданы в RAG, а в каких стоит остаться на традиционном векторном подходе. Это может быть полезно для разработчиков и исследователей, которые ищут оптимальные инструменты для построения RAG-решений и хотят понять, когда графовые базы данных могут помочь в их задачах. 

Читать далее

Как мы учили по-доброму шутить LLM и у нас получилось (почти)

Время на прочтение6 мин
Охват и читатели1.7K

Способность открытых LLM шутить, причем по-доброму, могла бы расширить применение ИИ во многих сферах – образовании, терапии, обслуживании клиентов. Так что мы с коллегами из Лаборатории естественного языка НИУ ВШЭ задались этим вопросом и попытались разработать собственную методологию курирования (фильтрации и аннотирования) наборов данных для генерации доброго юмора на малых LM. По всем научным канонам мы ее описали и оценили в этом препринте. А здесь я постараюсь рассказать о ней чуть короче и менее научно.

Читать далее

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели1.8K

«Тайный редактор» будет на регулярной основе коротко разжевывать суть научных публикаций по технологиям искусственного интеллекта, отвечать на неудобные вопросы по ИИ, объяснять события, развеивать мифы и разоблачать пустой хайп вокруг технологий.

Сегодня разбираем статью от исследователей MTS AI Iterative Self‑Training for Code Generation via Reinforced Re‑Ranking — о том, как можно обучить реранжирующую модель выбирать качественные варианты кода, сгенерированные другой моделью. Спойлер: с этим подходом удается сделать так, что модель на 13B параметров может обогнать по качеству 33B.

Читать далее

Как мы учим LLM оценивать друг друга и как это помогло нам улучшить Cotype

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.7K

Всем привет! Сегодня мы выпустили новую версию нашей большой языковой модели Cotype – Cotype Pro 2, с улучшенными возможностями генерации и редактирования текстов, а также суммаризации и анализа информации. Однако в этой статье мы дадим лишь краткое представление нашего нового творения и его преимуществ, а больше расскажем о том, как мы улучшили пайплайн обучения нашей LLM с помощью новой методологии оценки.

Эта методология была разработана в рамках исследования, посвященного сравнению моделей методом Side-by-Side для автоматической оценки LLM. Мы выкладываем в открытый доступ код для её воспроизведения и лидерборд на HuggingFace для сравнения как коммерческих, так и открытых моделей.

Читать далее

Как попасть на международную конференцию по ИИ

Время на прочтение8 мин
Охват и читатели692

Привет, Хабр! Меня зовут Даша Галимзянова, я – NLP-разработчик в MTS AI. Сегодня  на своем опыте расскажу, как попасть на топовые международные ИИ-конференции – и зачем вам это нужно.

Читать далее

Информация

Сайт
mts.ai
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия
Представитель
Анна Родина