Статьи / Профиль SecretEditor / Хабр

MTS AI. Secret Editor Account@SecretEditor

Пользователь

Рейтинг

Подписчики

ПрофильСтатьи5ПостыНовостиКомментарии

SecretEditor 24 июл в 07:01

Как переводить смешанный русский-казахский и не сойти с ума

Средний

8 мин

7.3K

Блог компании MWS AIБлог компании МТСИскусственный интеллектБазы данных * Машинное обучение *

Обзор

В Казахстане часто смешивают казахский и русский в соцсетях, переписке, быту. Но попробуйте скормить русско-казахскую фразу любой системе машинного перевода (Machine Translation), и она начнёт чудить. Не потому, что она глупая, а потому что данных для обучения моделей переводить такую языковую кашу почти нет.

В этот раз разбираю научную работу коллег из MWS AI и нескольких университетов, в которой они предложили подход для генерации синтетического датасета под эту задачу на базе уже существующих обычных параллельных корпусов на казахском и русском. Да, это синтетические данные, но в условиях, когда альтернативы нет, это спасает. Их модель, обученная на синтетике, обошла известные коммерческие системы (ручная оценка) в узком, но реальном сценарии.

Велком под кат

+12

SecretEditor 29 мая в 12:00

Как работает адаптивный RAG, которому вообще не нужна LLM

Средний

5 мин

15K

Блог компании МТСБлог компании MWS AIИскусственный интеллектАлгоритмы * Машинное обучение *

Обзор

Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращается к внешним данным, а не опирается исключительно на внутренние знания. Все LLM текущего поколения работают с RAG, но он делает систему затратнее по вычислениям и сам по себе может допускать ошибки, если внешний контекст оказался плохим или нерелевантным.

Сегодня я разберу исследование LLM-Independent Adaptive RAG: Let the Question Speak for Itself, в котором ученые из MWS AI, AIRI, Сколтеха и еще нескольких университетов предлагают решение этой проблемы через новый подход к adaptive retrieval, когда RAG запускается не автоматом, а только при необходимости, и для этого не нужна LLM.

+30

SecretEditor 15 мая в 08:00

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Простой

4 мин

8.1K

Блог компании МТСБлог компании MWS AIМашинное обучение * Открытые данные * Искусственный интеллект

Обзор

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на английский, либо выдают «кальку», либо игнорируют структуру. А всё потому, что они изначально заточены на английский язык. Огрехи встречаются, в частности, в терминологии: модели путают технические заимствования, например «деплой», «коммит», с их буквальным переводом, что делает текст неестественным для разработчика. В структуре тоже не всегда всё гладко: при генерации на русском модели часто «ломают» установленный для Docstring формат (описание, параметры, return, exceptions), из-за чего IDE перестают подхватывать документацию.

Существующие в природе датасеты для обучения кодинг-моделей вроде CodeSearchNet и The Vault либо не содержат русского языка, либо, как MCoNaLa, заточены на поиск, а не на генерацию документации. Именно эту проблему решают ученые из MWS AI: они самостоятельно собрали датасет StRuCom, как раз ориентированный на обучение ИИ генерировать комментарии к коду.

Под катом — история о том, как он был собран.

+25

SecretEditor 9 апр в 12:00

Что не так с оценкой RAG-систем и какое решение предлагает динамический бенчмарк DRAGOn

Средний

9 мин

6.8K

Блог компании МТСБлог компании MWS AIМашинное обучение * Natural Language Processing * Искусственный интеллект

Обзор

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы.

Структура

1. Почему RAG сложно оценивать
2. Идея DRAGOn
3. Как строится бенчмарк
4. Проверка качества QA
5. Проверка бенчмарка на RAG-системах
6. Публичный лидерборд
7. Ограничения, проблемы и практические выводы

+24

SecretEditor 16 апр 2025 в 12:50

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

Простой

2 мин

4.7K

Блог компании MWS AIПрограммирование * Искусственный интеллектМашинное обучение * Качество кода *

Обзор

«Тайный редактор» будет на регулярной основе коротко разжевывать суть научных публикаций по технологиям искусственного интеллекта, отвечать на неудобные вопросы по ИИ, объяснять события, развеивать мифы и разоблачать пустой хайп вокруг технологий.

Сегодня разбираем статью от исследователей MTS AI Iterative Self‑Training for Code Generation via Reinforced Re‑Ranking — о том, как можно обучить реранжирующую модель выбирать качественные варианты кода, сгенерированные другой моделью. Спойлер: с этим подходом удается сделать так, что модель на 13B параметров может обогнать по качеству 33B.