Articles / Profile of SecretEditor / Habr

MTS AI. Secret Editor Account@SecretEditor

User

Rating

Subscribers

ProfileArticles5PostsNewsComments

SecretEditor Jul 24 at 07:01

Как переводить смешанный русский-казахский и не сойти с ума

Medium

8 min

7.5K

MWS AI corporate blogМТС corporate blogArtificial IntelligenceDatabase Administration * Machine learning *

Review

В Казахстане часто смешивают казахский и русский в соцсетях, переписке, быту. Но попробуйте скормить русско-казахскую фразу любой системе машинного перевода (Machine Translation), и она начнёт чудить. Не потому, что она глупая, а потому что данных для обучения моделей переводить такую языковую кашу почти нет.

В этот раз разбираю научную работу коллег из MWS AI и нескольких университетов, в которой они предложили подход для генерации синтетического датасета под эту задачу на базе уже существующих обычных параллельных корпусов на казахском и русском. Да, это синтетические данные, но в условиях, когда альтернативы нет, это спасает. Их модель, обученная на синтетике, обошла известные коммерческие системы (ручная оценка) в узком, но реальном сценарии.

Велком под кат

+12

SecretEditor May 29 at 12:00

Как работает адаптивный RAG, которому вообще не нужна LLM

Medium

5 min

15K

МТС corporate blogMWS AI corporate blogArtificial IntelligenceAlgorithms * Machine learning *

Review

Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращается к внешним данным, а не опирается исключительно на внутренние знания. Все LLM текущего поколения работают с RAG, но он делает систему затратнее по вычислениям и сам по себе может допускать ошибки, если внешний контекст оказался плохим или нерелевантным.

Сегодня я разберу исследование LLM-Independent Adaptive RAG: Let the Question Speak for Itself, в котором ученые из MWS AI, AIRI, Сколтеха и еще нескольких университетов предлагают решение этой проблемы через новый подход к adaptive retrieval, когда RAG запускается не автоматом, а только при необходимости, и для этого не нужна LLM.

+30

SecretEditor May 15 at 08:00

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Easy

4 min

8.1K

МТС corporate blogMWS AI corporate blogMachine learning * Open data * Artificial Intelligence

Review

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на английский, либо выдают «кальку», либо игнорируют структуру. А всё потому, что они изначально заточены на английский язык. Огрехи встречаются, в частности, в терминологии: модели путают технические заимствования, например «деплой», «коммит», с их буквальным переводом, что делает текст неестественным для разработчика. В структуре тоже не всегда всё гладко: при генерации на русском модели часто «ломают» установленный для Docstring формат (описание, параметры, return, exceptions), из-за чего IDE перестают подхватывать документацию.

Существующие в природе датасеты для обучения кодинг-моделей вроде CodeSearchNet и The Vault либо не содержат русского языка, либо, как MCoNaLa, заточены на поиск, а не на генерацию документации. Именно эту проблему решают ученые из MWS AI: они самостоятельно собрали датасет StRuCom, как раз ориентированный на обучение ИИ генерировать комментарии к коду.

Под катом — история о том, как он был собран.

+25

SecretEditor Apr 9 at 12:00

Что не так с оценкой RAG-систем и какое решение предлагает динамический бенчмарк DRAGOn

Medium

9 min

6.8K

МТС corporate blogMWS AI corporate blogMachine learning * Natural Language Processing * Artificial Intelligence

Review

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus — будет полезна всем, кто интересуется RAG и хочет знать, как оценивать такие системы.

Структура

1. Почему RAG сложно оценивать
2. Идея DRAGOn
3. Как строится бенчмарк
4. Проверка качества QA
5. Проверка бенчмарка на RAG-системах
6. Публичный лидерборд
7. Ограничения, проблемы и практические выводы

+24

SecretEditor Apr 16 2025 at 12:50

Как обучить LLM выбирать правильные варианты кода, сгенерированные другой моделью. Разбор от Тайного редактора

Easy

2 min

4.7K

MWS AI corporate blogProgramming * Artificial IntelligenceMachine learning * Perfect code *

Review

«Тайный редактор» будет на регулярной основе коротко разжевывать суть научных публикаций по технологиям искусственного интеллекта, отвечать на неудобные вопросы по ИИ, объяснять события, развеивать мифы и разоблачать пустой хайп вокруг технологий.

Сегодня разбираем статью от исследователей MTS AI Iterative Self‑Training for Code Generation via Reinforced Re‑Ranking — о том, как можно обучить реранжирующую модель выбирать качественные варианты кода, сгенерированные другой моделью. Спойлер: с этим подходом удается сделать так, что модель на 13B параметров может обогнать по качеству 33B.