Search
Write a publication
Pull to refresh
19
18
Alena Fenogenova @alenusch

NLP research engineer

Send message

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Level of difficultyMedium
Reading time9 min
Views1K

Всем привет! Авторы бенчмарка MERA этим летом не только анонсировали отраслевую ветку — MERA Industrial, но и рады сообщить о расширении проекта на кодовые задачи.

Большие языковые модели (LLM) сегодня умеют не только вести диалог, но и писать код, помогать с документацией и автоматизировать задачи разработчиков. Однако возникает вопрос: «Как мы измеряем качество этих способностей?» Большинство бенчмарков сосредоточены на проверке понимания языка и, частично, на генерации кода. Но насколько такой код применим на практике? Учитываются ли требования, сформулированные на русском? Как модели работают с документацией на других языках, кроме английского? Мультиязычные бенчмарки вроде HumanEval-X, MultiPL-E и mxEval делают шаг в нужную сторону, но по большей части сосредоточены на языках программирования. Связь между кодом и естественным языком, особенно в многоязычном контексте, пока освещена слабо.

Чтобы учесть все эти моменты, мы разработали MERA Code — первый комплексный бенчмарк для оценки больших языковых моделей на реальных прикладных задачах, с которыми сталкивается программист в русскоязычном контексте.

Читать далее

MERA v.1.2.0 Новая версия независимого бенчмарка, что поменялось?

Level of difficultyHard
Reading time11 min
Views2.2K

Всем привет! С вами команда бенчмарка MERA, мы рады анонсировать долгожданное обновление и рассказать, что нового в нашем проекте.

В прошлом году Альянс в сфере искусственного интеллекта представил сообществу независимую площадку для оценки больших языковых моделей — MERA. Мы выпустили первую версию с текстовыми задачами и опубликовали методологию бенчмарка в академической статье. С этой работой мы выступили в августе на ACL-2024 в Бангкоке (ранг A* в рейтинге конференций в области вычислительной техники ICORE), ведущей международной конференции по обработке естественного языка. С момента релиза бенчмарка мы получили свыше 1000 сабмитов от более чем 100 пользователей сайта. Мы получили обратную связь, учли критику и предложения от участников NLP-сообщества и выпускаем новую версию текстовой модальности бенчмарка MERA.

Встречайте MERA v.1.2.0 🔥

MERA — инструктивный бенчмарк для оценки фундаментальных моделей

Reading time12 min
Views7.5K

Оценка ИИ — комплексная, сложная, но невероятно важная задача. Для тестирования моделей обычно используют бенчмарки — набор сложных заданий, решив которые, можно оценить способности языковых моделей. Благодаря бенчмаркам пользователи могут получить метрики по разным задачам и доменам, чтобы понять, как применять ту или иную модель; а исследователи получают объективную информацию, чтобы корректнее обучать свою модель для русского или другого языка, адаптировать ее, понимать, в какую сторону развивать исследования.

Ранее мы писали про коллаборативный проект Russian SuperGLUE нашей команды AGI NLP SberDevices, лаборатории Noah’s Ark Huawei и факультета компьютерных наук ВШЭ. Russian SuperGLUE (RSG) долгое время являлся стандартом, признанным академическими кругами и бизнесом. Однако с развитием языковых моделей становятся сложнее и способы их оценки. В качестве некоторого следующего витка развития процедуры оценки генеративных моделей для русского языка мы рассказывали про few-shot- и zero-shot-оценку на бенчмарке TAPE.

Сегодня исследователи говорят о новом поколении моделей, так называемых фундаментальных моделях. Эти модели обучались на более крупных объемах данных, что позволяет решать на них одновременно большое количество задач и взаимодействовать с ними через текстовые инструкции. Мы наблюдаем их удивительные возможности, но хотим объективно оценивать, что именно они действительно могут. Для этого мы выпустили новый инструктивный бенчмарк MERA: Multimodal* Evaluation for Russian-language Architectures.

Читать далее

GigaChat против всех — тестируем языковую модель на генеративных задачах

Reading time10 min
Views7.8K

В предыдущих постах про рерайтер и суммаризатор мы рассказывали о том, как решали некоторые популярные генеративные задачи с помощью отдельных моделей, и какие возможности дают сервисы на их основе. Однако технологии не стоят на месте. Недавно доступ в GigaChat стал открытым для всех. В этом посте мы решили  исследовать его способности и рассказать вам, как GigaChat справляется с рядом задач в сравнении со «старыми» подходами, ответив на вопросы:

— Может ли модель переписать текст, сохранив его смысл?

— Насколько хорошо GigaChat суммаризирует тексты?

— Умеет ли он стилизовать текст, упрощать, или, например, заменять англицизмы?

Спойлер: оказалось, что GigaChat в формате zero-shot часто обходит классические подходы, использующиеся в наших исходных сервисах, генерируя качественные, осмысленные и грамматически корректные тексты. Так что, кажется, есть все основания полагать, что очень скоро мы все перейдём на GigaChat ;)

Читать далее

От полиглота к эксперту: модели mGPT для малых языков России и стран СНГ

Level of difficultyEasy
Reading time13 min
Views7.3K

Не так давно мы рассказывали про то, как мы обучили модель-полиглот mGPT, которая говорит на 61 языке. Этим летом в открытый доступ мы выложили большую мультиязычную модель (претрейн) mGPT-13B под открытой лицензией MIT.

Сегодня мы хотим поделиться с вами семейством моделей-экспертов на основе оригинальной mGPT для языков СНГ и малых народов России. Оригинальная модель уже владела этими языками, но нам хотелось сделать максимально качественные моноязычные модели, использовав доступные открытые сеты.

Из общего набора в 61 язык мы дообучили 23 модели на дополнительных данных под каждый язык стран СНГ и малых народов России. И в этой статье мы расскажем про то, как мы это сделали и насколько лучше каждый конкретный файнтьюн знает свой язык. А сами модели можете найти на Hugging Face.

Читать далее

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Reading time8 min
Views17K

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать далее

Information

Rating
843-rd
Location
Россия
Date of birth
Registered
Activity

Specialization

Specialist
Natural language processing
Machine learning
Deep Learning
Python
Django