Tehnologika Nov 6 2024 at 09:46

Тестируем LLM для русского языка: Какие модели справятся с вашими задачами?

Medium

12 min

23K

Artificial IntelligenceMachine learning * Natural Language Processing * SQL * Python *

Analytics

✏️ Technotext 7

Comments 28

CherryPieHSE Nov 6 2024 at 10:02

Спасибо за исследование!

Я не до конца понял про среду тестирования, про то как оценивалась производительность моделей. Ведь гигачат и яндекс-гпт закрытые модели, их тестировали при помощи апи, правильно?

И ещё очень интересно, как эти модели оцениваются в сравнении с GPT-4o, который тоже очень хорошо знает русский.

Tehnologika Nov 12 2024 at 06:16

Спасибо за внимание к статье!

Я не до конца понял про среду тестирования, про то как оценивалась производительность моделей. Ведь гигачат и яндекс-гпт закрытые модели, их тестировали при помощи апи, правильно?

Верно, гигачат и YandexGPT – закрытые модели. Их тестирование проводилось через доступные бесплатные демонстрационные версии, предоставленные самими разработчиками. Это позволило нам оценить возможности моделей в условиях, близких к реальным, хотя и с возможными ограничениями на количество запросов или время отклика.

Также это позволило протестировать их при затрате малых усилий.

И ещё очень интересно, как эти модели оцениваются в сравнении с GPT-4o, который тоже очень хорошо знает русский.

Некоторые ответы моделей оценивались именно «человеческим взглядом», особенно когда нужно было оценить стиль текста, ясность изложения и креативность. Но для задач извлечения данных из больших текстов, когда необходимо было обработать большой кусок данных, ответы сравнивались с ответами GPT-4o, которые мы принимали за эталон. Потому что действительно, качество ответов GPT-4o очень высокое.

Почему же тогда GPT-4o не принимала участия в тестировании? Потому что основной задачей исследования было найти модель, которую можно использовать для русскоязычных проектов, в которых, к сожалению, невозможно использовать модели OpenAI и многие другие из-за геополитических ограничений.

kalapanga Mar 17 at 13:44

Также это позволило протестировать их при затрате малых усилий.

Какая из моделей генерировала для Вас этот ответ? :)

kalapanga Mar 17 at 13:45

Как-то уж не по-русски

UFO landed and left these words here

Tehnologika Nov 12 2024 at 06:20

Так как главное целью рисерча было найти подходящую модель для проектов для РФ клиентов, данные модели не подходят.

ArtyomO Nov 6 2024 at 16:58

Когда захотели не обидеть отечественных производителей и сравнили недешёвые API Gigachat и Yandex GPT с локальными моделями 7-8B, которые работают даже на MacBook M1 в реальном времени.

Tehnologika Nov 12 2024 at 06:18

В нашем исследовании мы действительно стремились охватить как платные решения, доступные для пользователей в России, так и локальные модели, которые можно развернуть на собственных устройствах. При этом стоимость платных решений не принималась во внимание.

Такой подход позволил сравнить эффективность моделей, ориентированных на бизнес-применение (Gigachat и Yandex GPT), с более доступными локальными моделями, работающими на устройствах, подобных MacBook M1.

ArtyomO Nov 12 2024 at 07:27

Похоже батчем направили LLM ответить на комментарии. Размеренно каждую минуту. Мой комментарий написан человеком, а отвечать LLM это уже какое-то не уважение к пользователям…

akdengi Nov 6 2024 at 17:39

Сравнивать мини-модели на 8b, в которых у исходных моделей изначально русский и не заявлен и дотренированные энтузиастом и модели на сотни миллиардов параметров некорректно. Причем непонятно с какими версиями того же GigaChat сравнивали - light или max? То же Яндексу - у них есть light и pro.

Если уж сравнивать, то с 70B и выше моделями и с теми, где есть русский по дефолту, то й же aya- expance или хотя бы gemma2 на 27B где есть NLP и которая русский в разы лучше Mistral и Llama умеет.

Tehnologika Nov 12 2024 at 06:23

С одной стороны, вы комментария правы – сравнивать модели сильно разных размеров некорректно. С другой стороны, одной из целей рисерча было понять, каким минимальным количеством параметров мы можем обойтись, чтобы решить наши задачи. Именно поэтому мы сравнивли самые разные модели.

По поводу моделей, у которых "изначально русский язык не заявлен" - мы не использовали чисто англоязычные модели или модели, заточенные под какой-то конкретный язык (не русский). Часть моделей – мультиязыковые. И это тоже было сделано намерено, чтобы понять, могут ли такие модели решить наши задачи, или нам нужны более узконаправленные решения.

AlexBogatyrev Nov 7 2024 at 00:47

У Вас какой-то странный выбор вариантов моделей. И непонятно какой Гигачат использовался, а их 4 исполнения - стандартный, Плюс, Про и Макс. Судя по результатам Вы использовали обычный (7-8 миллиардный)

Версия Макс как минимум в 10 раз больше по параметрам, и дает совсем другого качества результаты.

EriIaz Nov 8 2024 at 09:12

Согласен! Тут ещё помимо API, очень странная подборка локальных моделей. Навскидку, что я бы протестировал с открытым весом:

Google Gemma 2 27B - лучшая локальная модель по владению русским языком из тех, которыми я пользовался. Прямо из коробки, даже без файн-тюнов. Это точно лучше, чем старая Сайга на Мистрале 7B

Есть ещё C4AI Aya-expance 32B, с ней не сравнивал, она должна быть на сопоставимом уровне с той Геммой, но я не проверял, потому что она уже тяжеловата для моих ресурсов. Прошлая модель от этих разработчиков до выхода Геммы была лучшей, а это многоязычный файн-тюн от них же.

Saiga Mistral Nemo 12B, причем уже есть вторая версия. На данный момент это сильнейший тюн от Ильи Гусева, по тестам самого уважаемого авгура. Вроде был ещё его тюн Gemma 2 9B, можно было тестировать его. Или первую версию Сайги-Немо, но зачем сравнивать API со бородатым тюном третьей Ламы 8B? И тем более Mistral 7B Lora! Она же устарела в хлам, вы бы ещё ruGPT-2 сюда приплели. Почему так, не понятно))

И вообще нет Вихря. Никакого. А зря, у них тюны примерно на уровне Сайги - иногда чуть лучше, иногда чуть хуже, в зависимости от версии, здоровая конкуренция, короче.

sanneo22 Nov 7 2024 at 05:34

Gemma2 Неплохо говорит по русски, даже 2B версия. Использую в HomeAssistant в качестве Assistant LLM, со своими задачами справляется, даже анекдоты рассказывает)) Однако как модель справится с тестами из статьи я не берусь сказать.

burstmode Nov 7 2024 at 05:34

Реклама нейронок Яндекса и Сбера или чё? Вы их с нормальными моделями сравните, которые хотя бы есть в первой десятке в топе на LMArena

syrupsweety Nov 7 2024 at 05:34

Подборка моделей заставляет взгрустнуть. В выборке из доступных по API не представлены самые передовые модели: GPT-4o и Claude. То же самое можно сказать и про локальные модели, из которых отсутствуют вполне подходящие сюда Qwen2.5 14B, Gemma 2 9B, Mistral NeMo, зато присутствуют кустарные finetune модели saiga.

Надеялся прочитать свежий анализ работы языковых моделей с русским языком, коего в интернете критически мало, вместо этого получил напоминание, что GigaChat существует. 2/10 за попытку.

akdengi Nov 7 2024 at 09:46

Илья Гусев неплохо натаскивает модели на русский, но вот та же saiga лучше работает на основе gemma2 (я ее в ollama добавил в модели, поэтому можно попробовать), так как llama3.1 все-таки изначально не про русский язык и NLP. Надо будет на диктантах для третьего класса сравнить :)

Tehnologika Nov 12 2024 at 11:01

Мы планируем тестировать дальше и собираемся взять gemma2-saiga.

EriIaz Nov 8 2024 at 09:20

Проблема представленных версий Сайги не в том, что они "кустарные", к компетенции Ильи Гусева лично у меня вопросов нет никаких.

Проблемы в том, что это ОЧЕНЬ старые версии Сайги. На момент их релиза они били то, что предлагал Яндекс и Сбер, но это старые модели. То есть, если хотите тестировать Сайгу, тестируйте актуальную Сайгу, а не бородатую Mistral-7B Lora. Тогда будет честное сравнение. Сейчас Сайга может уступить Яндексу и Сберу, у них качество выросло значительно и появились новые опции моделей, моя претензия в том, что нет смысла тестировать старьё, значительно уступающее актуальным моделям за счёт новой базы тюна и его методологии, что подтверждается самим автором.

Это всё равно как если бы OpenAI была здесь представлена какой-нибудь GPT-3.

Tehnologika Nov 12 2024 at 11:04

Тут проблема скорее в том, что рисерч проводился в июле этого года, а статью удалось выпустить только сейчас. Более новые версии Сайги – это Saiga Mistral NeMo 12B, которая вышла 2.11.2024, т.е. после рисерча. И Saiga Gemma 2 9B, которая вышла 27.06.2024, что немного раньше.

Но мы взяли наиболее популярные версии Сайги на тот момент. Популярность оценивали по количеству скачиваний на HuggingFace. Возможно, это не совсем корректно, так как у старых версий может быть больше скачиваний, чем у более свежих версий. Тем не менее выбрали то, что более "на слуху", а Saiga Gemma 2 9B на тот момент пока не была таковой.

Tehnologika Nov 12 2024 at 11:02

GPT-4o и Claude не подходят для РФ проектов. А целью данного рисерча было найти подходящую модель для проектов для РФ клиентов, данные модели не подходят.

Mistral NeMo не поднять даже через платный Colab.

Про Qwen2 не раскопали в рамках ресерча.

Gemma 2 9B хотели протестировать, но ограничились другими моделями.

liquiddeath13 Nov 7 2024 at 05:35

Интересно, какой используется у word-ai. У них бот в телеге, тоже проверяют как-то грамматику и не только

Tehnologika Nov 12 2024 at 11:04

Вероятно, речь идёт о боте Word AI в Telegram, который анализирует текст для проверки грамматики, пунктуации и, возможно, стилистики. Но да, точная информация о том, какие технологии и модели используются в боте Word AI в Telegram, не представлена в открытых источниках.

Zoolander Nov 7 2024 at 11:56

У малых нейронок можно повысить качество, если заставлять их читать собственную выдачу и прорабатывать ошибки в предыдущем ответе.

У больших это тоже работает. Но у малых это особенно заметно, а ещё у малых можно дёшево повторять эти этапы работы над ошибками.

Tehnologika Nov 12 2024 at 11:05

Спасибо за интересное замечание! Вы правы, подход с итеративным чтением и исправлением ответов особенно полезен для малых моделей и может значительно улучшить качество их работы.

Но это больше связано с оптимизацией промта и настройкой самой последовательности взаимодействия с моделью. А на текущем этапе тестирования мы сосредоточились на базовых возможностях моделей без дополнительной промт-оптимизации, чтобы оценить их "чистую" производительность.

Theio Nov 7 2024 at 16:19

Странный выбор моделей, ни t-lite, ни vikhr, зато сайга годичной давности...

dapi Nov 7 2024 at 19:14

Спасибо за обзор!

kvazimoda24 Nov 20 2024 at 15:03

Статья удручает. Я не знаю, что там сейчас есть актуального из свободных моделей, и на сколько серьёзное аппаратное обеспечение необходимо для их запуска. Но по статье выигрывает ЯндексGPT, а это, мягко говоря, очень слабая модель по сравнению с ChatGPT 4o. По крайней мере, на моих задачах, когда мне нужны подсказки по программированию.