Comments 28
Спасибо за исследование!
Я не до конца понял про среду тестирования, про то как оценивалась производительность моделей. Ведь гигачат и яндекс-гпт закрытые модели, их тестировали при помощи апи, правильно?
И ещё очень интересно, как эти модели оцениваются в сравнении с GPT-4o, который тоже очень хорошо знает русский.
Спасибо за внимание к статье!
Я не до конца понял про среду тестирования, про то как оценивалась производительность моделей. Ведь гигачат и яндекс-гпт закрытые модели, их тестировали при помощи апи, правильно?
Верно, гигачат и YandexGPT – закрытые модели. Их тестирование проводилось через доступные бесплатные демонстрационные версии, предоставленные самими разработчиками. Это позволило нам оценить возможности моделей в условиях, близких к реальным, хотя и с возможными ограничениями на количество запросов или время отклика.
Также это позволило протестировать их при затрате малых усилий.
И ещё очень интересно, как эти модели оцениваются в сравнении с GPT-4o, который тоже очень хорошо знает русский.
Некоторые ответы моделей оценивались именно «человеческим взглядом», особенно когда нужно было оценить стиль текста, ясность изложения и креативность. Но для задач извлечения данных из больших текстов, когда необходимо было обработать большой кусок данных, ответы сравнивались с ответами GPT-4o, которые мы принимали за эталон. Потому что действительно, качество ответов GPT-4o очень высокое.
Почему же тогда GPT-4o не принимала участия в тестировании? Потому что основной задачей исследования было найти модель, которую можно использовать для русскоязычных проектов, в которых, к сожалению, невозможно использовать модели OpenAI и многие другие из-за геополитических ограничений.
Где Claude, Gemini, GPT? Чё за отстойные модели в тесте
Когда захотели не обидеть отечественных производителей и сравнили недешёвые API Gigachat и Yandex GPT с локальными моделями 7-8B, которые работают даже на MacBook M1 в реальном времени.
В нашем исследовании мы действительно стремились охватить как платные решения, доступные для пользователей в России, так и локальные модели, которые можно развернуть на собственных устройствах. При этом стоимость платных решений не принималась во внимание.
Такой подход позволил сравнить эффективность моделей, ориентированных на бизнес-применение (Gigachat и Yandex GPT), с более доступными локальными моделями, работающими на устройствах, подобных MacBook M1.
Сравнивать мини-модели на 8b, в которых у исходных моделей изначально русский и не заявлен и дотренированные энтузиастом и модели на сотни миллиардов параметров некорректно. Причем непонятно с какими версиями того же GigaChat сравнивали - light или max? То же Яндексу - у них есть light и pro.
Если уж сравнивать, то с 70B и выше моделями и с теми, где есть русский по дефолту, то й же aya- expance или хотя бы gemma2 на 27B где есть NLP и которая русский в разы лучше Mistral и Llama умеет.
С одной стороны, вы комментария правы – сравнивать модели сильно разных размеров некорректно. С другой стороны, одной из целей рисерча было понять, каким минимальным количеством параметров мы можем обойтись, чтобы решить наши задачи. Именно поэтому мы сравнивли самые разные модели.
По поводу моделей, у которых "изначально русский язык не заявлен" - мы не использовали чисто англоязычные модели или модели, заточенные под какой-то конкретный язык (не русский). Часть моделей – мультиязыковые. И это тоже было сделано намерено, чтобы понять, могут ли такие модели решить наши задачи, или нам нужны более узконаправленные решения.
У Вас какой-то странный выбор вариантов моделей. И непонятно какой Гигачат использовался, а их 4 исполнения - стандартный, Плюс, Про и Макс. Судя по результатам Вы использовали обычный (7-8 миллиардный)
Версия Макс как минимум в 10 раз больше по параметрам, и дает совсем другого качества результаты.
Согласен! Тут ещё помимо API, очень странная подборка локальных моделей. Навскидку, что я бы протестировал с открытым весом:
Google Gemma 2 27B - лучшая локальная модель по владению русским языком из тех, которыми я пользовался. Прямо из коробки, даже без файн-тюнов. Это точно лучше, чем старая Сайга на Мистрале 7B
Есть ещё C4AI Aya-expance 32B, с ней не сравнивал, она должна быть на сопоставимом уровне с той Геммой, но я не проверял, потому что она уже тяжеловата для моих ресурсов. Прошлая модель от этих разработчиков до выхода Геммы была лучшей, а это многоязычный файн-тюн от них же.
Saiga Mistral Nemo 12B, причем уже есть вторая версия. На данный момент это сильнейший тюн от Ильи Гусева, по тестам самого уважаемого авгура. Вроде был ещё его тюн Gemma 2 9B, можно было тестировать его. Или первую версию Сайги-Немо, но зачем сравнивать API со бородатым тюном третьей Ламы 8B? И тем более Mistral 7B Lora! Она же устарела в хлам, вы бы ещё ruGPT-2 сюда приплели. Почему так, не понятно))
И вообще нет Вихря. Никакого. А зря, у них тюны примерно на уровне Сайги - иногда чуть лучше, иногда чуть хуже, в зависимости от версии, здоровая конкуренция, короче.
Gemma2 Неплохо говорит по русски, даже 2B версия. Использую в HomeAssistant в качестве Assistant LLM, со своими задачами справляется, даже анекдоты рассказывает)) Однако как модель справится с тестами из статьи я не берусь сказать.
Реклама нейронок Яндекса и Сбера или чё? Вы их с нормальными моделями сравните, которые хотя бы есть в первой десятке в топе на LMArena
Подборка моделей заставляет взгрустнуть. В выборке из доступных по API не представлены самые передовые модели: GPT-4o и Claude. То же самое можно сказать и про локальные модели, из которых отсутствуют вполне подходящие сюда Qwen2.5 14B, Gemma 2 9B, Mistral NeMo, зато присутствуют кустарные finetune модели saiga.
Надеялся прочитать свежий анализ работы языковых моделей с русским языком, коего в интернете критически мало, вместо этого получил напоминание, что GigaChat существует. 2/10 за попытку.
Илья Гусев неплохо натаскивает модели на русский, но вот та же saiga лучше работает на основе gemma2 (я ее в ollama добавил в модели, поэтому можно попробовать), так как llama3.1 все-таки изначально не про русский язык и NLP. Надо будет на диктантах для третьего класса сравнить :)
Проблема представленных версий Сайги не в том, что они "кустарные", к компетенции Ильи Гусева лично у меня вопросов нет никаких.
Проблемы в том, что это ОЧЕНЬ старые версии Сайги. На момент их релиза они били то, что предлагал Яндекс и Сбер, но это старые модели. То есть, если хотите тестировать Сайгу, тестируйте актуальную Сайгу, а не бородатую Mistral-7B Lora. Тогда будет честное сравнение. Сейчас Сайга может уступить Яндексу и Сберу, у них качество выросло значительно и появились новые опции моделей, моя претензия в том, что нет смысла тестировать старьё, значительно уступающее актуальным моделям за счёт новой базы тюна и его методологии, что подтверждается самим автором.
Это всё равно как если бы OpenAI была здесь представлена какой-нибудь GPT-3.
Тут проблема скорее в том, что рисерч проводился в июле этого года, а статью удалось выпустить только сейчас. Более новые версии Сайги – это Saiga Mistral NeMo 12B, которая вышла 2.11.2024, т.е. после рисерча. И Saiga Gemma 2 9B, которая вышла 27.06.2024, что немного раньше.
Но мы взяли наиболее популярные версии Сайги на тот момент. Популярность оценивали по количеству скачиваний на HuggingFace. Возможно, это не совсем корректно, так как у старых версий может быть больше скачиваний, чем у более свежих версий. Тем не менее выбрали то, что более "на слуху", а Saiga Gemma 2 9B на тот момент пока не была таковой.
GPT-4o и Claude не подходят для РФ проектов. А целью данного рисерча было найти подходящую модель для проектов для РФ клиентов, данные модели не подходят.
Mistral NeMo не поднять даже через платный Colab.
Про Qwen2 не раскопали в рамках ресерча.
Gemma 2 9B хотели протестировать, но ограничились другими моделями.
Интересно, какой используется у word-ai. У них бот в телеге, тоже проверяют как-то грамматику и не только
У малых нейронок можно повысить качество, если заставлять их читать собственную выдачу и прорабатывать ошибки в предыдущем ответе.
У больших это тоже работает. Но у малых это особенно заметно, а ещё у малых можно дёшево повторять эти этапы работы над ошибками.
Спасибо за интересное замечание! Вы правы, подход с итеративным чтением и исправлением ответов особенно полезен для малых моделей и может значительно улучшить качество их работы.
Но это больше связано с оптимизацией промта и настройкой самой последовательности взаимодействия с моделью. А на текущем этапе тестирования мы сосредоточились на базовых возможностях моделей без дополнительной промт-оптимизации, чтобы оценить их "чистую" производительность.
Странный выбор моделей, ни t-lite, ни vikhr, зато сайга годичной давности...
Спасибо за обзор!
Статья удручает. Я не знаю, что там сейчас есть актуального из свободных моделей, и на сколько серьёзное аппаратное обеспечение необходимо для их запуска. Но по статье выигрывает ЯндексGPT, а это, мягко говоря, очень слабая модель по сравнению с ChatGPT 4o. По крайней мере, на моих задачах, когда мне нужны подсказки по программированию.
Тестируем LLM для русского языка: Какие модели справятся с вашими задачами?