Комментарии к публикации «Тестируем LLM для русского языка: Какие модели справятся с вашими задачами?»

03.12.2025 15:47:22 pvv_iss

pvv_iss — Wed, 03 Dec 2025 15:47:22 GMT

у меня сложилось впечатление, что это аффилированное исследование: "... кукушка хвалит петуха!"
Давно пишу Prompt-ы и Экспромпты.
в YandexGPT постоянно "вылазят уши ChatGPT"

17.03.2025 13:45:54 kalapanga

kalapanga — Mon, 17 Mar 2025 13:45:54 GMT

Как-то уж не по-русски

17.03.2025 13:44:14 kalapanga

kalapanga — Mon, 17 Mar 2025 13:44:14 GMT

Также это позволило протестировать их при затрате малых усилий.

Какая из моделей генерировала для Вас этот ответ? :)

20.11.2024 15:03:33 kvazimoda24

kvazimoda24 — Wed, 20 Nov 2024 15:03:33 GMT

Статья удручает. Я не знаю, что там сейчас есть актуального из свободных моделей, и на сколько серьёзное аппаратное обеспечение необходимо для их запуска. Но по статье выигрывает ЯндексGPT, а это, мягко говоря, очень слабая модель по сравнению с ChatGPT 4o. По крайней мере, на моих задачах, когда мне нужны подсказки по программированию.

12.11.2024 11:05:35 Tehnologika

Tehnologika — Tue, 12 Nov 2024 11:05:35 GMT

Спасибо за интересное замечание! Вы правы, подход с итеративным чтением и исправлением ответов особенно полезен для малых моделей и может значительно улучшить качество их работы.

Но это больше связано с оптимизацией промта и настройкой самой последовательности взаимодействия с моделью. А на текущем этапе тестирования мы сосредоточились на базовых возможностях моделей без дополнительной промт-оптимизации, чтобы оценить их "чистую" производительность.

12.11.2024 11:04:58 Tehnologika

Tehnologika — Tue, 12 Nov 2024 11:04:58 GMT

Вероятно, речь идёт о боте Word AI в Telegram, который анализирует текст для проверки грамматики, пунктуации и, возможно, стилистики. Но да, точная информация о том, какие технологии и модели используются в боте Word AI в Telegram, не представлена в открытых источниках.

12.11.2024 11:04:26 Tehnologika

Tehnologika — Tue, 12 Nov 2024 11:04:26 GMT

Тут проблема скорее в том, что рисерч проводился в июле этого года, а статью удалось выпустить только сейчас. Более новые версии Сайги – это Saiga Mistral NeMo 12B, которая вышла 2.11.2024, т.е. после рисерча. И Saiga Gemma 2 9B, которая вышла 27.06.2024, что немного раньше.

Но мы взяли наиболее популярные версии Сайги на тот момент. Популярность оценивали по количеству скачиваний на HuggingFace. Возможно, это не совсем корректно, так как у старых версий может быть больше скачиваний, чем у более свежих версий. Тем не менее выбрали то, что более "на слуху", а Saiga Gemma 2 9B на тот момент пока не была таковой.

12.11.2024 11:02:56 Tehnologika

Tehnologika — Tue, 12 Nov 2024 11:02:56 GMT

GPT-4o и Claude не подходят для РФ проектов. А целью данного рисерча было найти подходящую модель для проектов для РФ клиентов, данные модели не подходят.

Mistral NeMo не поднять даже через платный Colab.

Про Qwen2 не раскопали в рамках ресерча.

Gemma 2 9B хотели протестировать, но ограничились другими моделями.

12.11.2024 11:01:55 Tehnologika

Tehnologika — Tue, 12 Nov 2024 11:01:55 GMT

Мы планируем тестировать дальше и собираемся взять gemma2-saiga.

12.11.2024 07:27:06 ArtyomO

ArtyomO — Tue, 12 Nov 2024 07:27:06 GMT

Похоже батчем направили LLM ответить на комментарии. Размеренно каждую минуту. Мой комментарий написан человеком, а отвечать LLM это уже какое-то не уважение к пользователям…

12.11.2024 06:23:21 Tehnologika

Tehnologika — Tue, 12 Nov 2024 06:23:21 GMT

С одной стороны, вы комментария правы – сравнивать модели сильно разных размеров некорректно. С другой стороны, одной из целей рисерча было понять, каким минимальным количеством параметров мы можем обойтись, чтобы решить наши задачи. Именно поэтому мы сравнивли самые разные модели.

По поводу моделей, у которых "изначально русский язык не заявлен" - мы не использовали чисто англоязычные модели или модели, заточенные под какой-то конкретный язык (не русский). Часть моделей – мультиязыковые. И это тоже было сделано намерено, чтобы понять, могут ли такие модели решить наши задачи, или нам нужны более узконаправленные решения.

12.11.2024 06:20:56 Tehnologika

Tehnologika — Tue, 12 Nov 2024 06:20:56 GMT

Так как главное целью рисерча было найти подходящую модель для проектов для РФ клиентов, данные модели не подходят.

12.11.2024 06:18:42 Tehnologika

Tehnologika — Tue, 12 Nov 2024 06:18:42 GMT

В нашем исследовании мы действительно стремились охватить как платные решения, доступные для пользователей в России, так и локальные модели, которые можно развернуть на собственных устройствах. При этом стоимость платных решений не принималась во внимание.

Такой подход позволил сравнить эффективность моделей, ориентированных на бизнес-применение (Gigachat и Yandex GPT), с более доступными локальными моделями, работающими на устройствах, подобных MacBook M1.

12.11.2024 06:16:46 Tehnologika

Tehnologika — Tue, 12 Nov 2024 06:16:46 GMT

Спасибо за внимание к статье!

Я не до конца понял про среду тестирования, про то как оценивалась производительность моделей. Ведь гигачат и яндекс-гпт закрытые модели, их тестировали при помощи апи, правильно?

Верно, гигачат и YandexGPT – закрытые модели. Их тестирование проводилось через доступные бесплатные демонстрационные версии, предоставленные самими разработчиками. Это позволило нам оценить возможности моделей в условиях, близких к реальным, хотя и с возможными ограничениями на количество запросов или время отклика.

Также это позволило протестировать их при затрате малых усилий.

И ещё очень интересно, как эти модели оцениваются в сравнении с GPT-4o, который тоже очень хорошо знает русский.

Некоторые ответы моделей оценивались именно «человеческим взглядом», особенно когда нужно было оценить стиль текста, ясность изложения и креативность. Но для задач извлечения данных из больших текстов, когда необходимо было обработать большой кусок данных, ответы сравнивались с ответами GPT-4o, которые мы принимали за эталон. Потому что действительно, качество ответов GPT-4o очень высокое.

Почему же тогда GPT-4o не принимала участия в тестировании? Потому что основной задачей исследования было найти модель, которую можно использовать для русскоязычных проектов, в которых, к сожалению, невозможно использовать модели OpenAI и многие другие из-за геополитических ограничений.

08.11.2024 09:20:18 EriIaz

EriIaz — Fri, 08 Nov 2024 09:20:18 GMT

Проблема представленных версий Сайги не в том, что они "кустарные", к компетенции Ильи Гусева лично у меня вопросов нет никаких.

Проблемы в том, что это ОЧЕНЬ старые версии Сайги. На момент их релиза они били то, что предлагал Яндекс и Сбер, но это старые модели. То есть, если хотите тестировать Сайгу, тестируйте актуальную Сайгу, а не бородатую Mistral-7B Lora. Тогда будет честное сравнение. Сейчас Сайга может уступить Яндексу и Сберу, у них качество выросло значительно и появились новые опции моделей, моя претензия в том, что нет смысла тестировать старьё, значительно уступающее актуальным моделям за счёт новой базы тюна и его методологии, что подтверждается самим автором.

Это всё равно как если бы OpenAI была здесь представлена какой-нибудь GPT-3.

08.11.2024 09:12:41 EriIaz

EriIaz — Fri, 08 Nov 2024 09:12:41 GMT

Согласен! Тут ещё помимо API, очень странная подборка локальных моделей. Навскидку, что я бы протестировал с открытым весом:

Google Gemma 2 27B - лучшая локальная модель по владению русским языком из тех, которыми я пользовался. Прямо из коробки, даже без файн-тюнов. Это точно лучше, чем старая Сайга на Мистрале 7B

Есть ещё C4AI Aya-expance 32B, с ней не сравнивал, она должна быть на сопоставимом уровне с той Геммой, но я не проверял, потому что она уже тяжеловата для моих ресурсов. Прошлая модель от этих разработчиков до выхода Геммы была лучшей, а это многоязычный файн-тюн от них же.

Saiga Mistral Nemo 12B, причем уже есть вторая версия. На данный момент это сильнейший тюн от Ильи Гусева, по тестам самого уважаемого авгура. Вроде был ещё его тюн Gemma 2 9B, можно было тестировать его. Или первую версию Сайги-Немо, но зачем сравнивать API со бородатым тюном третьей Ламы 8B? И тем более Mistral 7B Lora! Она же устарела в хлам, вы бы ещё ruGPT-2 сюда приплели. Почему так, не понятно))

И вообще нет Вихря. Никакого. А зря, у них тюны примерно на уровне Сайги - иногда чуть лучше, иногда чуть хуже, в зависимости от версии, здоровая конкуренция, короче.

07.11.2024 19:14:40 dapi

dapi — Thu, 07 Nov 2024 19:14:40 GMT

Спасибо за обзор!

07.11.2024 16:19:31 Theio

Theio — Thu, 07 Nov 2024 16:19:31 GMT

Странный выбор моделей, ни t-lite, ни vikhr, зато сайга годичной давности...

07.11.2024 11:56:37 Zoolander

Zoolander — Thu, 07 Nov 2024 11:56:37 GMT

У малых нейронок можно повысить качество, если заставлять их читать собственную выдачу и прорабатывать ошибки в предыдущем ответе.

У больших это тоже работает. Но у малых это особенно заметно, а ещё у малых можно дёшево повторять эти этапы работы над ошибками.

07.11.2024 09:46:57 akdengi

akdengi — Thu, 07 Nov 2024 09:46:57 GMT

Илья Гусев неплохо натаскивает модели на русский, но вот та же saiga лучше работает на основе gemma2 (я ее в ollama добавил в модели, поэтому можно попробовать), так как llama3.1 все-таки изначально не про русский язык и NLP. Надо будет на диктантах для третьего класса сравнить :)

07.11.2024 05:35:13 liquiddeath13

liquiddeath13 — Thu, 07 Nov 2024 05:35:13 GMT

Интересно, какой используется у word-ai. У них бот в телеге, тоже проверяют как-то грамматику и не только

07.11.2024 05:34:55 syrupsweety

syrupsweety — Thu, 07 Nov 2024 05:34:55 GMT

Подборка моделей заставляет взгрустнуть. В выборке из доступных по API не представлены самые передовые модели: GPT-4o и Claude. То же самое можно сказать и про локальные модели, из которых отсутствуют вполне подходящие сюда Qwen2.5 14B, Gemma 2 9B, Mistral NeMo, зато присутствуют кустарные finetune модели saiga.

Надеялся прочитать свежий анализ работы языковых моделей с русским языком, коего в интернете критически мало, вместо этого получил напоминание, что GigaChat существует. 2/10 за попытку.

07.11.2024 05:34:53 burstmode

burstmode — Thu, 07 Nov 2024 05:34:53 GMT

Реклама нейронок Яндекса и Сбера или чё? Вы их с нормальными моделями сравните, которые хотя бы есть в первой десятке в топе на LMArena

07.11.2024 05:34:52 sanneo22

sanneo22 — Thu, 07 Nov 2024 05:34:52 GMT

Gemma2 Неплохо говорит по русски, даже 2B версия. Использую в HomeAssistant в качестве Assistant LLM, со своими задачами справляется, даже анекдоты рассказывает)) Однако как модель справится с тестами из статьи я не берусь сказать.

07.11.2024 00:47:39 AlexBogatyrev

AlexBogatyrev — Thu, 07 Nov 2024 00:47:39 GMT

У Вас какой-то странный выбор вариантов моделей. И непонятно какой Гигачат использовался, а их 4 исполнения - стандартный, Плюс, Про и Макс. Судя по результатам Вы использовали обычный (7-8 миллиардный)

Версия Макс как минимум в 10 раз больше по параметрам, и дает совсем другого качества результаты.

06.11.2024 17:39:12 akdengi

akdengi — Wed, 06 Nov 2024 17:39:12 GMT

Сравнивать мини-модели на 8b, в которых у исходных моделей изначально русский и не заявлен и дотренированные энтузиастом и модели на сотни миллиардов параметров некорректно. Причем непонятно с какими версиями того же GigaChat сравнивали - light или max? То же Яндексу - у них есть light и pro.

Если уж сравнивать, то с 70B и выше моделями и с теми, где есть русский по дефолту, то й же aya- expance или хотя бы gemma2 на 27B где есть NLP и которая русский в разы лучше Mistral и Llama умеет.

06.11.2024 16:58:51 ArtyomO

ArtyomO — Wed, 06 Nov 2024 16:58:51 GMT

Когда захотели не обидеть отечественных производителей и сравнили недешёвые API Gigachat и Yandex GPT с локальными моделями 7-8B, которые работают даже на MacBook M1 в реальном времени.

06.11.2024 14:39:12 lczero

lczero — Wed, 06 Nov 2024 14:39:12 GMT

Где Claude, Gemini, GPT? Чё за отстойные модели в тесте

06.11.2024 10:02:09 CherryPieHSE

CherryPieHSE — Wed, 06 Nov 2024 10:02:09 GMT

Спасибо за исследование!

Я не до конца понял про среду тестирования, про то как оценивалась производительность моделей. Ведь гигачат и яндекс-гпт закрытые модели, их тестировали при помощи апи, правильно?

И ещё очень интересно, как эти модели оцениваются в сравнении с GPT-4o, который тоже очень хорошо знает русский.