Обновить

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели12K
Всего голосов 17: ↑16 и ↓1+17
Комментарии10

Комментарии 10

Это по настоящему иссскуство об одном факте написать длинно и несколько раз Мы возьмём нейросеть чтобы сэкономить бюджет так как мы ее используем для обучения. Вопрос, почему лицо котрое хочет поучится само не найдёт нейросеть для этого? Да, вы помогли выбрать бюджетный вариант.

Я провёл тест, qwen указал победителем gemma4 в задачах правдоподобности сгенерированного текста с загрузкой контекста

Мне кажется, без Gemini это сравнение не очень полезно

Есть ещё дистилляция top tier моделей. Не дает ли это уменьшение перплексии для deepseek/mimo и иже с ними ?

Как-как называется платформа, га которой таким образом уроки публикуют? Ну, знаете, чтобы обходить ее по широкой дуге, ибо не хочется внезапно выяснить, что неделю изучал нейрослоп.

Статья в целом интересная, хотел только сказать имхо.

Англицизмы хуже иероглифов. Про CJK я уже сказал — регулярка, автопроверка, готово. А вот с английскими вставками всё сложнее. «Supply chain» в русском тексте — это норма, устоявшийся термин. «Key performance indicators» — тоже скорее норма, хотя можно было написать «ключевые показатели эффективности». А «Let’s consider the following approach» посреди русского абзаца — это уже артефакт, модель переключилась на английский.

с точки зрения тестирования, анлицизмы действительно хуже иероглифов.

Но с точки зрения прода – нет. Даже если это артефакт, мне явно будет намного проще понять на английском, даже если это будет условная «confidenциальность», чем вот это

静态的 бухгалтерский учет

Это вообще дилема века. Вот китайцы они классные дешёвые, у Qwen ко всему прочему одни из лучших маленьких (до 20b точно, а больше мой комп не тянет) моделей, но они поголовно страдают иероглифами.

В статье не указано, используется ли Web search при генерации контента. А ведь это ключевой момент. Удивительно, но я решаю ту же задачу, только для себя. Генерирую сам себе уроки под мои личные увлечения и интересы. И они приходят мне регулярно порциями в телеграм. Пользуюсь Deep Seek - живьём через браузер, автоматизация через Selenium. Всегда включен Web Search. Я не заморачивался с проверкой как вы, но периодически прошу другую нейросеть сделать факт чекинг, и точность сгенерированных Дип Сиком уроков оказывается всегда высокой. Литературные достоинства по моим ощущениям приемлемые, я доволен. Итак, вы включаете Web Search?

Какой-то мягко говоря странный выбор самих апишек, ну ей богу на том же openrouter есть варианты и получше(сами недавно подобный бенч делали, но для других целей)
по похожей с вашей метрикой у нас вшел такой топ:
1)Grok 4.1 Fast
2)Gemini 2.5 Flash
3)DeepSeek V3.1
4)Gemini 2.5 Pro
5)Grok 3 Mini

Но ваще мне больше заходит как то так считать

1. Векторная нормализация:

q_i = Quality_i / sqrt(sum(Quality_k²))

c_i = (1/Cost_i) / sqrt(sum((1/Cost_k)²))

2. Взвешивание:

v_q = 0.8 × q_i

v_c = 0.2 × c_i

3. Идеал и антиидеал:

A+ = (max(v_q), max(v_c))

A‑ = (min(v_q), min(v_c))

4. асстояния:

D+ = sqrt((v_q — v_q+)² + (v_c — v_c+)²)

D‑ = sqrt((v_q — v_q‑)² + (v_c — v_c‑)²)

5. Score = D‑ / (D+ + D‑) ∈ [0, 1]


по такой метрике уже среди похожих по цене топов выбирали...
Но впорос ваще не про метрику, вопрос скорее к выбору... Ну в чем проблема взять не 20 LLM-ок, а штук 50 хотя бы, вдруг что-то упустили

Очень дельная статья, спасибо. Но как ужасно написано текст. Я серьёзно. Невозможно читать. Кто понял - тот понял. Видно, что текст вы генерите не только для обучения. Но и для постов. Всё.

CJK-символы в русском тексте

Я заметил такое чаще случается из-за использования квантизации (которая часто используется в моделях на openrouter для экономии). Квантизация распространяется и на все слои и из-за этого появляются артефакты. Есть довольно простые способы уменьшить/избежать этого эффекта если использовать выборочную квантизацию без затрагивания важных слоев, такое используется в unsloth

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации