Maslennikovig10 апр в 07:30

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Простой

10 мин

13K

Машинное обучение * Искусственный интеллектУправление разработкой *

Аналитика

+17

Комментарии 10

raswet 11 апр в 03:01

Это по настоящему иссскуство об одном факте написать длинно и несколько раз Мы возьмём нейросеть чтобы сэкономить бюджет так как мы ее используем для обучения. Вопрос, почему лицо котрое хочет поучится само не найдёт нейросеть для этого? Да, вы помогли выбрать бюджетный вариант.

Sinclear 11 апр в 07:38

Я провёл тест, qwen указал победителем gemma4 в задачах правдоподобности сгенерированного текста с загрузкой контекста

stanislav_mikov 11 апр в 04:00

Мне кажется, без Gemini это сравнение не очень полезно

alex-khv 11 апр в 07:34

Есть ещё дистилляция top tier моделей. Не дает ли это уменьшение перплексии для deepseek/mimo и иже с ними ?

Vinegar 11 апр в 10:00

Как-как называется платформа, га которой таким образом уроки публикуют? Ну, знаете, чтобы обходить ее по широкой дуге, ибо не хочется внезапно выяснить, что неделю изучал нейрослоп.

useresses3 11 апр в 19:04

Статья в целом интересная, хотел только сказать имхо.

Англицизмы хуже иероглифов. Про CJK я уже сказал — регулярка, автопроверка, готово. А вот с английскими вставками всё сложнее. «Supply chain» в русском тексте — это норма, устоявшийся термин. «Key performance indicators» — тоже скорее норма, хотя можно было написать «ключевые показатели эффективности». А «Let’s consider the following approach» посреди русского абзаца — это уже артефакт, модель переключилась на английский.

с точки зрения тестирования, анлицизмы действительно хуже иероглифов.

Но с точки зрения прода – нет. Даже если это артефакт, мне явно будет намного проще понять на английском, даже если это будет условная «confidenциальность», чем вот это

静态的 бухгалтерский учет

Это вообще дилема века. Вот китайцы они классные дешёвые, у Qwen ко всему прочему одни из лучших маленьких (до 20b точно, а больше мой комп не тянет) моделей, но они поголовно страдают иероглифами.

Gleb_Karavaev 13 апр в 05:23

В статье не указано, используется ли Web search при генерации контента. А ведь это ключевой момент. Удивительно, но я решаю ту же задачу, только для себя. Генерирую сам себе уроки под мои личные увлечения и интересы. И они приходят мне регулярно порциями в телеграм. Пользуюсь Deep Seek - живьём через браузер, автоматизация через Selenium. Всегда включен Web Search. Я не заморачивался с проверкой как вы, но периодически прошу другую нейросеть сделать факт чекинг, и точность сгенерированных Дип Сиком уроков оказывается всегда высокой. Литературные достоинства по моим ощущениям приемлемые, я доволен. Итак, вы включаете Web Search?

Hellsinger 13 апр в 05:24

Какой-то мягко говоря странный выбор самих апишек, ну ей богу на том же openrouter есть варианты и получше(сами недавно подобный бенч делали, но для других целей)
по похожей с вашей метрикой у нас вшел такой топ:
1)Grok 4.1 Fast
2)Gemini 2.5 Flash
3)DeepSeek V3.1
4)Gemini 2.5 Pro
5)Grok 3 Mini

Но ваще мне больше заходит как то так считать

1. Векторная нормализация:

q_i = Quality_i / sqrt(sum(Quality_k²))

c_i = (1/Cost_i) / sqrt(sum((1/Cost_k)²))

2. Взвешивание:

v_q = 0.8 × q_i

v_c = 0.2 × c_i

3. Идеал и антиидеал:

A+ = (max(v_q), max(v_c))

A‑ = (min(v_q), min(v_c))

4. асстояния:

D+ = sqrt((v_q — v_q+)² + (v_c — v_c+)²)

D‑ = sqrt((v_q — v_q‑)² + (v_c — v_c‑)²)

5. Score = D‑ / (D+ + D‑) ∈ [0, 1]

по такой метрике уже среди похожих по цене топов выбирали...
Но впорос ваще не про метрику, вопрос скорее к выбору... Ну в чем проблема взять не 20 LLM-ок, а штук 50 хотя бы, вдруг что-то упустили

kobubu 13 апр в 18:27

Очень дельная статья, спасибо. Но как ужасно написано текст. Я серьёзно. Невозможно читать. Кто понял - тот понял. Видно, что текст вы генерите не только для обучения. Но и для постов. Всё.

rodial 14 апр в 17:19

CJK-символы в русском тексте

Я заметил такое чаще случается из-за использования квантизации (которая часто используется в моделях на openrouter для экономии). Квантизация распространяется и на все слои и из-за этого появляются артефакты. Есть довольно простые способы уменьшить/избежать этого эффекта если использовать выборочную квантизацию без затрагивания важных слоев, такое используется в unsloth

Зарегистрируйтесь на Хабре, чтобы оставить комментарий