Xiaomi Mimo V2: Как бесплатная модель от вендора смартфонов обошла Qwen 235B в генерации образовательного контента / Хабр

Мы ожидали увидеть очередную "легкую" модель для телефонов, а нашли hidden gem, который генерирует учебные материалы лучше, чем модели в 100 раз больше. Подробный разбор с JSON-ами, промптами и сравнением.

Скрытый текст

Xiaomi MiMo V2 Flash — бесплатная модель на OpenRouter, которая:

🏆 Генерирует лучшие педагогические сценарии среди протестированных моделей
⚡ Работает в 3x быстрее Qwen 3 (11 сек vs 34 сек)
🎯 100% валидный JSON с первой попытки
💰 Стоит $0.00 (пока)

Когда использовать: EdTech, онбординг, soft skills, обучающие боты.
Когда НЕ использовать: Deep Tech (DevOps, ML-инженерия) — тут лучше Kimi K2.
Альтернатива: Gemini 2.5 Flash (ещё быстрее, 4.3 сек, платная).

Введение: Эффект "Темной лошадки"

В мире LLM есть устоявшаяся иерархия. Если нужен код — берешь Claude Sonnet или Opus. Если нужна дешевая "рабочая лошадка" — берешь GPT-4o-mini. Если нужен open-source гигант — берешь Qwen 2.5 (72B) или Qwen 3 (235B).

Когда на OpenRouter появилась Xiaomi Mimo V2 Flash, мы добавили её в наши автотесты скорее ради смеха. "Ну что может сделать модель от производителя пылесосов и смартфонов? Наверняка это квантованная 7B-моделька, которая забудет контекст на третьем предложении".

Через час мы смотрели в логи с открытыми ртами.
Эта "моделька":

Обошла Qwen 3 235B по качеству педагогических сценариев. (Да, формально у Qwen 235B параметров, но это MoE-архитектура с ~22B активных параметров на инференс. Тем не менее, это топовая модель в open-source сегменте.)
Выдала идеальный JSON, который не пришлось править (что редкость даже для GPT-4).
Сделала это за 11 секунд (против 34-58 у конкурентов).
И стоила $0.00.

В этой статье я покажу "внутрянку" наших тестов: реальные примеры генерации, сравнение ответов моделей side-by-side и анализ того, почему "больше параметров" не всегда значит "лучше".

Как мы тестируем: "Жесткий JSON"

Мы разрабатываем платформу для автоматической генерации образовательных курсов. Это значит, что нам не нужен просто "текст в чатик". Нам нужен строго структурированный JSON, который можно распарсить и отрендерить в LMS (Learning Management System).

Наш стандартный промпт (упрощенно)

Мы требуем от модели не просто "напиши урок", а заполнить схему:

{
  "title": "String",
  "learning_objectives": ["String", "String"],
  "sections": [
    {
      "title": "String",
      "content": "String (Markdown)",
      "examples": [
        {
          "type": "dialogue | code | case",
          "content": "String"
        }
      ]
    }
  ],
  "exercises": [
    {
      "type": "multiple_choice | open_text",
      "question": "String",
      "correct_answer": "String"
    }
  ]
}

Это сложная задача. Модель должна одновременно:

Держать в голове контекст урока.
Следовать жесткой схеме (не забыть закрыть скобку!).
Генерировать качественный контент внутри полей.

Обычно маленькие модели (8B-30B) ломаются на пункте 2. Большие (70B+) справляются, но медленно.

Инженерная кухня: Борьба за чистый JSON

Любой, кто пробовал заставить LLM отдавать строгий JSON, знает: это боль. Модели обожают добавлять "вступительное слово" ("Here is the JSON you requested...") или забывать закрыть скобку в конце длинной генерации.

В ходе тестов мы столкнулись с несколькими проблемами, которые пришлось решать кодом и промпт-инжинирингом.

1. Проблема "Болтливой модели"

Даже если в системном промпте написать OUTPUT ONLY JSON, модели (особенно Instruct-версии) часто заворачивают ответ в Markdown-блоки.

Решение: Нам пришлось написать "чистильщика" на Node.js, который вырезает мусор до и после JSON. Вот реальный код из нашего тестового раннера:

function cleanJsonResponse(text) {
  // Убираем markdown-обертку ```json ... ```
  let cleaned = text.replace(/```json\s*/g, '').replace(/```\s*/g, '');
  cleaned = cleaned.trim();
  
  // Нормализуем кавычки (модели любят ставить типографские “”)
  cleaned = cleaned.replace(/[""]/g, '"');
  cleaned = cleaned.replace(/['']/g, "'");
  
  // Вырезаем все до первой { и после последней }
  const firstBrace = cleaned.indexOf('{');
  const lastBrace = cleaned.lastIndexOf('}');
  if (firstBrace !== -1 && lastBrace !== -1) {
    cleaned = cleaned.substring(firstBrace, lastBrace + 1);
  }
  return cleaned;
}

Но очистка — это полдела. Дальше в бой вступает Zod. Мы не доверяем LLM на слово, поэтому каждый ответ проходит жесткую валидацию схемы.

import { z } from "zod";

const LessonSchema = z.object({
  title: z.string().min(5),
  sections: z.array(z.object({
    title: z.string(),
    content: z.string().min(100), // Не принимаем "отписки"
    examples: z.array(z.object({
      type: z.enum(["dialogue", "code", "case"]),
      content: z.string()
    })).min(1) // Обязательно хоть один пример!
  })).min(2)
});

// Если модель галлюцинирует и пропускает поля — Zod выкинет ошибку,
// и мы отправим модель на "пересдачу" (Retry).

Xiaomi Mimo в 100% случаев отдавала валидный JSON, который проходил эту схему с первого раза. Для сравнения, модель Nemotron Nano 30B в наших тестах часто выдавала битый JSON (обрывалась на середине), что видно по логам с ошибками lesson-1.1-ERROR.json.

2. Проблема "Каши в голове"

Модели часто смешивают теорию и примеры. Если попросить просто "напиши секцию", модель напишет абзац теории, потом пример, потом снова теорию. Это плохо парсится для UI, где примеры должны быть выделены визуально.

Решение: Мы внедрили "Негативные ограничения" (Negative Constraints) прямо в структуру JSON в промпте.

// Фрагмент нашего промпта
sections: [
  {
    "title": "Section heading",
    "content": "THEORY ONLY: concepts, explanations. DO NOT put examples here! (200-400 words)"
  }
],
examples: [
  {
    "title": "Practical scenario",
    "content": "Real-world example, dialogue, or case study. Put ALL examples here."
  }
]

Удивительно, но Xiaomi Mimo следовала этому правилу строже, чем Qwen. Qwen иногда все равно пытался впихнуть пример внутрь поля content, тогда как Xiaomi честно выносила диалоги в массив examples. Это делает её гораздо удобнее для автоматизации.

Round 1: Битва за Soft Skills (Продажи)

Первый тест — генерация урока для менеджеров по продажам. Тема: "Ценообразование на билеты: как продать дорого".
Это сложный тест, потому что здесь нужно не просто знать факты, а понимать психологию и выдавать речевые скрипты.

Задача: Объяснить клиенту разницу между тарифами Early-Bird и Standard.

Посмотрим, как справились Qwen 3 235B (тяжеловес) и Xiaomi Mimo (претендент).

🔴 Qwen 3 235B (Академический подход)

Qwen выдал абстрактное описание. Всё правильно, но "сухо".

"Эффект дефицита (Scarcity Effect) используется для стимулирования ранних покупок. Клиент видит, что цена скоро вырастет, и принимает решение быстрее. Early-bird тарифы обычно на 20-30% дешевле стандартных."
Пример: "Менеджер может сказать клиенту, что скидка действует до пятницы."

Это уровень Википедии. Правильно, но не учит как говорить.

🟢 Xiaomi Mimo V2 (Сценарный подход)

Xiaomi сгенерировала готовый диалог. Она не просто объяснила концепцию, она показала её в действии.

Сценарий: Продажа Early-Bird
Клиент (Иван): «Я хочу посетить конференцию «Цифровой прорыв». Это самая низкая цена?»
Менеджер: «Да, вы смотрите на Early-Bird тариф. Она действует до конца этой недели или до продажи первых 100 билетов. С понедельника цена вырастет до 4500 рублей. Могу забронировать вам место по текущей цене сейчас, чтобы вы успели сэкономить 1500 рублей?»

Почему это круто:

Конкретика: Иван, «Цифровой прорыв», 4500 рублей. Модель придумала детали, которые делают пример живым.
Техника продаж: Менеджер использует "Close" (закрытие сделки) — "Могу забронировать сейчас?". Модель понимает алгоритм продаж!
Естественность: Реплики звучат так, как говорят люди.

Round 2: Эмпатия и Storytelling (Английский язык)

Второй тест — объясн��ние абстрактной концепции "Нематериальный продукт" на английском.
Как объяснить, что билет на фестиваль — это не просто бумажка?

🔴 Qwen 3 235B (Техническое описание)

"A customer buys a ticket to a music festival online. They receive a QR code. The ticket isn't a physical object — it's a digital pass that grants entry."

Скучно. Констатация факта.

🟢 Xiaomi Mimo V2 (Нарратив)

Xiaomi включила режим "Storytelling" и придумала персонажа Сару.

"Sarah holds up a luxury watch and a festival wristband. 'The watch,' she explains, 'is a physical product. Its value is in its materials. The wristband is a festival ticket. It's just a piece of fabric. The product is the three days of music, the memories. We are selling a future memory, not a physical object.'"

Это педагогика высшего уровня. Модель использовала аналогию (часы vs браслет) и вывела мощный инсайт ("selling a future memory").

Еще один пример: Метафора CRM
Когда мы попросили объяснить, зачем нужна CRM-система, разница в мышлении моделей стала еще очевиднее.

Qwen 3 (Академик): "CRM работает как GPS-навигатор, который ведет клиента от знакомства до покупки." (Коротко, сухо, верно).
Xiaomi Mimo (Педагог): "Представьте, что CRM — это приборная панель корабля в океане данных:
1. Карта (История) — показывает, где клиент уже был.
2. Компас (Предпочтения) — показывает, куда он хочет плыть (любит VIP или эконом).
3. Радар (Возможности) — предупреждает о рифах и показывает богатые рыбой места."

Чувствуете разницу? Первая модель дает определение. Вторая — создает ментальную модель, которая запоминается навсегда.

Round 3: Технические навыки (Python)

Может показаться, что Xiaomi — это "гуманитарий". Проверим на коде.
Задача: Урок про Variables and Data Types.

🔴 Qwen 3 235B (Hello World)

Классический, банальный пример.

# Create variables
name = "John"
age = 25
print(name)

Это работает, но это скучно. Студент не понимает, зачем ему это.

🟢 Xiaomi Mimo V2 (Прикладная задача)

Xiaomi придумала сценарий "Калькулятор рецепта".

Exercise: Recipe Adjuster
"Create a variable original_cups = 2.5. Ask the user for a scaling factor (e.g., 1.5). Calculate the new amount and print it."

original_cups = 2.5
scale = float(input("Enter scaling factor: "))
new_amount = original_cups * scale
print(f"You need {new_amount} cups")

Она учит сразу нескольким вещам: float(), ввод данных, математика, f-strings. И главное — есть контекст (готовка), понятный новичку.

Round 4: Битва Титанов (Machine Learning)

Самый интересный тест — генерация курса по нейросетям. Здесь мы столкнули Xiaomi не только с Qwen, но и с Kimi K2-0905 (специализированной математической моделью).

Результат нас поразил. Это как разница между хорошим школьным учителем и профессором MIT.

Задача: Придумать практическое упражнение для урока по классификации.

👶 Xiaomi Mimo (Уровень: Junior / Вход в профессию)

Xiaomi дает задачу, которую можно решить "в голове" или на листке бумаги. Это идеально для понимания принципа.

Упражнение: "Классификация паттернов 2x2"
"Сгенерируйте 8 бинарных паттернов размером 2x2. Отнесите 4 из них к классу A (вертикальные линии) и 4 к классу B (горизонтальные). Предложите, какие веса в простейшей сети помогут разделить эти классы."

Это гениально просто. Не нужно знать PyTorch, нужно понять матрицы.

👨‍🔬 Kimi K2-0905 (Уровень: Senior / Production)

Kimi сразу бьет тяжелой артиллерией.

Упражнение: "Кросс-валидация и Early Stopping"
"Разделите датасет CIFAR-10 на 5 фолдов. Обучите сеть архитектуры 32-64-128-10 с dropout=0.5. Используйте EarlyStopping(patience=3) для предотвращения переобучения. Рассчитайте средний F1-score по всем фолдам."

Здесь есть всё: реальный датасет, архитектура, регуляризация, метрики.

Вывод: Xiaomi идеальна для курсов "Python с нуля". Kimi незаменима для "Deep Learning Pro". Qwen в этом тесте просто попросил "Написать функцию sigmoid на NumPy" — скучная классика.

Битва за Метаданные: Kimi против всех

Если в генерации текста урока Xiaomi и Qwen идут ноздря в ноздрю, то в генерации структуры курса (метаданных) у нас появился абсолютный, недосягаемый лидер — Kimi K2-0905.

Метаданные — это "скелет" курса: цели обучения, требования, стек технологий. Большинство моделей пишут здесь "воду".

Сравните сами. Мы попросили сгенерировать описание курса по Python.

🔴 DeepSeek Chat V3.1 (Академик)

"Define core programming concepts like variables, data types, and syntax. Explain the purpose and function of loops."

Это уровень школьного учебника. Глаголы "Define" и "Explain" находятся на низших ступенях таксономии Блума.

👑 Kimi K2-0905 (Инженер)

Kimi не просто перечисляет темы, она называет инструменты:

"Install and configure Python 3 and Visual Studio Code."
"Read from and write to text files and CSV files with error handling."
"Debug syntax errors using IDE tools and stack traces."

Чувствуете разницу? "Error handling", "Stack traces", "VS Code". Это готовый план для профессионального онбординга.

🇷🇺 Русский ML-сленг (Kimi)

Еще сильнее Kimi удивила в генерации метаданных для курса по Machine Learning на русском. Обычно модели переводят термины "в лоб" (например, "обучение с учителем" вместо "supervised learning").

Вот что выдала Kimi:

"Выберете подходящий supervised-алгоритм для поставленной бизнес-задачи."
"Проведёте кросс-валидацию и определите доверительный интервал для AUC-ROC."
"Разложите пайплайн в Docker-контейнер и опубликуете REST-endpoint для инференса."

Это фантастика. Модель использует профессиональный сленг (REST-endpoint, пайплайн, Docker), а не пытается переводить всё в литературный русский 19 века. Для IT-курсов это критически важно.

Вывод: Если вам нужно сгенерировать "продающий" лендинг курса или техническое задание — Kimi K2 вне конкуренции.

Глубокий анализ: Педагогический IQ

Мы решили копнуть глубже и проанализировать ответы моделей не как программисты, а как методисты. Мы использовали Таксономию Блума — классификацию учебных целей от простого запоминания к сложному творчеству.

Уровень Блума	Qwen 3 (235B)	Xiaomi Mimo V2	Кто круче?
1. Запоминание	Дает точные определения. "CRM — это..."	Дает определения через метафоры.	Ничья
2. Понимание	Объясняет "по учебнику".	Объясняет на примерах из жизни.	MiMo
3. Применение	Дает абстрактные примеры.	Дает готовые скрипты продаж и диалоги.	MiMo
4. Анализ	Сравнивает списком пунктов.	Дает фреймворки (Карта/Компас/Радар).	MiMo
5. Оценка	—	Учит работать с возражениями клиентов.	MiMo
6. Создание	Напишите код (стандарт).	Придумайте сценарий / Решите кейс.	Ничья

Инсайт: Большие модели (как Qwen) часто застревают на нижних уровнях Блума (Запоминание/Понимание). Они знают всё, но не умеют учить применять. Xiaomi Mimo, возможно из-за специфики датасета, сразу прыгает на уровень "Применение". Она не рассказывает теорию велосипеда, она сажает вас на него и толкает.

Где Xiaomi проигрывает? (Честный обзор)

Я не хочу создавать впечатление, что Xiaomi Mimo — это "убийца всего". У неё есть слабые места, которые мы выявили в сравнении с Kimi K2-0905 (еще одна крутая китайская модель).

1. Метаданные и Инструменты

В тесте на генерацию метаданных курса (список софта, требования), Kimi была точнее.

Kimi: "Вам понадобится VS Code с расширением Python, Python 3.10+, Jupyter Notebook."
Xiaomi: "Вам понадобится редактор кода и Python." Kimi лучше знает экосистему инструментов разработчика.

2. Deep ML / Science

В тесте на генерацию курса по Нейросетям, Xiaomi была хороша для новичков, но Kimi ушла в глубину.

Kimi: Рассказала про кросс-валидацию, CIFAR-10, метрики F1-score и Early Stopping.
Xiaomi: Ограничилась базовой архитектурой и матрицами.

Вывод: Если вам нужен курс для Senior ML Engineer — берите Kimi. Если для Junior — берите Xiaomi.

SWOT-анализ: Стоит ли внедрять Xiaomi?

Для тех, кто принимает решение о внедрении в продакшен, мы собрали плюсы и минусы в одну матрицу.

Strengths (Сила)	Weaknesses (Слабость)
🚀 Скорость: 11.2 сек на урок (в 3 раза быстрее Qwen).	📉 Глубина: Не тянет Deep Tech темы (DevOps, Architecture).
💰 Цена: Бесплатно (Free Tier на OpenRouter).	🔗 Примеры: Иногда слишком "вплетает" примеры в текст, сложно парсить.
🎓 Педагогика: Лучшие метафоры и сценарии.
🛠 JSON: 100% валидность структуры.

Opportunities (Возможности)	Threats (Угрозы)
Идеальна для MVP и стартапов.	Free Tier может закончиться в любой момент.
Генерация контента в реальном времени (чат-боты).
Массовое создание курсов для Soft Skills.

Где ещё пригодится MiMo (за пределами EdTech)

Способность модели создавать живые диалоги и метафоры применима не только в образовании:

Customer Support боты — MiMo умеет писать естественные ответы с эмпатией, а не "роботные" шаблоны.
Документация API — генерация примеров использования, которые реально понятны новичкам.
Онбординг сотрудников — сценарии "как вести себя в ситуации X" для HR.
Контент для лендингов — объяснение сложного продукта простым языком.
Скрипты для видео — модель хорошо структурирует нарратив с hook'ами и payoff'ами.

Массовка: Кто остался за бортом (и почему)

Наши тесты не ограничивались тремя моделями. В "большом забеге" (Run 3 и Run 4) участвовали более 10 моделей, включая DeepSeek, Grok, MiniMax и различные версии Qwen. И там развернулась настоящая драма.

Трагедия OSS-120B: Русская рулетка

Модель OSS-120B — самый противоречивый участник.

Качество: Отличное. В первом прогоне она набрала 8.5/10 за русский язык, выдавая очень естественные тексты. Методисты отмечали: "120B меня вполне устраивает".
Надежность: Катастрофическая. Во втором прогоне она упала с ошибками в 11 из 12 тестов.

Вердикт: Это не плохая модель, это модель для тех, кто умеет писать try-catch и циклы повторных запросов. Если у вас есть система ретраев, OSS-120B может стать отличной бюджетной альтернативой. Но "из коробки" она опасна.

DeepSeek V3.1: Выбор разума

Если Xiaomi — это "выбор сердца" (бесплатно и быстро), то DeepSeek Chat V3.1 — это "выбор разума" для серьезного продакшена.

Качество: 8.5/10 (всего на 1 балл ниже премиальной Kimi).
Стабильность: Абсолютный монолит. 0.0% вариативности между прогонами.
Скорость: ~24.7 сек (быстрее многих, но медленнее Xiaomi).

Интересно, что более новая DeepSeek v3.2 (Experimental) в наших тестах показала себя хуже: она генерировала ответ в 3 раза дольше (74 секунды!) и часто давала менее подробные описания (8.1/10). Тот случай, когда "новее" не значит "лучше".

Если бы Xiaomi завтра стала платной и дорогой, мы бы переключились на DeepSeek.

Update: Вышел Gemini 2.5 Flash и изменил правила игры

Пока мы писали эту статью и восхищались скоростью Xiaomi (11 секунд), Google выкатил превью Gemini 2.5 Flash. Мы прогнали её через тот же бенчмарк (Run 6 от 30 ноября) и результаты нас шокировали.

Скорость света: 4.3 секунды на генерацию урока. Это в 2.5 раза быстрее Xiaomi и в 5 раз быстрее Qwen. Это почти мгновенно.
Идеальный русский: Если Kimi использовала профессиональный сленг, то Gemini 2.5 Flash выдала идеальную литературную локализацию. Теги: "Наука о данных", "Машинное обучение" (вместо "Data Science"). Оценка качества RU: 9.7/10.
Английский: Здесь она уступила новинке от xAI — Grok 4.1 Fast, который набрал 9.15/10 за счет невероятной детализации (8 learning outcomes против 6 у остальных).

Grok 4.1 Fast тоже интересен: он стал лучшим для английского контента, но провалился на русском (смешивает языки, оставляет английские термины без перевода).

Итоговая таблица: Кого выбрать? (Финальный вердикт)

Мы провели более 200 прогонов (Runs 3-6) и вот наша итоговая матрица решений на конец 2025 года.

Модель	Роль	Качество (RU/EN)	Скорость	Вердикт
Gemini 2.5 Flash	👑 Король	💎 9.7 / 8.9	🚀 4.3s	Абсолютный лидер для продакшена. Мгновенно и качественно.
Xiaomi Mimo V2	Принц	8.9 / 8.8	🚀 11.2s	Отличная альтернатива, если нужен open-weights или специфичный стиль.
Kimi K2-0905	Инженер	9.5 / 9.2	🐢 42.5s	Лучшая для сложного Hard Skills контента (Docker, ML code).
MiniMax M2	Скала	8.8 / 8.9	🏃 34.0s	Самая стабильная модель (0.0% variance). Идеальный fallback.
Grok 4.1 Fast	Англичанин	8.1 / 9.2	🏃 21.4s	Топ-1 для английского языка. На русском "плавает".
DeepSeek V3.1	Работяга	8.5 / 9.0	🏃 24.7s	Стабильный середнячок с отличным балансом цена/качество.
OSS-120B	Рулетка	8.5 / 7.8	❓	Хорошее качество, но требует системы ретраев (надежность < 10%).

Технические характеристики теста

Для тех, кому интересно, на чем гоняли:

Платформа: OpenRouter API.
Модель Xiaomi: xiaomi/mimo-v2-flash (Context: 32k).
Модель Qwen: qwen/qwen-3-235b-instruct (Context: 32k).
Инфраструктура: Node.js скрипт с параллельными запросами.
Валидация: Zod Schema для проверки структуры JSON.

Цены на OpenRouter (декабрь 2025)

Для контекста — вот примерные цены за 1M токенов (input/output):

Модель	Input	Output	Примечание
Xiaomi MiMo V2 Flash	Free	Free	Free Tier, лимиты неизвестны
Gemini 2.5 Flash	$0.15	$0.60	Оптимальное соотношение цена/качество
DeepSeek V3.1	$0.14	$0.28	Очень дёшево для такого качества
Kimi K2-0905	~$0.60	~$1.80	Премиум для сложных задач
Qwen 3 235B	$0.14	$0.28	Цена на уровне DeepSeek

⚠️ Про Free Tier: Xiaomi MiMo бесплатна на момент публикации, но это может измениться. OpenRouter часто меняет условия. Рекомендую иметь fallback на DeepSeek или Gemini.

Как повторить эксперимент

Если хотите погонять MiMo самостоятельно, вот минимальный пример на JavaScript:

const response = await fetch("https://openrouter.ai/api/v1/chat/completions", {
  method: "POST",
  headers: {
    "Authorization": `Bearer ${OPENROUTER_API_KEY}`,
    "Content-Type": "application/json"
  },
  body: JSON.stringify({
    model: "xiaomi/mimo-v2-flash",
    messages: [
      { role: "system", content: "You are an educational content generator. Output ONLY valid JSON." },
      { role: "user", content: "Generate a lesson about variables in Python. Output as JSON with fields: title, sections (array of {title, content}), exercises (array of {question, answer})." }
    ],
    temperature: 0.7
  })
});

const data = await response.json();
console.log(data.choices[0].message.content);

Ключ от OpenRouter можно получить бесплатно на openrouter.ai.

Заключение

Мы привыкли, что "дешево и быстро" значит "плохо". Xiaomi Mimo V2 ломает этот стереотип. Это модель, которая, возможно, не знает всех тайн квантовой физики, но она чертовски хорошо умеет объяснять вещи людям.

Для задач EdTech, генерации контента для блогов, обучающих ботов и customer support сценариев — это сейчас наш фаворит №1. И пока она бесплатна, грех этим не воспользоваться.

P.S. Нет, Xiaomi не платила мне за эту статью. Я просто инженер, который рад, что его CI/CD пайплайн теперь проходит тесты за 5 минут, а не за 20.

Автор: Игорь Масленников
Пишу про AI-агентов, LLM-бенчмарки и архитектуру софта.

📢 Мой канал в Telegram: @maslennikovigor — там я публикую свежие бенчмарки.
💬 Личный контакт: @maslennikovig

А какую модель используете вы для генерации контента? Делитесь в комментариях — интересно сравнить опыт.