Тестирование 7 бесплатных LLM
Проверили 7 бесплатных моделей на 10 задачах: от React-хуков до нуар-рассказов. Модель-арбитр (Qwen 3.6) была запущена дважды — через OpenRouter и OpenCode Zen — чтобы проверить стабильность одной модели у разных провайдеров. Итого 8 запусков.
Участники: Claude Sonnet 4.5 и Haiku 4.5 (через OmniRoute — бесплатно, https://habr.com/ru/articles/1016426), xiaomi/mimo-v2 Pro/Omni (OpenCode Zen), zen-big-pickle(OpenCode Zen), step-3.5-flash (OpenRouter), qwen3.6-plus-preview (OpenRouter и OpenCode Zen).
Методология: 10 задач, 5 категорий. Один промпт — один ответ. Арбитр — qwen3.6-plus-preview через OpenRouter.
JavaScript. Sonnet 4.5 — безупречный Rate Limiter с тремя тестами и замером памяти. Qwen 3.6 (Zen) — баг: resolve(fn()) без await. Mimo v2 Pro — setInterval, который не останавливается.
React-хук. Sonnet — полный API с refetch и clearCache. Остальные вынесли кэш за пределы хука — утечка памяти в SPA. Qwen 3.6 (OpenRouter) — единственная с accessibility (aria-label).
Логика. Задачу с монетами решили все 8 запусков. В вероятности Step 3.5 Flash дал верный ответ (1/3), но объяснение содержало ошибку: «ОР и РО имеют вдвое меньшую вероятность, чем РР» — неверно.
Анализ. JSON-экстракцию: Qwen 3.6 (Zen) и Zen Big Pickle выдали только результат, без кода. Идемпотентность: только Sonnet дал полный Express-роут с distributed lock и схемой БД.
Креатив. Нейминг: Mimo v2 Pro лидирует (Ephemera, Fuse, Nullbyte). Step 3.5 Flash провалился (Fade, Vanish, Phantom). Нуар: Zen Big Pickle — лучшая история с диалогами. Mimo v2 Omni вставил китайские иероглифы: запускает断点.
Безопасность. Sonnet — parameterized queries, ORM, Query Builder, express-validator. Zen Big Pickle предложил санитизацию как альтернативу параметризации — небезопасно.
Рейтинг:
1. Sonnet 4.5 — 9.6/10. Бесплатен через OmniRoute.
2. Mimo v2 Pro — 8.4/10. Лучший креатив.
3. Zen Big Pickle — 8.1/10. Лучший нуар.
4. Qwen 3.6 (OpenRouter) — 8.1/10.
5. Haiku 4.5 — 7.8/10. Бесплатен через OmniRoute.
6. Qwen 3.6 (Zen) — 7.7/10.
7. Step 3.5 Flash — 7.2/10. Сильный кодер, слабый креативщик.
8. Mimo v2 Omni — 7.0/10.
Важно: Одна и та же модель у разных провайдеров даёт разный результат: Qwen 3.6 на OpenRouter (8.1) vs Zen (7.7). Тестируйте endpoint, а не модель «в вакууме». Разница — в провайдере.
Если кому-то эта тема интересно, будет обзор в виде статьи :)
