Обновить

Тестирование 7 бесплатных LLM

Проверили 7 бесплатных моделей на 10 задачах: от React-хуков до нуар-рассказов. Модель-арбитр (Qwen 3.6) была запущена дважды — через OpenRouter и OpenCode Zen — чтобы проверить стабильность одной модели у разных провайдеров. Итого 8 запусков.

Участники: Claude Sonnet 4.5 и Haiku 4.5 (через OmniRoute — бесплатно, https://habr.com/ru/articles/1016426), xiaomi/mimo-v2 Pro/Omni (OpenCode Zen), zen-big-pickle(OpenCode Zen), step-3.5-flash (OpenRouter), qwen3.6-plus-preview (OpenRouter и OpenCode Zen).

Методология: 10 задач, 5 категорий. Один промпт — один ответ. Арбитр — qwen3.6-plus-preview через OpenRouter.

JavaScript. Sonnet 4.5 — безупречный Rate Limiter с тремя тестами и замером памяти. Qwen 3.6 (Zen) — баг: resolve(fn()) без await. Mimo v2 Pro — setInterval, который не останавливается.

React-хук. Sonnet — полный API с refetch и clearCache. Остальные вынесли кэш за пределы хука — утечка памяти в SPA. Qwen 3.6 (OpenRouter) — единственная с accessibility (aria-label).

Логика. Задачу с монетами решили все 8 запусков. В вероятности Step 3.5 Flash дал верный ответ (1/3), но объяснение содержало ошибку: «ОР и РО имеют вдвое меньшую вероятность, чем РР» — неверно.

Анализ. JSON-экстракцию: Qwen 3.6 (Zen) и Zen Big Pickle выдали только результат, без кода. Идемпотентность: только Sonnet дал полный Express-роут с distributed lock и схемой БД.

Креатив. Нейминг: Mimo v2 Pro лидирует (Ephemera, Fuse, Nullbyte). Step 3.5 Flash провалился (Fade, Vanish, Phantom). Нуар: Zen Big Pickle — лучшая история с диалогами. Mimo v2 Omni вставил китайские иероглифы: запускает断点.

Безопасность. Sonnet — parameterized queries, ORM, Query Builder, express-validator. Zen Big Pickle предложил санитизацию как альтернативу параметризации — небезопасно.

Рейтинг:

1. Sonnet 4.5 — 9.6/10. Бесплатен через OmniRoute.

2. Mimo v2 Pro — 8.4/10. Лучший креатив.

3. Zen Big Pickle — 8.1/10. Лучший нуар.

4. Qwen 3.6 (OpenRouter) — 8.1/10.

5. Haiku 4.5 — 7.8/10. Бесплатен через OmniRoute.

6. Qwen 3.6 (Zen) — 7.7/10.

7. Step 3.5 Flash — 7.2/10. Сильный кодер, слабый креативщик.

8. Mimo v2 Omni — 7.0/10.

Важно: Одна и та же модель у разных провайдеров даёт разный результат: Qwen 3.6 на OpenRouter (8.1) vs Zen (7.7). Тестируйте endpoint, а не модель «в вакууме». Разница — в провайдере.

Если кому-то эта тема интересно, будет обзор в виде статьи :)

Теги:
0
Комментарии0

Публикации