Обновить

Бесплатный AI-стек консультанта: Qwen + DeepSeek + точечный Perplexity

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели10K
Всего голосов 7: ↑6 и ↓1+5
Комментарии10

Комментарии 10

Положим, есть скриншот сложной схемы процессов. Надо превратить в описание (на каком-либо языке описания процессов или просто подробное описание) для другого ии-агента. Какой из этих инструментов (или других) мне поможет?

Нужны модели с vision capabilities. В qwen есть https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list . Прикладываем картинку и говорим "Analyze image". Сам пользуюсь claude. Если диаграмма большая - видимо, лучше скармливать по частям

Зачем три подписки и почему не хватит одной? Что условно совсем не умеет chatgpt и умеет кто-то другой? или условно gemini не хватает?

Процентов на 80 возможности совпадают, но знаю людей, которые на всякий случай покупают подписки вообще на все флагманские нейронки.

Но у многих опрошенных аналитиков картина наоборот - люди могут купить подписку Perplexity (левую, на специальных сайтах). А для chatgpt и claude - требуются иностранные карты и прочее. Поменял формулировку в статье, спасибо за уточнение

Из локальных ии на 16 гигов видео, кто то может приблизиться к описанным? Насколько хуже тот же qwen локально если запустить?

Я сам такое не делаю, один раз... Могу дать компиляцию свежих бенчмарков от нейронки:

Что влезает в 16 GB VRAM (Q4_K_M квантизация)

Qwen3-14B занимает ~9-10 GB и выдаёт ~25 токенов/сек. Qwen3-8B компактнее (~5-6 GB) и быстрее (~40 t/s). DeepSeek R1 Distill Qwen 14B сопоставим с Qwen3-14B по размеру (~9-10 GB, ~20-25 t/s). Qwen3-30B-A3B (MoE) — на грани, требует ~12-14 GB и работает медленнее (~15-20 t/s).

Бенчмарки: локальный Qwen3-14B vs облачные модели

MMLU-Pro: локальный Qwen3-14B ~0.77, облачный Qwen3-235B ~0.81, DeepSeek V3/R1 ~0.79-0.82, Gemini 2.5 Flash ~0.83.

GPQA Diamond: локальный Qwen3-14B ~0.60, облачный Qwen3-235B ~0.65, DeepSeek ~0.71, Gemini 2.5 Flash ~0.68.

AIME'24 (математика): локальный Qwen3-14B ~0.76, облачный Qwen3-235B ~0.86, DeepSeek ~0.80, Gemini 2.5 Flash ~0.88.

LiveCodeBench: локальный Qwen3-14B ~0.52, облачный Qwen3-235B ~0.71, DeepSeek ~0.65, Gemini 2.5 Flash ~0.74.

ArenaHard: локальный Qwen3-14B ~85, облачный Qwen3-235B ~95.6, DeepSeek ~85-89, Gemini 2.5 Flash ~91.

Ключевые выводы

Сильные стороны локального Qwen3-14B: Qwen3-14B (Reasoning) и DeepSeek R1 Distill Qwen 14B хороши для конкурсной математики — Qwen3 показывает math_500 0.961 и AIME 0.763.

Слабые стороны: На live coding метриках Qwen3 Reasoning показывает LiveCodeBench только 0.523, а DeepSeek — 0.376.

Преимущество облачных флагманов: Облачный Qwen3-235B значительно опережает: ArenaHard 95.6 против ~85 у локальных 14B моделей.

Gemini 2.5 Pro: Один из лучших general-purpose моделей для бизнес-автоматизации с большим контекстом.

Практический итог

Локальный Qwen3-14B выдаёт примерно 70-80% качества облачных флагманов на типичных задачах. Для сложного reasoning и coding разрыв увеличивается до 50-60%.

Лучший выбор для 16 GB VRAM: GPT-OSS 20B на 60K контексте — лучший overall выбор: 42 t/s, 13.7 GB VRAM, отличные показатели на логике и reasoning. Qwen3-14B хорош для математики, но слабее в коде.

Источники: LocalLLM.in (Dec 2025), Artificial Analysis, DataCamp Qwen3 review (Apr 2025), timetoact LLM Benchmarks Summer 2025

А какая модель может заменить "Алису" для умного дома от Яндекса на локальной 16гб видеокарте?

Видимо, всё тот же Qwen3-14B, но настройка и сборка потянет на отдельную статью :)

Довольно часто использую Qwen, поэтому есть что сказать. Может из-за того, что у него буквально китайский поиск, он плоховато ищет источники и плохо видит сайты. А дипсик вообще отказывается просматривать и говорит, что не умеет, если прислать ссылку.

С задачей "открыть ссылку" они справляются: https://chat.deepseek.com/share/vsh6g8ju0dgq2nj6bl , https://chat.qwen.ai/s/50d30662-e636-4e57-9977-8382016e3a51?fev=0.1.38. При задаче поиска: - дипсик обычно ищет не больше 10 источников (и только в рунете, если запрос на русском языке). У qwen есть режим Deep Research.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации