Обновить
1

Пользователь

Отправить сообщение

Ещё, не мало важно, вести план внедрения и завершенные работы с четким описанием, структурой и архитектурой. И подрубить RAG через mcp, чтобы нейрона всегда знала что где и как - в итоге даже очень огромный проект успешно правиться и корректируется GPT 5.2 со стремящимися к 0 багами.

Есть пару вариантов улучшить комбинат - попробуй qwen3-vl-8b-thinking для OCR, при контексте в 32к токенов занимает 11Gb VRAM и qwen3-1.7b при Q6 квантовании и тех же 32к токенах - 5,5Gb VRAM, либо qwen3-4b-thinking-2507 так же в Q6 кванте с контекстом в 71к 10Gb VRAM. Очень достойные модельки, что 1.7, что 4, что 8, увеличив квант - увеличиваешь и качество на выходе, которое никто не проверял).

вообще бомбезная моделька, только что прикрутил за 2$ в месяц к Курсору - по качеству где-то между gpt 5.1 и gpt 5.2, сделал огромный анализ 20 файлов кода на 30к+ строк, нашел точечные ошибки в логиках, предложил улучшения в рамках этих логик и проекта в целом и всё почти без ошибок внедрил, с отступами были косячки, которые сразу же сам и исправил, и всё это за полчаса, из которых я половину формулировал желаемые показатели! Съел при этом 5% лимита из 100 промтов на 5 часов! Я в диком восторге)

Наобучал тут модельку по этим параметрам, весьма приятно удивила


Качество: 96.10% accuracy, 91.30% F1

  • Размер: 0.65M параметров

  • Архитектура: компактная, 2 encoder слоя

  • Веса: в норме, без аномалий

    Диапазон: [-2.73, 4.00]

    Среднее: 0.0012

    Стандартное отклонение: 0.096

    NaN/Inf: отсутствуют

    Качество модели

    • Validation Accuracy: 96.10% (0.9610)

    • Validation F1: 0.9130

    • Дата сохранения: 2025-11-20 19:30:48

    Архитектура

    • Input dimension: 64 (адаптируется до 84 через input_proj)

    • Hidden dimension (d_model): 112

    • Sequence length: 256

    • Output classes: 3 (Down, Hold, Up)

    • Dropout: 0.15

    Параметры

    • Всего параметров: 649,277 (0.65M)

    • Обучаемых: 649,277

    Распределение по компонентам:

    • Encoder layers: 557,312 параметров (0.56M) — 2 слоя

    • Correlation: 50,400 параметров (0.05M)

    • Observer: 25,536 параметров (0.03M)

    • Input projection: 9,520 параметров (0.01M) — 84→112

    • Output projection: 6,499 параметров (0.01M)

    • Alpha параметры (TSCO): 10 параметров

    Структура

    • Всего слоев: 82

    • Основные компоненты:

    • Input Projection (84→112)

    • 2 Encoder слоя (Temporal Attention + Multi-Scale Convolution)

    • Observer модуль

    • Correlation модуль

    • Output Projection (112→3)

Я 120b запускаю на 8гб vram и 96ddr5 в 18т/с

А gpt-oss-20b юзал? У меня тоже 8врам и 32 ддр5, 33 токена/с выдает, вроде как по тестам и 4.1 жпт делает, по качеству ± qwen 30 coder. Интересно эти конфиги протестить, но пока не дошли до этого руки, если сможешь - с удовольствием жду результатов.

Ну не знаю, насчёт 5090, но у меня 2 системы на 5060ti и Ryzen 5 ноутбучный с графикой выделенной из DDR5 на 16 Гб, и оба работают с gpt-oss-20gb и qwen-coder-30b. Конечно с разной производительностью (30т/с и 11т/с), но вполне корректно и по делу.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Инженер встраиваемых систем, Архитектор программного обеспечения
Средний
Python
Git
Базы данных
Docker
Nginx
Java