Ещё, не мало важно, вести план внедрения и завершенные работы с четким описанием, структурой и архитектурой. И подрубить RAG через mcp, чтобы нейрона всегда знала что где и как - в итоге даже очень огромный проект успешно правиться и корректируется GPT 5.2 со стремящимися к 0 багами.
Есть пару вариантов улучшить комбинат - попробуй qwen3-vl-8b-thinking для OCR, при контексте в 32к токенов занимает 11Gb VRAM и qwen3-1.7b при Q6 квантовании и тех же 32к токенах - 5,5Gb VRAM, либо qwen3-4b-thinking-2507 так же в Q6 кванте с контекстом в 71к 10Gb VRAM. Очень достойные модельки, что 1.7, что 4, что 8, увеличив квант - увеличиваешь и качество на выходе, которое никто не проверял).
вообще бомбезная моделька, только что прикрутил за 2$ в месяц к Курсору - по качеству где-то между gpt 5.1 и gpt 5.2, сделал огромный анализ 20 файлов кода на 30к+ строк, нашел точечные ошибки в логиках, предложил улучшения в рамках этих логик и проекта в целом и всё почти без ошибок внедрил, с отступами были косячки, которые сразу же сам и исправил, и всё это за полчаса, из которых я половину формулировал желаемые показатели! Съел при этом 5% лимита из 100 промтов на 5 часов! Я в диком восторге)
А gpt-oss-20b юзал? У меня тоже 8врам и 32 ддр5, 33 токена/с выдает, вроде как по тестам и 4.1 жпт делает, по качеству ± qwen 30 coder. Интересно эти конфиги протестить, но пока не дошли до этого руки, если сможешь - с удовольствием жду результатов.
Ну не знаю, насчёт 5090, но у меня 2 системы на 5060ti и Ryzen 5 ноутбучный с графикой выделенной из DDR5 на 16 Гб, и оба работают с gpt-oss-20gb и qwen-coder-30b. Конечно с разной производительностью (30т/с и 11т/с), но вполне корректно и по делу.
Информация
В рейтинге
Не участвует
Зарегистрирован
Активность
Специализация
Инженер встраиваемых систем, Архитектор программного обеспечения
Ещё, не мало важно, вести план внедрения и завершенные работы с четким описанием, структурой и архитектурой. И подрубить RAG через mcp, чтобы нейрона всегда знала что где и как - в итоге даже очень огромный проект успешно правиться и корректируется GPT 5.2 со стремящимися к 0 багами.
Есть пару вариантов улучшить комбинат - попробуй qwen3-vl-8b-thinking для OCR, при контексте в 32к токенов занимает 11Gb VRAM и qwen3-1.7b при Q6 квантовании и тех же 32к токенах - 5,5Gb VRAM, либо qwen3-4b-thinking-2507 так же в Q6 кванте с контекстом в 71к 10Gb VRAM. Очень достойные модельки, что 1.7, что 4, что 8, увеличив квант - увеличиваешь и качество на выходе, которое никто не проверял).
вообще бомбезная моделька, только что прикрутил за 2$ в месяц к Курсору - по качеству где-то между gpt 5.1 и gpt 5.2, сделал огромный анализ 20 файлов кода на 30к+ строк, нашел точечные ошибки в логиках, предложил улучшения в рамках этих логик и проекта в целом и всё почти без ошибок внедрил, с отступами были косячки, которые сразу же сам и исправил, и всё это за полчаса, из которых я половину формулировал желаемые показатели! Съел при этом 5% лимита из 100 промтов на 5 часов! Я в диком восторге)
Наобучал тут модельку по этим параметрам, весьма приятно удивила
Качество: 96.10% accuracy, 91.30% F1
Размер: 0.65M параметров
Архитектура: компактная, 2 encoder слоя
Веса: в норме, без аномалий
Диапазон: [-2.73, 4.00]
Среднее: 0.0012
Стандартное отклонение: 0.096
NaN/Inf: отсутствуют
Качество модели
Validation Accuracy: 96.10% (0.9610)
Validation F1: 0.9130
Дата сохранения: 2025-11-20 19:30:48
Архитектура
Input dimension: 64 (адаптируется до 84 через input_proj)
Hidden dimension (d_model): 112
Sequence length: 256
Output classes: 3 (Down, Hold, Up)
Dropout: 0.15
Параметры
Всего параметров: 649,277 (0.65M)
Обучаемых: 649,277
Распределение по компонентам:
Encoder layers: 557,312 параметров (0.56M) — 2 слоя
Correlation: 50,400 параметров (0.05M)
Observer: 25,536 параметров (0.03M)
Input projection: 9,520 параметров (0.01M) — 84→112
Output projection: 6,499 параметров (0.01M)
Alpha параметры (TSCO): 10 параметров
Структура
Всего слоев: 82
Основные компоненты:
Input Projection (84→112)
2 Encoder слоя (Temporal Attention + Multi-Scale Convolution)
Observer модуль
Correlation модуль
Output Projection (112→3)
Я 120b запускаю на 8гб vram и 96ddr5 в 18т/с
А gpt-oss-20b юзал? У меня тоже 8врам и 32 ддр5, 33 токена/с выдает, вроде как по тестам и 4.1 жпт делает, по качеству ± qwen 30 coder. Интересно эти конфиги протестить, но пока не дошли до этого руки, если сможешь - с удовольствием жду результатов.
Ну не знаю, насчёт 5090, но у меня 2 системы на 5060ti и Ryzen 5 ноутбучный с графикой выделенной из DDR5 на 16 Гб, и оба работают с gpt-oss-20gb и qwen-coder-30b. Конечно с разной производительностью (30т/с и 11т/с), но вполне корректно и по делу.