Comments 14
Как мы с ИИ сделали локальный ИИ, который учится по моим книгам и пишет за меня отчёты
Судя по обилию эмоджи, он и статью за Вас написал.
В общем, продолжайте в том же духе — так этим сектантам и надо! Только сразу готовьтесь к тому, что он ещё будет ещё и получать Вашу зарплату.
Есть ли причины ставить "температуру" 0.3, а не 0.0, при условии, что ваша задача: точность и снижение галлюцинаций?
Полезная статья. Несколько вопросов.
(1) В таблице про степень поддержки русского указана RAM. Это необходимая память для модели или это память самого компа? Вообще, 32 GB на компе норм или лучше больше? Хотя, говорят, память сейчас резко дорожает...
(2) В статье неоднократно сказано, что большие облачные модели рассуждают лучше этой. Насколько лучше? Хотелось бы парочку примеров, чтобы понять, о чем речь.
(3) Почему не добавлен формат fb2.zip? Места на диске до фига?)
(4) Copilot не ревновал, когда видел, что фактически создаёт замену самому себе?)
GGUF-квантизация (Q4_K_M) загружает модель целиком в RAM (или VRAM при использовании GPU). 32 GB — более чем достаточно: хватит на Qwen2.5-14B (12 GB под модель) и останется запас на ОС, ChromaDB, эмбеддинги и сам Python. Даже 32B-модель (24 GB) влезет, хотя будет впритык. Для комфортной работы с 7B-14B моделями хватает и 16 G
Рассуждения/логика: если спросить «сравни подходы к управлению памятью в Linux и Windows, выдели ключевые архитектурные отличия», GPT-4/Claude выдаст структурированный анализ с нюансами, а 7B-модель скорее перескажет основные факты без глубокого сопоставления. С RAG это компенсируется: модель хотя бы оперирует правильными фактами из учебника, а не галлюцинирует.
Генерация текста: у облачных моделей стилистически более гладкий и «академичный» русский. Локальная 7B иногда повторяет фразы или делает неловкие переходы между абзацами. 14B-32B модели уже значительно ближе к коммерческим по качеству текста.fb2 поддержка добавлена , ноя забыл указать
Скорее всего это больше подходит на колоборацию ии моделей нежели чем ревность
Qwen2.5 уже неактуален, лучше вместо него рекомендовать Qwen3.
Идея интересная. Захотелось даже погонять, посмотреть как она с локальными текстами работает... Но работает ли всё это на винде? И если да, то как запустить?
E5-Large обрезает на 512 токенах - при чанках 1500 символов русского текста это впритык к лимиту. BGE-M3 от BAAI держит 8192, для русского работает не хуже, плюс можно чанки крупнее делать
Ллм-слоп статья про ллм-слоп... рекурсия которую мы заслужили!
Как мы с ИИ сделали локальный ИИ, который учится по моим книгам и пишет за меня отчёты