Comments 6
Про регулярки с LaTeX — это ж моя боль, тоже через это проходил, пока не забил и не заставил модель просто в Markdown отвечать 😄 А детектив классный, я как раз похожие текстовые квесты на LLM накручивал, реально увлекательно, когда сюжет не повторяется. Подход с кешированием моделей — огонь, утащу себе. Автору респект
Для переделывания латеха в юникод есть библиотека pylatexenc
Для переделывания маркдауна от ллм в телеграм https://github.com/sudoskys/telegramify-markdown
Вместо A1111 используйте ComfyUI. Тот универсальные и qwen3 vl на 12ГБ видео прекрасно работает. Только кастомпный год надо написать на основе года для Qwen 2.5 vl и примера кода для qwen 3 vl с huggingface. Скорее всего получится и новые мультимодалуи qwen3.5 прикрутить. Вместо ollama лучше попробуйте oobabooga text-generation-wenui. Он позволяет запускать gguf с частичной выгрузкой слоев в ОЗУ с выводом получающейся инструкции запуска llama.cpp в консоль. Можно будет для ComfyUI запустить большую модель с замедлением. Например Qwen3.5 35b.
Мне к примеру удалось таким образом запустить на 5060ti + 4060ti модель Qwen3.5 122b A10b. Причем с добавкой Qwen3.5 4b модели в качестве драфтовой ускоряли токенов
Классная статья, реально вдохновляет! Особенно круто, что всё локально, без облаков, плюс мини-игра «Детектив», выбор моделей с галочками и удобная работа с длинными ответами.
Не хватило:
примерных скоростей (токенов/сек) на вашем железе
сколько памяти жрёт кэш из 2–3 моделей
пример промпта для сценария преступления
Было бы здорово добавить:
голосовой ввод/вывод
авто-перевод промптов для генерации картинок
простую статистику использования моделей
Спасибо за разбор, мотивирует самому поковыряться. Подписался, жду продолжения! 🚀
Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели