Обновить
9

Пользователь

0,1
Рейтинг
29
Подписчики
Отправить сообщение

Это не просто похоже, а буквально описание MTP - сама модель генерит несколько варинатов за один проход, потом отфильтровывает.

Я тестировал локальные модели с claude code и opencode, как раз для разработки аппликух для андроида. Причем без знания градле и котлина. Ну да, android studio пришлось ставить, компилять-то в чем-то надо. И еще телефончик дешевый к серверу кабелем подключил, потому как эмулятор тормозит жестоко без выделенной видеокарты, а она нужна самой модели, чтобы работать.

"It’s perfectly safe, I assure you." (c) Злой андроид, заманивающий человека к лицехвату чужого. (Это совершенно безопасно, уверяю вас). :)

Ну, я не увидел одного важного функционала - crowd-sourced location, типа airtag. По блютусу передаем бродкасты с публичным ключом, кто-то его услышал и скинул на сервер вместе со своими GPS-данными. Потом приватным ключом расшифровываем и получаем список локаций.

Этот аттрибут отключает специфичный для claude заголовок, из-за которого промпт-кэш сбрасывается постоянно, на собственно скорость работы модели никак не влияет, просто ей каждый раз приходится весь промпт с нуля перерасчитывать. Полный набор какой-то добрый человек выкладывал в реддите:

export CLAUDE_CODE_ATTRIBUTION_HEADER=0
export DISABLE_TELEMETRY=1
export DISABLE_COST_WARNINGS=1
export CLAUDE_CODE_ATTRIBUTION_HEADER=0
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=120000
export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=95
export DISABLE_PROMPT_CACHING=1
export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1
#export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1
#export MAX_THINKING_TOKENS=0
export CLAUDE_CODE_DISABLE_FAST_MODE=1
#export DISABLE_INTERLEAVED_THINKING=1
#export CLAUDE_CODE_MAX_RETRIES": "3",
export CLAUDE_CODE_DISABLE_FEEDBACK_SURVEY=1
export CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY=1
export ENABLE_TOOL_SEARCH=auto
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Не можешь победить - возглавь! :)

Пишешь "дай мне промпт, который бы сгенерировал такую статью?" и аттачишь текст :)

Напиши большую статью для Хабра на тему: [ТЕМА].

Формат: полный практический гайд для новичков с нуля. Стиль — простой, уверенный, разговорный, без академической воды и без рекламного тона.

Структура:
0. Вступление: почему тема важна сейчас и что читатель получит.
1. Что это такое простыми словами.
2. Из каких частей состоит система.
3. Как начать: пошаговая настройка.
4. Основные режимы / функции / сценарии.
5. Настройки, которые реально влияют на результат.
6. Практические примеры использования.
7. Типичные ошибки новичков.
8. Лучшие практики.
9. Ограничения, риски и где нужна ручная проверка.
10. Чеклист внедрения.
11. Финальный вывод.

Пиши как технический автор на Хабре: с подзаголовками, примерами, кодовыми блоками, списками, блоками «подходит / не подходит», практическими советами и честными предупреждениями.

Не копируй чужие формулировки. Сделай статью самостоятельной, но в духе большого подробного гайда, который хочется сохранить в закладки.

Ну, берите v100 32GB тогда. Или уж r9700 ai pro, если хочется новое что-то. Arc B70, судя по всем обзорам и тестам, которые видел - херня для LLM (возможно и не сама карта, а её стек, но выглядит уж очень плачевно).

Для больших проектов не использовал, но если opencode в виртуалке, обязательный коммит в гит после каждой успешной компиляции, почасовые снапшоты в ZFS/BTRFS - и можно отправить его в полноценный unattended, даже если напортачит - можно откатить всегда.

Уже делают. Но получается охрененно дорого для тупой модели, которая никому особо не нужна - Taalas HC1. Зато охрененно быстро (15 тысяч токенов в секунду для сильно пожатой llama3.1-8b) - https://chatjimmy.ai/

Может, конечно, сумеют технологию допилить для более больших и современных моделей.

Похоже, это проект для случая, когда страна под серьезным ударом, логистика и промышленность почти полностью разрушены бомбардировками и/или частичной оккупацией. Просто достаем с секретных складов комплекты электроники и в домашних условиях клеим корпуса из картона, политым водоотталкивающим средством из балончика.

Есть миникомпьютеры, типа Nvidia DGX Spark и его клоны (Asus GX10), но они довольно дорогие и не шибко быстрые. Зато памяти 128 GB (unified, общая для процессора и GPU), то есть можно даже довольно жирные модели запускать. Немного сыроватая платформа, но народу нравится. Маки, начиная с M3, где памяти достаточно.

Видеокарту надо брать из относительно современных, с кучей памяти. Для поиграться с маленькими моделями - и 12 гигов хватит, но если хочется нормальное чтобы кодило там или чего-то в этом духе, то лучше от 24 гигов, на сколько денег хватит. Можно подержанные майнинговые (MI50 32GB, V100 32GB), но если не хочется играть в лотерею "сколько еще времени она проработает, пока не посыпятся конденсаторы/mosfetы)", то лучше что-то приличное, типа R9700 AI Pro 32GB. Если есть хороший бюджет, то верхней планки уже нет - накупить RTX 6000 96GB, на которых все летает. :)

ComfyUI с Wan2.2 моделью можно запускать локально и видеокарточку минимум с 11GB (ну, можно и с меньшим VRAM, однако это будет уже за гранью приемлимого по скорости), для хороших скоростей - помощнее и с 32GB. Но там ограничения на длину клипа (text-to-video генерит только пять секунд максимум, потом приходится городить рекурсивный граф с text-to-video -> последний кадр -> image-to-video).

qwen3.6-27B и gemma4-31B, если хочется поумнее. Либо qwen3.6-35B-A3B и gemma4-26B-A4B, если хочется побыстрее (больше токенов в секунду). Квантование придется брать максимум 6 бит (больше не влезет, особенно с 31/35B, которых брать придется 4 бита, скорее всего).

В llama.cpp недавно добавили attn-rot, что вроде как использует часть механизма turboquant. Пишут, что сильно улучшило q8 и q4 квантование кеша. Но все равно, меньще q8 для кэша пока рано.

В первой ссылке какая-то мешанина, mistral, llama 3.1, 7B, 13B, 14B. Неясно к какой конкретной модели относится, а llama-3.1-13b вообще нету. И, опять же, падение качества по сравнению с GGUF. Вторая - там просто сами с собой, а третья - годичной давности. В llama.cpp за этот год чего только уже не накодили...

Быстрый поиск через chatgpt говорит, что EXL2 уже помер, EXL3 только есть. И выигрыш реальный неясен, нормальных сравнений не нашло.

Электричество будет тратиться бессмысленно, раз в десять больше, так как скорость меньше примерно во столько же, а процы и память на полной нагрузке жрут иногда даже больше GPU.

Я вот для себя такой тест локальных моделей придумал - написать простую игру для андроида (типа на доске 6x6 игрок и компьютер расставляют пушки трех видов, после чего те автоматически друг-друга расстреливают по очереди, с кнопкой для одного шага, редактором расстановки), а потом самостоятельно отладить её в эмуляторе с анализом скриншотов и логов, личное участие допускается только в виде реплик "говоришь, что все сделал, а кнопка STEP не пашет совсем, тестируй нормально давай, а то сядешь в тюрьму! (c)". Результат, надо сказать, грустноватый, из того что на моих 19GB VRAM может работать - что-то похожее на нужный результат дал только qwen3.5-27b, остальные просто целыми днями "отлаживают", типа, без серьезных продвижений. Жду вот когда gemma4 до рабочей кондиции доведут и может еще qwen3.6-27b выйдет.

Я тоже не сторонник маков для локальных LLM, но если хочется начать с нуля или просто попробовать и потом решить - мак с большим объемом памяти выглядит почти идеальным решением. Не надо думать - сколько и каких видеокарт надо, а сколько RAM, убирается мучительный перебор комбинаций (в котором даже ИИ не помогает в современном мире), нет проблем с совместимостью - все просто работает (вот позарится, например, человек на Intel ARC B70, с его 32GB VRAM, а потом поймет, что SYCL/Vulkan для него - сырые и либо не работают, либо тормозят). Наигравшись, опять же, можно продать по относительно неплохой цене. И, конечно, скорость все-таки довольно хорошая, даже обгоняя многие дорогие варианты по генерации токенов, за счет многоканальной памяти и отличного NPU. А проседание по prompt processing - ну, не все это ощутят на своих задачах. Плюс, опять же - работает не как киловаттный обогреватель квартиры, свои 140 ватт отрабатывает на все 100.

1
23 ...

Информация

В рейтинге
3 900-й
Зарегистрирован
Активность