Обновить
8K+
10

Пользователь

9
Рейтинг
29
Подписчики
Отправить сообщение

Угу, chatgpt жжёт в поиске, и видео проверит и форумы... Гугл, в отличие от него - вообще херню какую-то лепит, не проверяет нифига. Несколько раз было такое, что переключаешь гугловый ИИ в думающий режим и он выдает совершенно противоположный ответ, буквально - первый ответ начинается с "Yes, ....", второй, после переключения - "No, ...".

Больше похоже на кривые архитектуры сайтов, когда даже статическая информация отдается кодом, который вешает бэкенд при сколько-нибудь ощутимом количестве запросов. Ну и агент одиночный не сможет запрашивать с такой частотой - банально скорости работы LLM не хватит, чтобы генерировать токены для fetch_web с такой скоростью.

Творчество предполагает оперирование ограниченным набором инструментов для достижения цели, причем набор этот часто приходится использовать не самым банальным способом. Думаю, всякие странные промпты часто просто "подсказывают" моделям что можно какие-то необычные пути или инструменты найти. Можно даже провести эксперимент - просто подсовывать случайные слова/словосочетания в промпт, особенно когда модель заходит в логический тупик и смотреть за результатом.

Сейчас самая большая проблема для агентов - это то что все ставят на свои раздутые до нельзя сайты "защиту от роботов" (причем, даже просто на чтение, а не на постинг). Агенты не могут посмотреть многие сайты, а поисковые запросы - вообще только платное работает нормально. Как индустрия собирается продвигать агентов, когда они ничего толком делать не могут, кроме как индексировать локальные файлы - непонятно.

Ну, у всех свои недостатки... Но когда у thinkpad 15 gen 2 массово самопроизвольно отпаивались от платы MOSFET-ы в цепи зарядки из-за сильного перегрева (в лучше случае - держались как-то, но подогревали всю материнку и SSD) - это как вообще?

Это не просто похоже, а буквально описание MTP - сама модель генерит несколько варинатов за один проход, потом отфильтровывает.

Я тестировал локальные модели с claude code и opencode, как раз для разработки аппликух для андроида. Причем без знания градле и котлина. Ну да, android studio пришлось ставить, компилять-то в чем-то надо. И еще телефончик дешевый к серверу кабелем подключил, потому как эмулятор тормозит жестоко без выделенной видеокарты, а она нужна самой модели, чтобы работать.

"It’s perfectly safe, I assure you." (c) Злой андроид, заманивающий человека к лицехвату чужого. (Это совершенно безопасно, уверяю вас). :)

Ну, я не увидел одного важного функционала - crowd-sourced location, типа airtag. По блютусу передаем бродкасты с публичным ключом, кто-то его услышал и скинул на сервер вместе со своими GPS-данными. Потом приватным ключом расшифровываем и получаем список локаций.

Этот аттрибут отключает специфичный для claude заголовок, из-за которого промпт-кэш сбрасывается постоянно, на собственно скорость работы модели никак не влияет, просто ей каждый раз приходится весь промпт с нуля перерасчитывать. Полный набор какой-то добрый человек выкладывал в реддите:

export CLAUDE_CODE_ATTRIBUTION_HEADER=0
export DISABLE_TELEMETRY=1
export DISABLE_COST_WARNINGS=1
export CLAUDE_CODE_ATTRIBUTION_HEADER=0
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=120000
export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=95
export DISABLE_PROMPT_CACHING=1
export CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1
#export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1
#export MAX_THINKING_TOKENS=0
export CLAUDE_CODE_DISABLE_FAST_MODE=1
#export DISABLE_INTERLEAVED_THINKING=1
#export CLAUDE_CODE_MAX_RETRIES": "3",
export CLAUDE_CODE_DISABLE_FEEDBACK_SURVEY=1
export CLAUDE_CODE_MAX_TOOL_USE_CONCURRENCY=1
export ENABLE_TOOL_SEARCH=auto
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Не можешь победить - возглавь! :)

Пишешь "дай мне промпт, который бы сгенерировал такую статью?" и аттачишь текст :)

Напиши большую статью для Хабра на тему: [ТЕМА].

Формат: полный практический гайд для новичков с нуля. Стиль — простой, уверенный, разговорный, без академической воды и без рекламного тона.

Структура:
0. Вступление: почему тема важна сейчас и что читатель получит.
1. Что это такое простыми словами.
2. Из каких частей состоит система.
3. Как начать: пошаговая настройка.
4. Основные режимы / функции / сценарии.
5. Настройки, которые реально влияют на результат.
6. Практические примеры использования.
7. Типичные ошибки новичков.
8. Лучшие практики.
9. Ограничения, риски и где нужна ручная проверка.
10. Чеклист внедрения.
11. Финальный вывод.

Пиши как технический автор на Хабре: с подзаголовками, примерами, кодовыми блоками, списками, блоками «подходит / не подходит», практическими советами и честными предупреждениями.

Не копируй чужие формулировки. Сделай статью самостоятельной, но в духе большого подробного гайда, который хочется сохранить в закладки.

Ну, берите v100 32GB тогда. Или уж r9700 ai pro, если хочется новое что-то. Arc B70, судя по всем обзорам и тестам, которые видел - херня для LLM (возможно и не сама карта, а её стек, но выглядит уж очень плачевно).

Для больших проектов не использовал, но если opencode в виртуалке, обязательный коммит в гит после каждой успешной компиляции, почасовые снапшоты в ZFS/BTRFS - и можно отправить его в полноценный unattended, даже если напортачит - можно откатить всегда.

Уже делают. Но получается охрененно дорого для тупой модели, которая никому особо не нужна - Taalas HC1. Зато охрененно быстро (15 тысяч токенов в секунду для сильно пожатой llama3.1-8b) - https://chatjimmy.ai/

Может, конечно, сумеют технологию допилить для более больших и современных моделей.

Похоже, это проект для случая, когда страна под серьезным ударом, логистика и промышленность почти полностью разрушены бомбардировками и/или частичной оккупацией. Просто достаем с секретных складов комплекты электроники и в домашних условиях клеим корпуса из картона, политым водоотталкивающим средством из балончика.

Есть миникомпьютеры, типа Nvidia DGX Spark и его клоны (Asus GX10), но они довольно дорогие и не шибко быстрые. Зато памяти 128 GB (unified, общая для процессора и GPU), то есть можно даже довольно жирные модели запускать. Немного сыроватая платформа, но народу нравится. Маки, начиная с M3, где памяти достаточно.

Видеокарту надо брать из относительно современных, с кучей памяти. Для поиграться с маленькими моделями - и 12 гигов хватит, но если хочется нормальное чтобы кодило там или чего-то в этом духе, то лучше от 24 гигов, на сколько денег хватит. Можно подержанные майнинговые (MI50 32GB, V100 32GB), но если не хочется играть в лотерею "сколько еще времени она проработает, пока не посыпятся конденсаторы/mosfetы)", то лучше что-то приличное, типа R9700 AI Pro 32GB. Если есть хороший бюджет, то верхней планки уже нет - накупить RTX 6000 96GB, на которых все летает. :)

ComfyUI с Wan2.2 моделью можно запускать локально и видеокарточку минимум с 11GB (ну, можно и с меньшим VRAM, однако это будет уже за гранью приемлимого по скорости), для хороших скоростей - помощнее и с 32GB. Но там ограничения на длину клипа (text-to-video генерит только пять секунд максимум, потом приходится городить рекурсивный граф с text-to-video -> последний кадр -> image-to-video).

qwen3.6-27B и gemma4-31B, если хочется поумнее. Либо qwen3.6-35B-A3B и gemma4-26B-A4B, если хочется побыстрее (больше токенов в секунду). Квантование придется брать максимум 6 бит (больше не влезет, особенно с 31/35B, которых брать придется 4 бита, скорее всего).

1
23 ...

Информация

В рейтинге
926-й
Зарегистрирован
Активность