Comments / Profile of xonika9 / Habr

Алексей @xonika9

Инди-хакер

Сначала был кремний: Почему архитектура чипов, а не код, определяет будущее AI

Можете скинуть источник про брак у Cerebras?

Важно учесть, что это железо не для домашнего применения. Если дорого покупать чип, можно арендовать у тех, кто может себе позволить, или пользоваться по API. Цены достаточно конкурентные. Вот для сравнения провайдеры qwen/qwen3-235b-a22b-2507.

NVIDIA DGX B200 - потребление всей железки 14.3kW, 1kW за карту. AMD MI355X - потребление всей железки не указано, 1,4kW за карту.

CPU остается критически важным для системного управления, обеспечения IO и тех частей инференса, которые требуют последовательной обработки.

Look

Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера

xonika9 Sep 25 at 07:30

Спасибо!

Вы смотрите уже на следующий уровень. MoE и SSM - это все еще борьба внутри парадигмы статичных архитектур. Ваш тезис о морфогенезе - это переход к сетям, где сама архитектура становится переменной, оптимизируемой под задачу.

Но здесь нас ждет новый демон. Если у Трансформера есть проблема сложности (O(n²)), то с архитектурной пластичностью у нас будет проблема стабильности: как система, перестраивая себя, не обрушит собственную структуру?

Пузырь Трансформеров лопнет не просто из-за их цены. Он лопнет, когда появится первая система, способная не просто выучить решение, а вырастить под него архитектуру.

Look

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

xonika9 Sep 10 at 07:24

Спасибо, изучу этот момент. А какие модели посоветуете попробовать?

Look

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

xonika9 Sep 9 at 10:03

Я думаю, что Mac Studio будет значительно медленнее. PRO 6000 все же заточена под вычислительные задачи, а Mac Studio просто дает хорошее соотношение GB/$ и удобство.

Если главный критерий – это максимальная сырая производительность для тренировки и быстрого инференса очень больших моделей, особенно с учетом дообучения, то NVIDIA является явным победителем. Если же важны такие аспекты, как доступность, низкое энергопотребление, тишина, компактность и возможность запускать большие модели для инференса по более доступной цене (особенно если речь идет о моделях до 130B), то Mac Studio может быть отличным выбором, несмотря на более низкую скорость.

Можете почитать обсуждение - https://www.reddit.com/r/LocalLLaMA/comments/1jzezim/mac_studio_vs_nvidia_gpus_pound_for_pound/

Вот бенчмарк Mac Studio с 96GB - https://www.reddit.com/r/LocalLLaMA/comments/1kvd0jr/m3_ultra_mac_studio_benchmarks_96gb_vram_60_gpu/.

Там же можете поискать бенчмарки разных GPU.

Look

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

xonika9 Sep 9 at 09:00

Да, PRO 6000 может быть хорошим, хоть и дорогим, решением, когда нужен максимальный объем VRAM в одной карте без головной боли с multi-GPU.
Потребление в 600W решает. Для рига из 4-6x 3090/4090/5090 придется покупать несколько киловаттных блоков питания, делать спец разводку, строить корпус и даже делать апгрейд своей электросети. PRO 6000 меньше потребляет, меньше греется, меньше шумит. Не придется придумывать охлаждение.

Как вариант, который пользуется популярностью на реддите и ютубе, можно рассмотреть Mac Studio с 512GB памяти. По цене будет также ~$10K. На такой можно и Deepseek с квантизацией запустить. А можно построить кластер из нескольких - https://www.youtube.com/watch?v=Ju0ndy2kwlw

https://www.apple.com/shop/buy-mac/mac-studio/apple-m3-ultra-with-28-core-cpu-60-core-gpu-32-core-neural-engine-96gb-memory-1tb

Look

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

xonika9 Sep 9 at 08:27

Если речь про написание кода, можно попробовать:
1. Aider, он работает в терминале. Там есть интеграция с Ollama или OpenAI-подобными API. https://aider.chat/docs/llms.html
2. RooCode или KiloCode, они работают в VSCode. Там в провайдерах можно указать Ollama или LmStudio.

Look

Экономика результатов: Настоящая революция AI-агентов, которую все упускают

xonika9 Aug 27 at 10:45

Вкалывает робот, счастлив человек!

Look

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

xonika9 Aug 14 at 06:30

Да, хочу подробнее изучить их документацию на гитхабе, попробовать применить на практике и написать что-то полезное.

Look

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

xonika9 Aug 6 at 08:28

Какими ассистентами для написания кода пользуетесь?

Look

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

xonika9 Aug 6 at 08:27

Оба термина часто используются взаимозаменяемо в повседневной речи, однако, строго говоря, это разные вещи.

Информация о контексте из официальной документации - https://api-docs.deepseek.com/quick_start/pricing. В некоторых источниках также указано 128k или 164k.

Look

Умный поиск по заметкам: как оживить «второй мозг» с помощью RAG

xonika9 Jul 25 at 16:00

Тут работает принцип "Garbage In, Garbage Out". Лучше устранять противоречия в источниках до индексации. Можно использовать Re-ranker для приоритизации наиболее авторитетных или полных источников. Также, через промпт-инжиниринг можно инструктировать LLM сообщать о найденных противоречиях в предоставленном контексте, а не пытаться их разрешить.

Look

Умный поиск по заметкам: как оживить «второй мозг» с помощью RAG

xonika9 Jul 22 at 08:08

Нет, не в саму LLM. Заметки индексируются в векторной базе данных. LLM получает только несколько самых релевантных фрагментов в момент запроса, не весь массив данных.

Обновления (добавление новых, изменение старых заметок) реализуются путем переиндексации соответствующих фрагментов и обновления векторной базы данных. Это достаточно быстрый процесс, который можно реализовать как локально, так и используя провайдеров.

Есть бесплатные/открытые модели эмбеддингов (как упомянутая all-MiniLM-L6-v2), открытые LLM (например, из экосистемы Hugging Face или на OpenRouter) и бесплатные векторные базы данных (например, Chroma или https://qdrant.tech/).

Look