All streams
Search
Write a publication
Pull to refresh
19
22
Алексей @xonika9

Инди-хакер

Send message

Можете скинуть источник про брак у Cerebras?

Важно учесть, что это железо не для домашнего применения. Если дорого покупать чип, можно арендовать у тех, кто может себе позволить, или пользоваться по API. Цены достаточно конкурентные. Вот для сравнения провайдеры qwen/qwen3-235b-a22b-2507.

NVIDIA DGX B200 - потребление всей железки 14.3kW, 1kW за карту. AMD MI355X - потребление всей железки не указано, 1,4kW за карту.

CPU остается критически важным для системного управления, обеспечения IO и тех частей инференса, которые требуют последовательной обработки.

Спасибо!

Вы смотрите уже на следующий уровень. MoE и SSM - это все еще борьба внутри парадигмы статичных архитектур. Ваш тезис о морфогенезе - это переход к сетям, где сама архитектура становится переменной, оптимизируемой под задачу.

Но здесь нас ждет новый демон. Если у Трансформера есть проблема сложности (O(n²)), то с архитектурной пластичностью у нас будет проблема стабильности: как система, перестраивая себя, не обрушит собственную структуру?

Пузырь Трансформеров лопнет не просто из-за их цены. Он лопнет, когда появится первая система, способная не просто выучить решение, а вырастить под него архитектуру.

Спасибо, изучу этот момент. А какие модели посоветуете попробовать?

Я думаю, что Mac Studio будет значительно медленнее. PRO 6000 все же заточена под вычислительные задачи, а Mac Studio просто дает хорошее соотношение GB/$ и удобство.

Если главный критерий – это максимальная сырая производительность для тренировки и быстрого инференса очень больших моделей, особенно с учетом дообучения, то NVIDIA является явным победителем. Если же важны такие аспекты, как доступность, низкое энергопотребление, тишина, компактность и возможность запускать большие модели для инференса по более доступной цене (особенно если речь идет о моделях до 130B), то Mac Studio может быть отличным выбором, несмотря на более низкую скорость.

Можете почитать обсуждение - https://www.reddit.com/r/LocalLLaMA/comments/1jzezim/mac_studio_vs_nvidia_gpus_pound_for_pound/

Вот бенчмарк Mac Studio с 96GB - https://www.reddit.com/r/LocalLLaMA/comments/1kvd0jr/m3_ultra_mac_studio_benchmarks_96gb_vram_60_gpu/.

Там же можете поискать бенчмарки разных GPU.

Да, PRO 6000 может быть хорошим, хоть и дорогим, решением, когда нужен максимальный объем VRAM в одной карте без головной боли с multi-GPU.
Потребление в 600W решает. Для рига из 4-6x 3090/4090/5090 придется покупать несколько киловаттных блоков питания, делать спец разводку, строить корпус и даже делать апгрейд своей электросети. PRO 6000 меньше потребляет, меньше греется, меньше шумит. Не придется придумывать охлаждение.

Как вариант, который пользуется популярностью на реддите и ютубе, можно рассмотреть Mac Studio с 512GB памяти. По цене будет также ~$10K. На такой можно и Deepseek с квантизацией запустить. А можно построить кластер из нескольких - https://www.youtube.com/watch?v=Ju0ndy2kwlw

https://www.apple.com/shop/buy-mac/mac-studio/apple-m3-ultra-with-28-core-cpu-60-core-gpu-32-core-neural-engine-96gb-memory-1tb

Если речь про написание кода, можно попробовать:
1. Aider, он работает в терминале. Там есть интеграция с Ollama или OpenAI-подобными API. https://aider.chat/docs/llms.html
2. RooCode или KiloCode, они работают в VSCode. Там в провайдерах можно указать Ollama или LmStudio.

Да, хочу подробнее изучить их документацию на гитхабе, попробовать применить на практике и написать что-то полезное.

Какими ассистентами для написания кода пользуетесь?

Оба термина часто используются взаимозаменяемо в повседневной речи, однако, строго говоря, это разные вещи.

Информация о контексте из официальной документации - https://api-docs.deepseek.com/quick_start/pricing. В некоторых источниках также указано 128k или 164k.

Тут работает принцип "Garbage In, Garbage Out". Лучше устранять противоречия в источниках до индексации. Можно использовать Re-ranker для приоритизации наиболее авторитетных или полных источников. Также, через промпт-инжиниринг можно инструктировать LLM сообщать о найденных противоречиях в предоставленном контексте, а не пытаться их разрешить.

Нет, не в саму LLM. Заметки индексируются в векторной базе данных. LLM получает только несколько самых релевантных фрагментов в момент запроса, не весь массив данных.

Обновления (добавление новых, изменение старых заметок) реализуются путем переиндексации соответствующих фрагментов и обновления векторной базы данных. Это достаточно быстрый процесс, который можно реализовать как локально, так и используя провайдеров.

Есть бесплатные/открытые модели эмбеддингов (как упомянутая all-MiniLM-L6-v2), открытые LLM (например, из экосистемы Hugging Face или на OpenRouter) и бесплатные векторные базы данных (например, Chroma или https://qdrant.tech/).

Information

Rating
331-st
Registered
Activity