Комментарии 34
Пока только 4 регистрации одобрил, остальные с непонятними почтами удалил.
Если раньше эксперимент в области Ии был из разряда - продал квартиру – купил видюху, то теперь квартиру надо продавать не в провинции, а в Москве )))
Да уж, цены конечно сейчас негуманные.
Тем летом планировал зимой (то есть сейчас) купить еще 2 видеокарты RTX4090D 48Gb, но случился облом с ценами и логистикой. За картами придется лететь в Китай самому, а я боюсь такие долгие перелеты и вообще самолетов почему то последнее время стал боятся, возраст может.
Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос
Интересно, а чего все нрсятся с игровыми 4090? Мы для своих целей сейчас юзаем все больше A6000RTX 48gb планируем 96gb (до 2 мы в сервер ставим, а дальше vmware и даем карты вмке), купили две H100 но это очень неудобная карта, она щаточена на фермы да еще и полцены это лиценщии на то что нам не нужно. А A6K ставятся куда угодно и отлично работают благо с активным охлаждением. И лишнего там в карте немного. Кстати для пролакшена будет vllm а не оллама, оллама похоже нагрузку не тянет.
(RAG это такая конечно красивая профанация... junk in -> junk out. Но работает, но периолически мухоморов объедается на реальных задачах)
А зачем запускать qwen3-coder-next локально, если бесплатно доступен qwen3-coder на chat.qwen.ai ? Ну, кроме экспериментов, какие ещё причины? На случай, если отключат? Или он принципиально лучше кодит? Конфиденциальность? Вы упомянули RAG. Вы строите RAG на основе qwen3-coder-next? А для чего, если не секрет?
RAG я строю на другой модели, а qwen3-coder-next пишет красивый и правильный код, в чем то он даже лучше чем код от модели gpt-oss:120b, он реально меня разгрузил. А для RAG лучше использовать thinking модели.
А что касается опасений, да, есть небольшая паранойя - конфидециальность и если отключат.
А вообще если честно то я просто захотел что бы у меня был довольно мощный GPU сервер, да это дорого, но я надеюсь что это окупится, если нет то и хер с ним. Но сейчас мы с локальной нейросетью и моим сервером на подряде выкачиваем 5 больших форумов. Полностью, до каждой запятой. Раньше было это делать проще, а сейчас приходится анализировать каждый URL и нейросеть для этого создала хороший код на питоне. Вот бы мне такой компьютер году в 2006.
может, я чего не понимаю, для выкачивания форумов достаточно программы на питоне. даже если надо капчи разгадывать. А вот RAG логично на локальной бямке делать
На питоне и выкачивает.
Я не сильно молодой и понятия типа "бямке" не знаю и спрашивать у поиска не хочу. Лучше вы пишите нормальным русским языком.
Это и есть нормальный русский язык. БЯМ.
LLM что ли?
ну да
Ну я вообще не стронник импортных слов, но иногда всетаки лаконичней именно английский язык. LLM проще произносится чем БЯМ. Уж извините.
Зачем регистрироваться на сервере для получения доступа к OpenWebUI интерфейсу, не понятно. А так, у qwen по api токены нужно покупать, а вот api доступ к модели + VSC + Cline - к примеру - это совершенно другой уровень, чем копи настои с чатом заниматься.
И для локальной модели rag для разработки, вполне не плохая идея - для серъезного проекта - если туда запихать документацию и внутренние правила, возможно можно и код, но тогда слишком часто нужно будет rag обновлять, что бы поддерживать в актуальном состоянии.
Эм. Ну работа в режиме чата и работа в режиме агента через какой-то ide это прям две разные работы. Одно дело постоянно из чата туда и обратно копировать, другое - когда агент сам перепишет несколько файлов найдя все упоминания функции или класса. Так что одно другое не заменяет.
Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей.
А вы смогли? Ну ничего себе! Неверноятно! Мне, вероятно, стоит начать самопроизвольно семяизвергаться от этой новости?
Ваш пост выглядит как нелепое хваставство пятнадцатилетнего подростка, у которого появился очень мощный компьютер, но ему некому об этом сказать, поэтому приходится писать сюда. Скройте это позорище.
Просто ollama давно задубел и бесполезен. Надо ставить Kobold, или у llama.cpp свой сервер уже появился, и тогда можно гонять любую квантизацию, гибко подбирая под наличное железо.
Ну вот хоть кому то интересно поиграться с сервером


Потроебление 700 ватт, немного, но зимой лишнее тепло дома это хорошо.
как у вас подключены видеокарты, сколько линий у pci-e у каждой и какой версии?, какая материнка?


Ollama 0.15.5 новый релиз