Обновить

Комментарии 34

Пока только 4 регистрации одобрил, остальные с непонятними почтами удалил.

Пока у меня регистрация была открыта, постоянно регались десятки китайцев или китайских ботов с почтой на домене qq.com или cn не помню уже.

Если раньше эксперимент в области Ии был из разряда - продал квартиру – купил видюху, то теперь квартиру надо продавать не в провинции, а в Москве )))

Да уж, цены конечно сейчас негуманные.

Тем летом планировал зимой (то есть сейчас) купить еще 2 видеокарты RTX4090D 48Gb, но случился облом с ценами и логистикой. За картами придется лететь в Китай самому, а я боюсь такие долгие перелеты и вообще самолетов почему то последнее время стал боятся, возраст может.

Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос

У меня 2 карты RTX4090 с турбинами, шумят как 2 пылесоса )))

Интересно, а чего все нрсятся с игровыми 4090? Мы для своих целей сейчас юзаем все больше A6000RTX 48gb планируем 96gb (до 2 мы в сервер ставим, а дальше vmware и даем карты вмке), купили две H100 но это очень неудобная карта, она щаточена на фермы да еще и полцены это лиценщии на то что нам не нужно. А A6K ставятся куда угодно и отлично работают благо с активным охлаждением. И лишнего там в карте немного. Кстати для пролакшена будет vllm а не оллама, оллама похоже нагрузку не тянет.

(RAG это такая конечно красивая профанация... junk in -> junk out. Но работает, но периолически мухоморов объедается на реальных задачах)

А зачем запускать qwen3-coder-next локально, если бесплатно доступен qwen3-coder на chat.qwen.ai ? Ну, кроме экспериментов, какие ещё причины? На случай, если отключат? Или он принципиально лучше кодит? Конфиденциальность? Вы упомянули RAG. Вы строите RAG на основе qwen3-coder-next? А для чего, если не секрет?

RAG я строю на другой модели, а qwen3-coder-next пишет красивый и правильный код, в чем то он даже лучше чем код от модели gpt-oss:120b, он реально меня разгрузил. А для RAG лучше использовать thinking модели.

А что касается опасений, да, есть небольшая паранойя - конфидециальность и если отключат.

А вообще если честно то я просто захотел что бы у меня был довольно мощный GPU сервер, да это дорого, но я надеюсь что это окупится, если нет то и хер с ним. Но сейчас мы с локальной нейросетью и моим сервером на подряде выкачиваем 5 больших форумов. Полностью, до каждой запятой. Раньше было это делать проще, а сейчас приходится анализировать каждый URL и нейросеть для этого создала хороший код на питоне. Вот бы мне такой компьютер году в 2006.

может, я чего не понимаю, для выкачивания форумов достаточно программы на питоне. даже если надо капчи разгадывать. А вот RAG логично на локальной бямке делать

На питоне и выкачивает.

Я не сильно молодой и понятия типа "бямке" не знаю и спрашивать у поиска не хочу. Лучше вы пишите нормальным русским языком.

Это и есть нормальный русский язык. БЯМ.

LLM что ли?

ну да

Ну я вообще не стронник импортных слов, но иногда всетаки лаконичней именно английский язык. LLM проще произносится чем БЯМ. Уж извините.

термины существуют не для того, чтобы нравиться кому-то. вкусовщину обсуждать не собираюсь. З.Ы. И БЯМ проще произносится.

Никто не говорит в профессиональной среде "БЯМ"

Зачем регистрироваться на сервере для получения доступа к OpenWebUI интерфейсу, не понятно. А так, у qwen по api токены нужно покупать, а вот api доступ к модели + VSC + Cline - к примеру - это совершенно другой уровень, чем копи настои с чатом заниматься.

И для локальной модели rag для разработки, вполне не плохая идея - для серъезного проекта - если туда запихать документацию и внутренние правила, возможно можно и код, но тогда слишком часто нужно будет rag обновлять, что бы поддерживать в актуальном состоянии.

Ну например для того что бы посмотреть что могут локальные LLM

Вон кто то уже играется с ними

Я не спорю, по играться для студентов самое то, но не более.

Эм. Ну работа в режиме чата и работа в режиме агента через какой-то ide это прям две разные работы. Одно дело постоянно из чата туда и обратно копировать, другое - когда агент сам перепишет несколько файлов найдя все упоминания функции или класса. Так что одно другое не заменяет.

Когда есть свой сервер с API, нет проблемы подключить IDE

Так я об этом же. Просто автор вопроса спросил зачем сервер, если есть бесплатно в веб интерфейсе. Вашу идею я как раз уловил и поддерживаю - и секурно, и удобно. Ну и вообще поиграться интересно.

Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей. 

А вы смогли? Ну ничего себе! Неверноятно! Мне, вероятно, стоит начать самопроизвольно семяизвергаться от этой новости?

Ваш пост выглядит как нелепое хваставство пятнадцатилетнего подростка, у которого появился очень мощный компьютер, но ему некому об этом сказать, поэтому приходится писать сюда. Скройте это позорище.

Ух ты

Новое слово

Вы из тех самых хейтеров?

Просто ollama давно задубел и бесполезен. Надо ставить Kobold, или у llama.cpp свой сервер уже появился, и тогда можно гонять любую квантизацию, гибко подбирая под наличное железо.

Можно, НО всему свое время ))

Ну вот хоть кому то интересно поиграться с сервером

Потроебление 700 ватт, немного, но зимой лишнее тепло дома это хорошо.

как у вас подключены видеокарты, сколько линий у pci-e у каждой и какой версии?, какая материнка?

Карты на одной шине PCI-E 16X версия 5, разделены по 8Х на каждую, материнка ASUS ROG MAXIMUS Z790 DARK HERO, процессор I9 14900К, RAM DDR5 192Гб. 4800. SSD 2 ТБ Gen5 14500 Мб/с, но сидит на PCI-E 4.0, так что безпонтово

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации