softel7 фев в 19:08

Ollama 0.15.5 новый релиз

2 мин

12K

Искусственный интеллектОблачные сервисы * Серверная оптимизация * Исследования и прогнозы в IT *

Мнение

Комментарии 34

softel 7 фев в 20:35

Пока только 4 регистрации одобрил, остальные с непонятними почтами удалил.

riv9231 8 фев в 09:04

Пока у меня регистрация была открыта, постоянно регались десятки китайцев или китайских ботов с почтой на домене qq.com или cn не помню уже.

MAXH0 7 фев в 21:43

Если раньше эксперимент в области Ии был из разряда - продал квартиру – купил видюху, то теперь квартиру надо продавать не в провинции, а в Москве )))

softel 7 фев в 21:48

Да уж, цены конечно сейчас негуманные.

softel 7 фев в 21:58

Тем летом планировал зимой (то есть сейчас) купить еще 2 видеокарты RTX4090D 48Gb, но случился облом с ценами и логистикой. За картами придется лететь в Китай самому, а я боюсь такие долгие перелеты и вообще самолетов почему то последнее время стал боятся, возраст может.

vpman 8 фев в 09:15

Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос

softel 8 фев в 09:44

У меня 2 карты RTX4090 с турбинами, шумят как 2 пылесоса )))

Stranger267 9 фев в 08:17

Интересно, а чего все нрсятся с игровыми 4090? Мы для своих целей сейчас юзаем все больше A6000RTX 48gb планируем 96gb (до 2 мы в сервер ставим, а дальше vmware и даем карты вмке), купили две H100 но это очень неудобная карта, она щаточена на фермы да еще и полцены это лиценщии на то что нам не нужно. А A6K ставятся куда угодно и отлично работают благо с активным охлаждением. И лишнего там в карте немного. Кстати для пролакшена будет vllm а не оллама, оллама похоже нагрузку не тянет.

(RAG это такая конечно красивая профанация... junk in -> junk out. Но работает, но периолически мухоморов объедается на реальных задачах)

ZanZy 7 фев в 21:51

А зачем запускать qwen3-coder-next локально, если бесплатно доступен qwen3-coder на chat.qwen.ai ? Ну, кроме экспериментов, какие ещё причины? На случай, если отключат? Или он принципиально лучше кодит? Конфиденциальность? Вы упомянули RAG. Вы строите RAG на основе qwen3-coder-next? А для чего, если не секрет?

softel 7 фев в 22:08

RAG я строю на другой модели, а qwen3-coder-next пишет красивый и правильный код, в чем то он даже лучше чем код от модели gpt-oss:120b, он реально меня разгрузил. А для RAG лучше использовать thinking модели.

А что касается опасений, да, есть небольшая паранойя - конфидециальность и если отключат.

softel 7 фев в 22:21

А вообще если честно то я просто захотел что бы у меня был довольно мощный GPU сервер, да это дорого, но я надеюсь что это окупится, если нет то и хер с ним. Но сейчас мы с локальной нейросетью и моим сервером на подряде выкачиваем 5 больших форумов. Полностью, до каждой запятой. Раньше было это делать проще, а сейчас приходится анализировать каждый URL и нейросеть для этого создала хороший код на питоне. Вот бы мне такой компьютер году в 2006.

ZanZy 7 фев в 22:34

может, я чего не понимаю, для выкачивания форумов достаточно программы на питоне. даже если надо капчи разгадывать. А вот RAG логично на локальной бямке делать

softel 7 фев в 22:39

На питоне и выкачивает.

softel 7 фев в 22:42

Я не сильно молодой и понятия типа "бямке" не знаю и спрашивать у поиска не хочу. Лучше вы пишите нормальным русским языком.

ZanZy 7 фев в 22:46

Это и есть нормальный русский язык. БЯМ.

softel 7 фев в 22:47

LLM что ли?

ZanZy 7 фев в 23:01

ну да

softel 7 фев в 23:05

Ну я вообще не стронник импортных слов, но иногда всетаки лаконичней именно английский язык. LLM проще произносится чем БЯМ. Уж извините.

ZanZy 8 фев в 09:15

термины существуют не для того, чтобы нравиться кому-то. вкусовщину обсуждать не собираюсь. З.Ы. И БЯМ проще произносится.

DarkGenius 8 фев в 18:25

Никто не говорит в профессиональной среде "БЯМ"

angel_zar 8 фев в 02:50

Зачем регистрироваться на сервере для получения доступа к OpenWebUI интерфейсу, не понятно. А так, у qwen по api токены нужно покупать, а вот api доступ к модели + VSC + Cline - к примеру - это совершенно другой уровень, чем копи настои с чатом заниматься.

И для локальной модели rag для разработки, вполне не плохая идея - для серъезного проекта - если туда запихать документацию и внутренние правила, возможно можно и код, но тогда слишком часто нужно будет rag обновлять, что бы поддерживать в актуальном состоянии.

softel 8 фев в 08:30

Ну например для того что бы посмотреть что могут локальные LLM

Вон кто то уже играется с ними

angel_zar 8 фев в 15:53

Я не спорю, по играться для студентов самое то, но не более.

vmkazakoff 8 фев в 09:45

Эм. Ну работа в режиме чата и работа в режиме агента через какой-то ide это прям две разные работы. Одно дело постоянно из чата туда и обратно копировать, другое - когда агент сам перепишет несколько файлов найдя все упоминания функции или класса. Так что одно другое не заменяет.

softel 8 фев в 09:52

Когда есть свой сервер с API, нет проблемы подключить IDE

vmkazakoff 8 фев в 12:19

Так я об этом же. Просто автор вопроса спросил зачем сервер, если есть бесплатно в веб интерфейсе. Вашу идею я как раз уловил и поддерживаю - и секурно, и удобно. Ну и вообще поиграться интересно.

autyan 8 фев в 04:01

Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей.

А вы смогли? Ну ничего себе! Неверноятно! Мне, вероятно, стоит начать самопроизвольно семяизвергаться от этой новости?

Ваш пост выглядит как нелепое хваставство пятнадцатилетнего подростка, у которого появился очень мощный компьютер, но ему некому об этом сказать, поэтому приходится писать сюда. Скройте это позорище.

Prikalel 8 фев в 07:10

Ух ты

Новое слово

softel 8 фев в 08:25

Вы из тех самых хейтеров?

MountainGoat 8 фев в 08:30

Просто ollama давно задубел и бесполезен. Надо ставить Kobold, или у llama.cpp свой сервер уже появился, и тогда можно гонять любую квантизацию, гибко подбирая под наличное железо.

softel 8 фев в 08:31

Можно, НО всему свое время ))

softel 8 фев в 08:36

Ну вот хоть кому то интересно поиграться с сервером

Потроебление 700 ватт, немного, но зимой лишнее тепло дома это хорошо.

rPman 8 фев в 15:50

как у вас подключены видеокарты, сколько линий у pci-e у каждой и какой версии?, какая материнка?

softel 8 фев в 18:47

Карты на одной шине PCI-E 16X версия 5, разделены по 8Х на каждую, материнка ASUS ROG MAXIMUS Z790 DARK HERO, процессор I9 14900К, RAM DDR5 192Гб. 4800. SSD 2 ТБ Gen5 14500 Мб/с, но сидит на PCI-E 4.0, так что безпонтово

Зарегистрируйтесь на Хабре, чтобы оставить комментарий