Pull to refresh
26
0.2
Славик Фурсов@SlavikF

Developer

Send message

Если я что-то знаю и умею, то зачем мне использовать AI или что-то ещё?

AI круто помогает там, где я с темой не знаком. Там, где мне пришлось бы многие часы "погружаться" в тему.

В исследовании сравнивали разработчиков, которые компетентны выполнить задачу. А надо было взять разработчиков, которые не знакомы с какими-то технологиями и посмотреть, сколько у них времени возьмёт...

Я вот тут писал как запустить QWEN3-VL локально у себя на 48GB VRAM:

https://habr.com/ru/articles/953514/

Сейчас уже вышли модели этой серии 8B и 4B, которые можно запустить даже на 16GB VRAM, а может даже и меньше.

Я использую QWEN3-VL 30B для генерации лэндингов. Весьма доволен.

QWEN3-coder тоже можно запустить у себя.

А вот QWEN3-Max - модель недоступна для загрузки, только через API.

Классно! Добавил API endpoint в свой OpenWebUI. Только такой ньюанс, что не все endpoints поддерживаются:

https://docs.perplexity.ai/api-reference/

В частности, для Perplexity - имена моделей нужно вводить вручную.

Например OpenRouter поддерживает /models который возвращает список моделей.

Может стоило бы во вступлении хотя бы чуть написать что такое "BPM-движок Camunda"?

STT и TTS с поддержкой русского языка есть в модели qwen3-omni:

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

https://github.com/QwenLM/Qwen3-Omni/blob/main/README.md?plain=1#L71

Но похоже ни один движок запускать эту модель пока не умеет: vLLM, llama.cpp, ...

У меня 2 карточки:

  • RTX 4090D 48GB

  • RTX 3090 24GB

Запускаю вот так:

services:
  llama-server:
    image: ghcr.io/ggml-org/llama.cpp:full-cuda
    container_name: gpt-120b
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: [gpu]
    ports:
      - "36000:36000"
    volumes:
      - /home/slavik/.cache:/root/.cache
    entrypoint: ["./llama-server"]
    command: >
      --hf-repo ggml-org/gpt-oss-120b-GGUF
      --alias "local-gpt120b"
      --host 0.0.0.0  --port 36000
      --ctx-size 131072
      --jinja
      --temp 1.0  --top-p 1.0  --top-k 0  --min-p 0.01
      --chat-template-kwargs '{"reasoning_effort": "high"}'

Но у этой модели скорость будет нормальной даже, если часть модели будет в RAM, не на GPU.

Спасибо. Почитал, действительно интересно.

Вот только трэнд последних лет - уход от единой точки отказа: отваливается один сервер, то другие серверы в кластере продолжают работать.

А вот с CXL памятью получается наоборот: если сдохнет такая "общая" память, то упадут все серверы, которые используют эту память... Единая точка отказа.

Впрочем я думаю, что про этот сценарий умные люди тоже подумали, просто я не углублялся...

Из статьи как-то не очень понятно - если несколько серверов будут использовать одну общую ноду с памятью через CXL - как они все будут подключаться к этой CXL ноде?

Есть специальные CXL порты?

Сколько серверов может подключиться к одной CXL ноде?

На каких дистрибутивах Линукса запустится такой сервер?

И на каких версия Windows будет работать клиент?

Очевидно, что автор продвигает свой сервис - BoltHub, через который можно использовать ChatGPT и другие модели.

Я мало что знаю про BoltHub сервис, - сам пользуюсь OpenRouter, и у них есть бесплатные модели: не trial, а всегда бесплатные. Ограничения для бесплатных моделей там есть разные: у некоторые контекст небольшой, у других написано, что они используют вашу переписку для тренинга моделей...

А приложения в браузере значит - ненормальные?

Я пробовал запустить LibreChat у себя в докере месяц назад. Но что-то тогда он мне показался сильно глючным. Может сейчас и стабильней...

Сейчас я использую https://github.com/open-webui/open-webui - это похожий UI. Вроде бы считается чуть менее открытый (есть какие-то ограничения в лицензии). Но запускается проще.

Would be great to get similar overview for open-source models and UI

медленная обработка пакетов, ... поддержка мультимедиа 

Что такого предлагает IPv6 для поддержки мультимедиа, чего нету в IPv4?

Обработка пакетов IPv6 быстрее IPv4?

Вы это в LLM статью накатали?

Нормально ли держат сегодняшние NVMe серверную нагрузку?

Раньше советовали, что для серверов лучше взять Б/У серверную модель, чем новую консумерскую модель. Как сегодня дела обстоят?

Ну я бы не был так категоричен.

В ряде бенчмарков Qwen3-Coder-480B-A35B-Instruct превосходит Claude Sonnet 4, и довольно близок к Claude Opus 4.

Кстати по цене Qwen3-Coder-480B тоже довольно близок к Claude Opus 4.

У Zilip странный open-source: ограничение на 10 пользователей.

Аудио-звонков нет.

Непонятно, кому сегодня нужен такой мессенджер.

пусть в США зарплаты по 6 тысяч долларов

Даже джун в США получает больше.

Средний уровень - 10-14 тысяч в месяц.

Хорошо - это 20-25 тысяч в месяц.

Мы наверное слишком в разных культурах живём.

У этого программиста каждый день начинается с кофе и кроссанта в кафе.

Во время обеда он идёт в спортзал или бассейн, который компания уже оплатила всем работникам.

Вечером он со всем офисом идёт в бар, а потом опять возвращается в офис.

Да, наверное на выходных тоже надо будет работать.

Это называется 80-часовая рабочая неделя.

Где ж найти таких сверхчеловеков, кто выдержит такой режим?

И как много вы знаете программистов, которых "загнали в могилу"?

Information

Rating
2,685-th
Location
Greenville, South Carolina, США
Registered
Activity