Pull to refresh
8K+
29
Славик Фурсов@SlavikF

Developer

9,8
Rating
22
Subscribers
Send message

Направление интересное, предлагаю тему:

Обзор Harness или агентов для программирования с LLM.

Я пользовался CLine, но потом перешёл на модный RooCode. Недавно RooCode написали, что они закрываются, чтобы развивать Roomote.

Народ пишет: все переходим теперь на KiloCode, но им отвечают что KiloCode - это просто обёртка над OpenCode.

Одна из самых популярных открытых моделей - это Qwen 3.6, а у них есть своей агент - QwenCode.

Свои агенты есть и у Google (AntiGravity), OpenAI (Codex), но только про ClaudeCode я вижу, что народ подсовывает туда свои модели их агенту (чтобы не платить за дорогие модели Claude).

Ещё есть https://openhands.dev/ - довольно интересный проект.

В общем, было бы интересно ориентироваться в этом зоопарке.

Вот я как раз хотел научиться работать с браузером, чтобы управлять с помощью AI.

В этой статье вроде бы как раз об этом и говорится. Но нет ничего про модель: какая модель управляет этими инструментами? Где она выбирается? Где UI для этого чтобы прописывать задачи?

Вот бы какой-нибудь более полный туториал для этого дела увидеть.

Вчера пофиксили:

https://github.com/ggml-org/llama.cpp/pull/22480 webui: fix slow mic stop and WAV encode

Это смотря у какие маков.

  • Pro - 307 GB/s

  • Max - 460 GB/s

  • Ultra - 820 GB/s

Кстати, для GB/s буквы - заглавные. Это означает - гигабайты.

Если буквы не заглавные - gb/s - это означает гигабиты. То есть в 8 раз меньше.

А ещё GPU отличается от мака тем, что у мака слабая производительность графического процессора по сравнению с GPU. На генерацию токенов это не влияет, в вот промпты обрабатываются раз в 5-10 медленнее.

Спасибо, полезный обзор.

Я на своём MacBook Pro M1 использую похожий инструмент, тоже открытый:

https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

В общем - доволен, работает шустро, русский язык поддерживается.

Ещё вопрос или предложение: было бы хорошо сделать обзор инструментов, которые в потоковом режиме могли бы переводить звук на другой язык. Есть вот такие проекты для этого:

Было бы интересно почитать обзор таких инструментов.

Например вот так:

services:
  gemma4:
    image: ghcr.io/ggml-org/llama.cpp:server-cuda12-b8808
    container_name: gemma4
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: [gpu]
    ports:
      - "8080:8080"
    volumes:
      - ~/.cache:/root/.cache
    entrypoint: ["./llama-server"]
    command: >
      --hf-repo unsloth/gemma-4-31B-it-GGUF:UD-Q6_K_XL
      --alias gemma4
      --host 0.0.0.0  --port 8080
      --api-key secret123
      --ctx-size 131072
      --top-p 0.95 --top-k 64 --temp 1.0

Футер, который постоянно уезжает из-за того, что всё время подгружаются дополнительные ряды в таблицу - это чтобы специально раздражать посетителей сайта?

Да, есть такая проблема. Отправил им bug report:

https://github.com/ggml-org/llama.cpp/issues/21900 Misc. bug: WebUI audio record button doesn't work

Попробовал запустить у себя на Ubuntu 24 + RTX 4090

./start_gradio_ui.sh: 
line 83: LANGUAGE: unbound variable

Оказывается надо вот так:

export LANGUAGE=ru
./start_gradio_ui.sh

Сервер запускается на 127.0.0.1, то есть - недоступен с других устроств. Значит нужно скопировать свой .env и прописать там 0.0.0.0

Запустил. По умолчанию генерация идёт в mp3. Но на Ubuntu mp3 у этой системы не работает. Только WAV: https://github.com/ace-step/ACE-Step-1.5/issues/1018

Сгенерировал WAV файл, но в UI он почему-то недоступен. ок, я открыл его прямо с диска в плеере.

Послушал - музыка неплохо. Процентов 20 слов - неправильное ударение.

В общем - оно как-то работает, но довольно сыро...

Подожду пока допилят этот UI, или добавят модель в какой-нибудь другой UI типа этого: https://github.com/fspecii/ace-step-ui

Можно поставить себе вот такой плагин для OpenWeb UI - он умеет рисовать диаграммы.

https://github.com/Classic298/open-webui-plugins/tree/main/inline-visualizer

Иногда нормально. Иногда слабенько.

Вот для такого же запроса получилось так себе:

У меня платный аккаунт Pro ($20 / month).

В их веб-клиенте написал prompt (я даже не очень-то и просил график):

describe job market for Software Engineer for last 20 years. I mostly want to see which years were market for the employee and which - for the employer

И Opus решил что надо рисовать график:

Интересная идея.

Я попросил Opus сделать такой же график для USA за последние 20 лет:

В комментариях ещё написано, что в общем сейчас нанимают не особо сильно, но вот для AI / ML сейчас "рынок продавца" - их нанимают, за ними бегают...

Конечно через OpenAI API.

Потому что клиента я запущу на одном компьютере, а GPU у меня может быть на другом.

qwen2.5? Это не просто старая, это уже древняя модель...

Есть же маленькие модели (2B, 4B) серии qwen3.5 - чего их не использовать?

Есть вот такой конкурент:

https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

может делать всё локально на Маке, а может через Open API

Смотрел на локальные библиотеки для перевода, но чего-то вменяемого не нашел.

Пару месяцев назад Гугл выпустил несколько моделей специально для перевода:

https://huggingface.co/google/models?search=translate

Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.

NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.

Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".

Я мало работаю с видео-редакторами.

Но вот сегодня увидел вот этот видео-редактор:

https://github.com/mohebifar/tooscut

Может кто-то напишет обзор на него?

  • работает прямо в браузере, ничего не надо инсталлировать

  • может работать с большими видео-файлами

  • поддерживает ускорение GPU

  • эффекты

  • анимация

Есть ещё один сценарий:

Стало очевидно, что для работы AI нужен капитал на постройку дата-центров, стройку или подключение новых электростанций, покупку GPU,... Nvidia не даст соврать - посмотрите сколько денег идёт им. Возможности наращивать капитал - не безграничны, и один из вариантов - сократить людей, а освободившийся cashflow направить на долгосрочные инвестиции в дата-центры.

То есть получается, что работу теряют из-за AI, но есть ньюанс...

Раньше $$ получали программисты, теперь $$ получают Nvidia и электрики.

1
23 ...

Information

Rating
765-th
Location
Greenville, South Carolina, США
Registered
Activity