Pull to refresh
29
Славик Фурсов@SlavikF

Developer

0,1
Rating
19
Subscribers
Send message

Можно поставить себе вот такой плагин для OpenWeb UI - он умеет рисовать диаграммы.

https://github.com/Classic298/open-webui-plugins/tree/main/inline-visualizer

Иногда нормально. Иногда слабенько.

Вот для такого же запроса получилось так себе:

У меня платный аккаунт Pro ($20 / month).

В их веб-клиенте написал prompt (я даже не очень-то и просил график):

describe job market for Software Engineer for last 20 years. I mostly want to see which years were market for the employee and which - for the employer

И Opus решил что надо рисовать график:

Интересная идея.

Я попросил Opus сделать такой же график для USA за последние 20 лет:

В комментариях ещё написано, что в общем сейчас нанимают не особо сильно, но вот для AI / ML сейчас "рынок продавца" - их нанимают, за ними бегают...

Конечно через OpenAI API.

Потому что клиента я запущу на одном компьютере, а GPU у меня может быть на другом.

qwen2.5? Это не просто старая, это уже древняя модель...

Есть же маленькие модели (2B, 4B) серии qwen3.5 - чего их не использовать?

Есть вот такой конкурент:

https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering

может делать всё локально на Маке, а может через Open API

Смотрел на локальные библиотеки для перевода, но чего-то вменяемого не нашел.

Пару месяцев назад Гугл выпустил несколько моделей специально для перевода:

https://huggingface.co/google/models?search=translate

Есть ещё вот такой классный проект для работы с таблицами + AI: https://github.com/quadratichq/quadratic-selfhost

Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.

NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.

Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".

Я мало работаю с видео-редакторами.

Но вот сегодня увидел вот этот видео-редактор:

https://github.com/mohebifar/tooscut

Может кто-то напишет обзор на него?

  • работает прямо в браузере, ничего не надо инсталлировать

  • может работать с большими видео-файлами

  • поддерживает ускорение GPU

  • эффекты

  • анимация

Есть ещё один сценарий:

Стало очевидно, что для работы AI нужен капитал на постройку дата-центров, стройку или подключение новых электростанций, покупку GPU,... Nvidia не даст соврать - посмотрите сколько денег идёт им. Возможности наращивать капитал - не безграничны, и один из вариантов - сократить людей, а освободившийся cashflow направить на долгосрочные инвестиции в дата-центры.

То есть получается, что работу теряют из-за AI, но есть ньюанс...

Раньше $$ получали программисты, теперь $$ получают Nvidia и электрики.

4-х битные кванты этой модели - около 64-84 GB:

https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF

Плюс ещё нужна память для контекста.

У этой модели круто то, что она поддерживает длину контекста в миллион токенов "из коробки".

Не поддерживает работу с изображениями.

По отзывам - эта модель где-то на уровне Qwen3.5-122b, но

  • Qwen3.5 может работать с изображениями

  • Qwen3.5 максимальный контекст - 262 144 токенов, но можно до миллиона с YaRN.

Thank you for pointing to services, which can be used for VPN, SMS, payments...

But, "Claude 3 Opus"? That's really old.

Хотелось бы увидеть примеры таких задач, которые LLM может декомпозировать.
Кроме программирования пока практически не встречал...

У Claude на странице анонса есть видео, где они демонстрируют, как используется их новая модель. Такое чувство, что они сидели и сами не знали - куда же можно ещё приткнуть использование AI: ToDo list! Добавить событие в календарь! Что, без AI это делать дольше? Сложнее?

В общем, модели сегодня крутые, спору нет. А вот реально полезных кэйсов для использования что-то как-то не очень много несмотря на все потуги "AI всех заменит"!

Я попробовал эту модель с вот этим UI:

https://github.com/roblaughter/ace-step-studio

Запускается вот так:

docker run --gpus all -p 8788:8788 -p 5175:5175 -p 8080:8080 \ -v $(pwd)/data:/workspace/data \ -v $(pwd)/checkpoints:/workspace/ACE-Step-1.5/checkpoints \ ghcr.io/fngarvin/ace-step-studio:latest

И в общем работает, но путает языки. То выдаёт текст на испанском, то на английском. Надеюсь допилят...

qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.

А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:

https://github.com/ggml-org/llama.cpp/pull/19324#issuecomment-3847213274

Мораль истории: лучше пользуйтесь llama.cpp, а не ollama - там быстрее правят баги, больше вариантов моделей, и можно тоньше настраивать параметры.

Кстати для этой модели - qwen3-coder-next - вчера исправили вызов tools:

https://github.com/ggml-org/llama.cpp/pull/19239

несколько часов назад вышло исправление алгоритма генерации токенов:

https://github.com/ggml-org/llama.cpp/pull/19324

Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...

Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.

У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:

https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF/discussions/1

llama.cpp

И всё. Больше ничего не надо.

llama.cpp уже идёт со встроенным Web UI

Пользуюсь MedGemma-27B. Весьма полезный инструмент. Фотографирую болячки - и оно мне расписывает детали, варианты... Использую просто с llama.cpp.

У вас в статье ссылка на модель, которая вышла в мае-2025.

Гугл уже выпустил новую версию этой модели в январе-2026:

https://huggingface.co/google/medgemma-1.5-4b-it

Сейчас уже подтянулись китайцы. У них есть две "медицинских" модели:

1. https://huggingface.co/baichuan-inc/Baichuan-M3-235B

Это модель тюненная на основе Qwen3-235B. Для "принятия клинических решений".

С изображениями работать не может.

2. https://huggingface.co/MedAIBase/AntAngelMed

103B. С изображениями работать не может.

Русский язык у вас на таком уровне, что любой ИИ зависнет:

Делает ошибки YC он знает плохо. Цель а как будет если он не занет CLI

1
23 ...

Information

Rating
4,054-th
Location
Greenville, South Carolina, США
Registered
Activity