В их веб-клиенте написал prompt (я даже не очень-то и просил график):
describe job market for Software Engineer for last 20 years. I mostly want to see which years were market for the employee and which - for the employer
Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.
NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.
Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".
Стало очевидно, что для работы AI нужен капитал на постройку дата-центров, стройку или подключение новых электростанций, покупку GPU,... Nvidia не даст соврать - посмотрите сколько денег идёт им. Возможности наращивать капитал - не безграничны, и один из вариантов - сократить людей, а освободившийся cashflow направить на долгосрочные инвестиции в дата-центры.
То есть получается, что работу теряют из-за AI, но есть ньюанс...
Раньше $$ получали программисты, теперь $$ получают Nvidia и электрики.
У Claude на странице анонса есть видео, где они демонстрируют, как используется их новая модель. Такое чувство, что они сидели и сами не знали - куда же можно ещё приткнуть использование AI: ToDo list! Добавить событие в календарь! Что, без AI это делать дольше? Сложнее?
В общем, модели сегодня крутые, спору нет. А вот реально полезных кэйсов для использования что-то как-то не очень много несмотря на все потуги "AI всех заменит"!
qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.
А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:
Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...
Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.
У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:
Можно поставить себе вот такой плагин для OpenWeb UI - он умеет рисовать диаграммы.
https://github.com/Classic298/open-webui-plugins/tree/main/inline-visualizer
Иногда нормально. Иногда слабенько.
Вот для такого же запроса получилось так себе:
У меня платный аккаунт Pro ($20 / month).
В их веб-клиенте написал prompt (я даже не очень-то и просил график):
И Opus решил что надо рисовать график:
Интересная идея.
Я попросил Opus сделать такой же график для USA за последние 20 лет:
В комментариях ещё написано, что в общем сейчас нанимают не особо сильно, но вот для AI / ML сейчас "рынок продавца" - их нанимают, за ними бегают...
Конечно через OpenAI API.
Потому что клиента я запущу на одном компьютере, а GPU у меня может быть на другом.
qwen2.5? Это не просто старая, это уже древняя модель...
Есть же маленькие модели (2B, 4B) серии qwen3.5 - чего их не использовать?
Есть вот такой конкурент:
https://github.com/EpicenterHQ/epicenter/tree/main/apps/whispering
может делать всё локально на Маке, а может через Open API
Пару месяцев назад Гугл выпустил несколько моделей специально для перевода:
https://huggingface.co/google/models?search=translate
Есть ещё вот такой классный проект для работы с таблицами + AI: https://github.com/quadratichq/quadratic-selfhost
Скорость объединённой памяти на Маках: 200-400 GBps, только на Ultra может достигать 800 GBps.
NVIDIA: от 1 TBps на старой RTX 3090 до 1.8 TBps на RTX 6000. А у моделей для дата-центров - десятки TBps.
Но самая большая проблема у Маков - они тормозные в обработке промптов, потому что у них не хватает мощности GPU/neural процессора для этого. Может у M5 с этим и станет получше, но пока - для программирования вообще не вариант, для каждого запроса надо ждать минуты пока промпт "переварится".
Я мало работаю с видео-редакторами.
Но вот сегодня увидел вот этот видео-редактор:
https://github.com/mohebifar/tooscut
Может кто-то напишет обзор на него?
работает прямо в браузере, ничего не надо инсталлировать
может работать с большими видео-файлами
поддерживает ускорение GPU
эффекты
анимация
Есть ещё один сценарий:
Стало очевидно, что для работы AI нужен капитал на постройку дата-центров, стройку или подключение новых электростанций, покупку GPU,... Nvidia не даст соврать - посмотрите сколько денег идёт им. Возможности наращивать капитал - не безграничны, и один из вариантов - сократить людей, а освободившийся cashflow направить на долгосрочные инвестиции в дата-центры.
То есть получается, что работу теряют из-за AI, но есть ньюанс...
Раньше $$ получали программисты, теперь $$ получают Nvidia и электрики.
4-х битные кванты этой модели - около 64-84 GB:
https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF
Плюс ещё нужна память для контекста.
У этой модели круто то, что она поддерживает длину контекста в миллион токенов "из коробки".
Не поддерживает работу с изображениями.
По отзывам - эта модель где-то на уровне Qwen3.5-122b, но
Qwen3.5 может работать с изображениями
Qwen3.5 максимальный контекст - 262 144 токенов, но можно до миллиона с YaRN.
Thank you for pointing to services, which can be used for VPN, SMS, payments...
But, "Claude 3 Opus"? That's really old.
Хотелось бы увидеть примеры таких задач, которые LLM может декомпозировать.
Кроме программирования пока практически не встречал...
У Claude на странице анонса есть видео, где они демонстрируют, как используется их новая модель. Такое чувство, что они сидели и сами не знали - куда же можно ещё приткнуть использование AI: ToDo list! Добавить событие в календарь! Что, без AI это делать дольше? Сложнее?
В общем, модели сегодня крутые, спору нет. А вот реально полезных кэйсов для использования что-то как-то не очень много несмотря на все потуги "AI всех заменит"!
Я попробовал эту модель с вот этим UI:
https://github.com/roblaughter/ace-step-studio
Запускается вот так:
docker run --gpus all -p 8788:8788 -p 5175:5175 -p 8080:8080 \ -v $(pwd)/data:/workspace/data \ -v $(pwd)/checkpoints:/workspace/ACE-Step-1.5/checkpoints \ ghcr.io/fngarvin/ace-step-studio:latestИ в общем работает, но путает языки. То выдаёт текст на испанском, то на английском. Надеюсь допилят...
qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.
А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:
https://github.com/ggml-org/llama.cpp/pull/19324#issuecomment-3847213274
Мораль истории: лучше пользуйтесь llama.cpp, а не ollama - там быстрее правят баги, больше вариантов моделей, и можно тоньше настраивать параметры.
Кстати для этой модели - qwen3-coder-next - вчера исправили вызов tools:
https://github.com/ggml-org/llama.cpp/pull/19239
несколько часов назад вышло исправление алгоритма генерации токенов:
https://github.com/ggml-org/llama.cpp/pull/19324
Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...
Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.
У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:
https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF/discussions/1
llama.cpp
И всё. Больше ничего не надо.
llama.cpp уже идёт со встроенным Web UI
Пользуюсь MedGemma-27B. Весьма полезный инструмент. Фотографирую болячки - и оно мне расписывает детали, варианты... Использую просто с llama.cpp.
У вас в статье ссылка на модель, которая вышла в мае-2025.
Гугл уже выпустил новую версию этой модели в январе-2026:
https://huggingface.co/google/medgemma-1.5-4b-it
Сейчас уже подтянулись китайцы. У них есть две "медицинских" модели:
1. https://huggingface.co/baichuan-inc/Baichuan-M3-235B
Это модель тюненная на основе Qwen3-235B. Для "принятия клинических решений".
С изображениями работать не может.
2. https://huggingface.co/MedAIBase/AntAngelMed
103B. С изображениями работать не может.
Русский язык у вас на таком уровне, что любой ИИ зависнет: