Комментарии / Профиль SlavikF / Хабр

Славик Фурсов@SlavikF

Developer

ПрофильСтатьи9ПостыНовостиКомментарии578

How to access Claude (web/api) from Russia in 2024?

SlavikF 18 фев в 14:15

Thank you for pointing to services, which can be used for VPN, SMS, payments...

But, "Claude 3 Opus"? That's really old.

Представлен Sonnet 4.6 — лишь чуть хуже Opus 4.6

SlavikF 17 фев в 19:04

Хотелось бы увидеть примеры таких задач, которые LLM может декомпозировать.
Кроме программирования пока практически не встречал...

Представлен Sonnet 4.6 — лишь чуть хуже Opus 4.6

SlavikF 17 фев в 18:51

У Claude на странице анонса есть видео, где они демонстрируют, как используется их новая модель. Такое чувство, что они сидели и сами не знали - куда же можно ещё приткнуть использование AI: ToDo list! Добавить событие в календарь! Что, без AI это делать дольше? Сложнее?

В общем, модели сегодня крутые, спору нет. А вот реально полезных кэйсов для использования что-то как-то не очень много несмотря на все потуги "AI всех заменит"!

Вышла ACE-Step 1.5 — обновлённая модель для локальной генерации музыки

SlavikF 11 фев в 23:24

Я попробовал эту модель с вот этим UI:

https://github.com/roblaughter/ace-step-studio

Запускается вот так:

docker run --gpus all -p 8788:8788 -p 5175:5175 -p 8080:8080 \ -v $(pwd)/data:/workspace/data \ -v $(pwd)/checkpoints:/workspace/ACE-Step-1.5/checkpoints \ ghcr.io/fngarvin/ace-step-studio:latest

И в общем работает, но путает языки. То выдаёт текст на испанском, то на английском. Надеюсь допилят...

LLM модель qwen3-coder-next быстрый тест на локальном сервере

SlavikF 5 фев в 02:21

qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.

А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:

https://github.com/ggml-org/llama.cpp/pull/19324#issuecomment-3847213274

Мораль истории: лучше пользуйтесь llama.cpp, а не ollama - там быстрее правят баги, больше вариантов моделей, и можно тоньше настраивать параметры.

Кстати для этой модели - qwen3-coder-next - вчера исправили вызов tools:

https://github.com/ggml-org/llama.cpp/pull/19239

несколько часов назад вышло исправление алгоритма генерации токенов:

https://github.com/ggml-org/llama.cpp/pull/19324

Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...

Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.

У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:

https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF/discussions/1

Пошаговый запуск собственного LLM сервера от А до Я

SlavikF 1 фев в 22:28

llama.cpp

И всё. Больше ничего не надо.

llama.cpp уже идёт со встроенным Web UI

MedGemma: разбираем медицинский AI от Google

SlavikF 25 янв в 16:31

Пользуюсь MedGemma-27B. Весьма полезный инструмент. Фотографирую болячки - и оно мне расписывает детали, варианты... Использую просто с llama.cpp.

У вас в статье ссылка на модель, которая вышла в мае-2025.

Гугл уже выпустил новую версию этой модели в январе-2026:

https://huggingface.co/google/medgemma-1.5-4b-it

Сейчас уже подтянулись китайцы. У них есть две "медицинских" модели:

1. https://huggingface.co/baichuan-inc/Baichuan-M3-235B

Это модель тюненная на основе Qwen3-235B. Для "принятия клинических решений".

С изображениями работать не может.

2. https://huggingface.co/MedAIBase/AntAngelMed

103B. С изображениями работать не может.

Второй уровень автономности ИИ: агент сам управляет облаком и администрирует ВМ по SSH

SlavikF 25 янв в 15:49

Русский язык у вас на таком уровне, что любой ИИ зависнет:

Делает ошибки YC он знает плохо. Цель а как будет если он не занет CLI

GLM-4.7 Flash. Локальная модель, которая реально тянет уровень флагманов

SlavikF 24 янв в 05:10

Проблема с Flash-attention была. Её вчера пофиксали в llama.cpp

У меня на RTX 4090D 48GB RAM, получается 60 токенов в секунду (UD-Q8_K_XL). Это довольно шустро.

40 млн человек ежедневно спрашивают ChatGPT о здоровье. OpenAI хочет, чтобы FDA это узаконила

SlavikF 7 янв в 18:08

Это вопрос гражданской ответственности.

У Гугла есть неплохая модель для работы с медицинскими данными - https://huggingface.co/google/medgemma-27b-it

Может и снимки анализировать, и диагнозы ставить, ... Кстати и русский язык поддерживается.

Вот только на сайтах Гугла (AI Studio) вы эту модель попробовать не можете.

И у других провайдеров, например OpenRouter, вы можете использовать почти любую из сотен открытых моделей, но только не эту медицинскую.

Почему? Потому что никто не хочет подставляться под риск гражданской ответственности.

Остаётся только вариант запускать эту модель на своём сервере, что я и делаю...

Рабочие станции для ML и Data Science — как собрать сервер под столом

SlavikF 7 янв в 16:50

Я здесь в США купил себе на Ebay:

Dell Precision 7960 с блоком питания на 1400W
Xeon W5-3425 (12 cores / 24 threads)
16GB DDR5
$1000

Поставил 512GB DDR5-4800 ( 8 * 64GB) - $2000. Сейчас память конечно намного дороже стоит. Теоретически 8 каналов памяти должны выдавать около 300 GB / s, но я получаю около половины этого: я так и не понял - то ли у Dell стоит кривой контроллер памяти, то ли процессор не вытягивает полную скорость памяти, то ли рэнкинг на модулях памяти неоптимальный...

Купил из Китая RTX 4090D 48GB - $3000. Когда нагружаешь - гудит как самолёт, но работает хорошо. Пришлось повозиться, чтобы подобрать правильный кабель питания - я просто заказал несколько разных, пока нашёлся тот который нужен.

Devstral-Small-2-24B выдаёт у меня 40 т / с

Minimax 2.1 230b выдаёт около 15 т / c

А чтобы не было шума у меня в доме, я построил маленький сарайчик на улице (я тут в частном доме), с одного бока воткнул портативный кондиционер - и всё работает. Ещё я в тот сарай поставил литиевый аккумулятор на 2kW*h и китайский инвертер-UPS на 3kW... А так как у меня к дому идёт файбер на 2Gbps, то у меня тут прямо свой "дата-центр".

Представлен локальный и бесплатный сервис BentoPDF для...

SlavikF 6 янв в 15:13

Я пользовался вот этим сервисом:

https://github.com/Stirling-Tools/Stirling-PDF

Кто-нибудь сравнивал их?

Запускаем Qwen3-VL-30B на 48GB VRAM

SlavikF 6 янв в 00:08

Интересный --host...

Я обычно пишу --host 0.0.0.0

0.0.0.0 означает - отвечать на запросы с любого сетевого интерфейса.

Kubernetes 1.29 → 1.33 за 30 минут: реальный апгрейд кластера с помощью ИИ под контролем инженера

SlavikF 5 янв в 14:23

А какой инструмент использовался, чтобы из чата запускать SSH сессии и команды?

Запускаем Qwen3-VL-30B на 48GB VRAM

SlavikF 4 янв в 15:30

А с какими параметрами запускаете llama.cpp? Чтобы работать с изображениями нужно использовать --mmproj

В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера

SlavikF 18 дек 2025 в 14:58

я попробовал --fit . Очень удобно, но ещё немного сыро. Не умеет брать в расчёт "слой зрения" (или как это правильно по русски?) - крэшится:

https://github.com/ggml-org/llama.cpp/issues/18111 Eval bug: llama-fit-params does not include vision stack in calculations

Есть ещё баг, что они слои не в том порядки загружают.

Но думаю в ближайшее время пофиксят.

В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера

SlavikF 17 дек 2025 в 01:43

Что ещё нужно знать про этот режим:

по умолчанию llama.cpp держит в памяти 4 модели. Поэтому если у вас 24GB VRAM, вы отправили запрос к первой модели на 16GB - она загрузится и ответит. Если теперь придёт запрос ко второй модели на 10+GB, то она попробует загрузиться и свалится с ошибкой OutOfMemory. Решается --models-max 1 - это означает что на VRAM нужно держать только одну модель и при обращении ко второй, первую нужно выгрузить.
по умолчанию все модели загружаются с длиной контекста 8192. Если прописать другое значение - то оно будет использоваться для всех моделей. А если надо для каждой модели использовать своё значение контекста, температуры, ... то нужно использовать --models-preset config.ini

Разворачиваем Proxmox VE 9: Исчерпывающая инструкция по установке и эксплуатации

SlavikF 16 дек 2025 в 15:26

Пользуюсь Proxmox 9 у себя дома.

В общем, всё неплохо.

Но вот нарвался на такую проблему:

в случае использования NVMe дисков и файловой системы ZFS, - как только есть серьёзная нагрузка IOPS на диск, то зависает и крэшится как сама виртуалка, так и сам гипервизор.

Про эту проблему много трэдов написано на их форуме. Решения с ZFS - нету.

Я решил это тем, что использую BTRFS.

Сегодня обновим n8n, установленный по инструкции через...

SlavikF 16 дек 2025 в 14:20

Уже не первая статья про n8n.

А я всё не могу понять: где же этот n8n может быть полезен?

Кто-нибудь, напишите, пожалуйста, пост о реальном, жизненном сценарии (use case) использовании n8n.

Обзор проекта WhisperLiveKit — синхронный перевод между любыми языками

SlavikF 13 дек 2025 в 23:07

Почему "выходит двойной перевод через english"?

В случае использования NLLW: