Комментарии / Профиль Druzd / Хабр

Пользователь

Подписчики

GFusion: как мы обучали диффузионную LLM в GigaChat

на arXiv есть статья (ссылку не помню) там пробовали в маскированный токен добавлять timestep, на длинных контекстах больше 32к результат приемлемый. Но KV кеш при увеличении длины контекста улетает в небо, т. к. каждый denoising step обрабатывает уже не 8-16 итераций.

И есть проблема что логиты лучше держать в fp32 для более точной корреляции денозинга.

HTCE: когнитивное ядро нового поколения, которое не верит без доказательств

Druzd 29 июн в 06:48

Не понимаю в чем профит этой системы? Как я понял на каждом слое также используется какая-либо llm для проверки фактов, памяти, источников и.т.п. Так что мешает llm вытащить источник и сказать - "вот нашел источник, он праводоподобный"?

Парадокс Open-Source: Единственный способ победить корпорации — раздать свой код бесплатно

Druzd 17 июн в 13:21

Поддерживаю! Сам говно(вайб)кодер opensource проектов. Но я ими пользуюсь каждый день, допиливаю, смотрю коммиты после агента, т.к. бесят куча fallback + к правке двух строк в одном модуле прилетает еще +100500 файлов. Я только не понимаю как автор 300к строк кода ревьювил?)))

Парадокс Open-Source: Единственный способ победить корпорации — раздать свой код бесплатно

Druzd 17 июн в 10:29

Так я не понял сколько ты заработал на своих торговых ботах? Можно цифрами порадовать?

Локальные LLM на Arch Linux и как увеличить скорость генерации в разы

Druzd 10 июн в 18:26

размер словаря (vocab size) ещё уменьши, удивишься как скорость генерации взлетит.

Как дообучить LLM. Рассказываю шаг за шагом

Druzd 10 июн в 17:22

а dpo (датасет из пары хороший-плохой ответ) не пробовали файнтюнить? Сколько статей выкладывают про тюнинг, ни разу не видел чтобы dpo дообучали, все только на датасетах sft (инструкции) останавливаются.

Finetune Lora Qwen3vl и прочие приключения

Druzd 9 июн в 17:53

параметра dt не хватает на каждом шаге, - сколько секунд ушло на каждый шаг.

RTX Spark — ARM-суперчип под Windows

Druzd 6 июн в 07:51

для инференса не имеет смысла, т. к. поддержка fp4 в многих фреймворках, топовые llama. cpp, llama. cpp не поддерживается. Там куча багов и косяков. У меня DGX Spark и работает только на bfloat16, float32 и скорость 400 tflops это потолок.

поддержку fp4 обещают уже 2 года, а воз и ныне там.

В новых драйверах cuda13 ещё продвигают fp8, но опять все топовые фреймворки не работают.

Ищу ранних тестировщиков для веб-версии AI-сервиса для бытовых задач

Druzd 7 мая в 11:22

Спасибо большое! Переезжаю на digitalocean.com!)

Ищу ранних тестировщиков для веб-версии AI-сервиса для бытовых задач

Druzd 7 мая в 06:46

если не секрет где сервис размещаешь? Какие мощности под инференс? Сколько в месяц выходит по оплате?

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

Druzd 3 мая в 10:57

DGX Spark не заточены на инференс, там приемлемо работают модели с квантизацией Q4, т. к. NPU модули хорошо обрабатывают float4. В паре два спарка работают хорошо, когда на одном веса, на другом Kv-cashe. На реддите есть обзоры где запускают на паре спарков модели по 130Млрд.параметров Q4.

Спарки заточены на обучение моделей до 8 млрд. параметров. Вот тут они очень хороши! Когда быстро надо проверить гипотезу при обучении, собрать мини модель, обкатать А/В тестами, и потом можно транспонировать на большую модель код.

Или же фантюнинг открытых моделей, когда прикручиваем свой уникальный слой в веса, например QLora.

У меня аналог Asus Ascent GX10. Я использую под обучение своих моделей. К примеру модель на 4млрд. параметров с 10-тью MoE экспертами обучается за 20 часов. Все дело в размере VRAM, на обычной Rtx 5090 с 32 Gb формально возможно обучение, но это заняло бы месяц, а то и два.

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Druzd 24 апр в 06:23

Советую отказаться от LoRa, смотреть в сторону MoE и новый метод дообучения предложенный Allen Institute for AI BAR (Branch-Adapt-Route) . https://www.reddit.com/r/LocalLLaMA/comments/1srrgkw/xpost_allen_ai_bar_train_domain_experts_merge/

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Druzd 23 апр в 13:02

30к за датасет из 30к пар дороговато. Чатгпт делает датасеты по 150к за 10 мин + сделать скрипт доочистки мусора, дублей и шума.

И строить датасеты только на парах запрос - ответ так себе. Базовая модель не будет поддерживать reasoning, потом начнёт уходить в дрифт.

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

Druzd 22 апр в 17:39

Это бизнес по-русски!))) Купить A100 в Китае за 340к и продавать в России как сервис за 230к в месяц. Про V100 вообще молчу, на авито таких как грязи за 50К.

Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать

Druzd 20 апр в 10:45

сделан на основе https://github.com/salmanmohammadi/nanocode. Там есть все ручными утилитами cli.

Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать

Druzd 16 апр в 13:37

генерить синтетические данные, тем более в статье только пример выборки 1300, я думаю у них намного больше.

Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать

Druzd 16 апр в 09:45

Стесняюсь спросить, как Вы собрались до обучать базовую модель без изменения весов самой модели? Это технически не возможно.

Все топы и делают каждые 3 месяца выкатывают новые модели, которые обучены на старой + новые датасеты.

Можно хоть 1млн. слоев файн тюнинга прикрутить к базовой модели - результат будет минимальным.

А то что модель забывает - проблема в kv-cashe, любая топовая модель не будет делать лишние вычисления, проще поднять старое по смыслу из кеша. А хозяева модели не будут тратить лишние ресурсы на вычисления.

На практике, уменьшите количество голов kv-head и проблема забвения модели сократиться в N раз.

В будущем думаю все текущие проблемы отпадут с появлением квантовых вычислений, когда нет алгоритма, а есть миллиарды результатов на выходе из кубита.

Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать

Druzd 15 апр в 16:33

на 8 H100 можно спокойно обучить свою модель на 5-8 млрд. параметров под свой датасет за короткое время. Тем более у Вас есть возможность собрать такой узкий датасет под Kotlin+обучить base train, например на ruwiki+ mathlab++++. Так у Вас будет не модель всезнайка с квантизацией на примере qwen, а узко специализированная под Вас. Докрутить роутеры + MoE. На инференсе получать телеметрики, в том числе поощрения, и автоматом собирать новый датасет под релиз новой модели.

Дали бы мне на недельку такие мощности, эх развернулся бы)))

Возвращаем к жизни связку openclaw + claude

Druzd 9 апр в 07:40

уже начали вычислить и банить юзеров пожизненно.

Возвращаем к жизни связку openclaw + claude

Druzd 9 апр в 07:39

а что это даст? Даже с подменой ты будешь ходить по API key, а цену антропик взвентил до небес. 250$ за 1млн.токенов.

2 3