DGX Spark не заточены на инференс, там приемлемо работают модели с квантизацией Q4, т. к. NPU модули хорошо обрабатывают float4. В паре два спарка работают хорошо, когда на одном веса, на другом Kv-cashe. На реддите есть обзоры где запускают на паре спарков модели по 130Млрд.параметров Q4.
Спарки заточены на обучение моделей до 8 млрд. параметров. Вот тут они очень хороши! Когда быстро надо проверить гипотезу при обучении, собрать мини модель, обкатать А/В тестами, и потом можно транспонировать на большую модель код.
Или же фантюнинг открытых моделей, когда прикручиваем свой уникальный слой в веса, например QLora.
У меня аналог Asus Ascent GX10. Я использую под обучение своих моделей. К примеру модель на 4млрд. параметров с 10-тью MoE экспертами обучается за 20 часов. Все дело в размере VRAM, на обычной Rtx 5090 с 32 Gb формально возможно обучение, но это заняло бы месяц, а то и два.
Это бизнес по-русски!))) Купить A100 в Китае за 340к и продавать в России как сервис за 230к в месяц. Про V100 вообще молчу, на авито таких как грязи за 50К.
Стесняюсь спросить, как Вы собрались до обучать базовую модель без изменения весов самой модели? Это технически не возможно.
Все топы и делают каждые 3 месяца выкатывают новые модели, которые обучены на старой + новые датасеты.
Можно хоть 1млн. слоев файн тюнинга прикрутить к базовой модели - результат будет минимальным.
А то что модель забывает - проблема в kv-cashe, любая топовая модель не будет делать лишние вычисления, проще поднять старое по смыслу из кеша. А хозяева модели не будут тратить лишние ресурсы на вычисления.
На практике, уменьшите количество голов kv-head и проблема забвения модели сократиться в N раз.
В будущем думаю все текущие проблемы отпадут с появлением квантовых вычислений, когда нет алгоритма, а есть миллиарды результатов на выходе из кубита.
на 8 H100 можно спокойно обучить свою модель на 5-8 млрд. параметров под свой датасет за короткое время. Тем более у Вас есть возможность собрать такой узкий датасет под Kotlin+обучить base train, например на ruwiki+ mathlab++++. Так у Вас будет не модель всезнайка с квантизацией на примере qwen, а узко специализированная под Вас. Докрутить роутеры + MoE. На инференсе получать телеметрики, в том числе поощрения, и автоматом собирать новый датасет под релиз новой модели.
Дали бы мне на недельку такие мощности, эх развернулся бы)))
Полностью согласен! Вот пример на скрине когда модель из postporcess запихала в один ответ разнородную информацию из снипеттов, и галлюцинации это боль, т.к. составить хороший промт это 90% успеха попадания в промт+снипетты. Сейчас подкручиваю слой модели судьи для оценки качества ответов и системных промтов
теоретические выкладки для тех кто реализует свои RAG системы. В статье описаны грабли на которые я наступил при проектировании и как сделать так чтобы агент хорошо понимал смысл экосистемы 1С.
"«Роман, ты сделал такую классную тестовую систему! А напиши всё-таки документацию, как ей пользоваться, чтобы другие могли её запускать и не отвлекать тебя» " - тут автор оговорочку забыл приписать, зачастую такие просьбы не входят в рабочее время, как бы просят в не рабочее время написать мануал. В чем собственно проблема сделать СТО задачу с наивысшим приоритетом и мануал будет готов! Лукавишь автор!
В целом "рыба гниет с головы!". Какой СТО был в команде, такой и результат на выходе. Не надо, как говорится, перекладывать на незаменимых сотрудников.
а если я трек слушаю несколько раз и на макс.громкости он учитывается в рекомендациях как самый лучший? Нет конечно. А вот в spootify это учитывается и подмешиваются близкие треки.
Спасибо большое! Переезжаю на digitalocean.com!)
если не секрет где сервис размещаешь? Какие мощности под инференс? Сколько в месяц выходит по оплате?
DGX Spark не заточены на инференс, там приемлемо работают модели с квантизацией Q4, т. к. NPU модули хорошо обрабатывают float4. В паре два спарка работают хорошо, когда на одном веса, на другом Kv-cashe. На реддите есть обзоры где запускают на паре спарков модели по 130Млрд.параметров Q4.
Спарки заточены на обучение моделей до 8 млрд. параметров. Вот тут они очень хороши! Когда быстро надо проверить гипотезу при обучении, собрать мини модель, обкатать А/В тестами, и потом можно транспонировать на большую модель код.
Или же фантюнинг открытых моделей, когда прикручиваем свой уникальный слой в веса, например QLora.
У меня аналог Asus Ascent GX10. Я использую под обучение своих моделей. К примеру модель на 4млрд. параметров с 10-тью MoE экспертами обучается за 20 часов. Все дело в размере VRAM, на обычной Rtx 5090 с 32 Gb формально возможно обучение, но это заняло бы месяц, а то и два.
Тот случай когда в России дальше патента не взлетает 🤣.
ПЫСЫ. Хотя бы примеры диалогов показали новой архитектуры.
Советую отказаться от LoRa, смотреть в сторону MoE и новый метод дообучения предложенный Allen Institute for AI BAR (Branch-Adapt-Route) . https://www.reddit.com/r/LocalLLaMA/comments/1srrgkw/xpost_allen_ai_bar_train_domain_experts_merge/
30к за датасет из 30к пар дороговато. Чатгпт делает датасеты по 150к за 10 мин + сделать скрипт доочистки мусора, дублей и шума.
И строить датасеты только на парах запрос - ответ так себе. Базовая модель не будет поддерживать reasoning, потом начнёт уходить в дрифт.
Это бизнес по-русски!))) Купить A100 в Китае за 340к и продавать в России как сервис за 230к в месяц. Про V100 вообще молчу, на авито таких как грязи за 50К.
сделан на основе https://github.com/salmanmohammadi/nanocode. Там есть все ручными утилитами cli.
генерить синтетические данные, тем более в статье только пример выборки 1300, я думаю у них намного больше.
Стесняюсь спросить, как Вы собрались до обучать базовую модель без изменения весов самой модели? Это технически не возможно.
Все топы и делают каждые 3 месяца выкатывают новые модели, которые обучены на старой + новые датасеты.
Можно хоть 1млн. слоев файн тюнинга прикрутить к базовой модели - результат будет минимальным.
А то что модель забывает - проблема в kv-cashe, любая топовая модель не будет делать лишние вычисления, проще поднять старое по смыслу из кеша. А хозяева модели не будут тратить лишние ресурсы на вычисления.
На практике, уменьшите количество голов kv-head и проблема забвения модели сократиться в N раз.
В будущем думаю все текущие проблемы отпадут с появлением квантовых вычислений, когда нет алгоритма, а есть миллиарды результатов на выходе из кубита.
на 8 H100 можно спокойно обучить свою модель на 5-8 млрд. параметров под свой датасет за короткое время. Тем более у Вас есть возможность собрать такой узкий датасет под Kotlin+обучить base train, например на ruwiki+ mathlab++++. Так у Вас будет не модель всезнайка с квантизацией на примере qwen, а узко специализированная под Вас. Докрутить роутеры + MoE. На инференсе получать телеметрики, в том числе поощрения, и автоматом собирать новый датасет под релиз новой модели.
Дали бы мне на недельку такие мощности, эх развернулся бы)))
уже начали вычислить и банить юзеров пожизненно.
а что это даст? Даже с подменой ты будешь ходить по API key, а цену антропик взвентил до небес. 250$ за 1млн.токенов.
сумку как у Dua Lipa находит?)))
Полностью согласен! Вот пример на скрине когда модель из postporcess запихала в один ответ разнородную информацию из снипеттов, и галлюцинации это боль, т.к. составить хороший промт это 90% успеха попадания в промт+снипетты. Сейчас подкручиваю слой модели судьи для оценки качества ответов и системных промтов
теоретические выкладки для тех кто реализует свои RAG системы. В статье описаны грабли на которые я наступил при проектировании и как сделать так чтобы агент хорошо понимал смысл экосистемы 1С.
Не понимаю как при таком алгоритме точка оказалась отброшенной? По сути на графике отсеялись чанки с score < 0.3
"«Роман, ты сделал такую классную тестовую систему! А напиши всё-таки документацию, как ей пользоваться, чтобы другие могли её запускать и не отвлекать тебя» " - тут автор оговорочку забыл приписать, зачастую такие просьбы не входят в рабочее время, как бы просят в не рабочее время написать мануал. В чем собственно проблема сделать СТО задачу с наивысшим приоритетом и мануал будет готов! Лукавишь автор!
В целом "рыба гниет с головы!". Какой СТО был в команде, такой и результат на выходе. Не надо, как говорится, перекладывать на незаменимых сотрудников.
плюс в карму поставил)
а о заряжен батарейки никто не подумал)))
а если я трек слушаю несколько раз и на макс.громкости он учитывается в рекомендациях как самый лучший? Нет конечно. А вот в spootify это учитывается и подмешиваются близкие треки.
А это вот Ваше tinyML - покушать батарейку))