Обновить
6

Пользователь

0,1
Рейтинг
7
Подписчики
Отправить сообщение

Спасибо большое! Переезжаю на digitalocean.com!)

если не секрет где сервис размещаешь? Какие мощности под инференс? Сколько в месяц выходит по оплате?

DGX Spark не заточены на инференс, там приемлемо работают модели с квантизацией Q4, т. к. NPU модули хорошо обрабатывают float4. В паре два спарка работают хорошо, когда на одном веса, на другом Kv-cashe. На реддите есть обзоры где запускают на паре спарков модели по 130Млрд.параметров Q4.

Спарки заточены на обучение моделей до 8 млрд. параметров. Вот тут они очень хороши! Когда быстро надо проверить гипотезу при обучении, собрать мини модель, обкатать А/В тестами, и потом можно транспонировать на большую модель код.

Или же фантюнинг открытых моделей, когда прикручиваем свой уникальный слой в веса, например QLora.

У меня аналог Asus Ascent GX10. Я использую под обучение своих моделей. К примеру модель на 4млрд. параметров с 10-тью MoE экспертами обучается за 20 часов. Все дело в размере VRAM, на обычной Rtx 5090 с 32 Gb формально возможно обучение, но это заняло бы месяц, а то и два.

Тот случай когда в России дальше патента не взлетает 🤣.

ПЫСЫ. Хотя бы примеры диалогов показали новой архитектуры.

Советую отказаться от LoRa, смотреть в сторону MoE и новый метод дообучения предложенный Allen Institute for AI BAR (Branch-Adapt-Route) . https://www.reddit.com/r/LocalLLaMA/comments/1srrgkw/xpost_allen_ai_bar_train_domain_experts_merge/

30к за датасет из 30к пар дороговато. Чатгпт делает датасеты по 150к за 10 мин + сделать скрипт доочистки мусора, дублей и шума.

И строить датасеты только на парах запрос - ответ так себе. Базовая модель не будет поддерживать reasoning, потом начнёт уходить в дрифт.

Это бизнес по-русски!))) Купить A100 в Китае за 340к и продавать в России как сервис за 230к в месяц. Про V100 вообще молчу, на авито таких как грязи за 50К.

сделан на основе https://github.com/salmanmohammadi/nanocode. Там есть все ручными утилитами cli.

генерить синтетические данные, тем более в статье только пример выборки 1300, я думаю у них намного больше.

Стесняюсь спросить, как Вы собрались до обучать базовую модель без изменения весов самой модели? Это технически не возможно.

Все топы и делают каждые 3 месяца выкатывают новые модели, которые обучены на старой + новые датасеты.

Можно хоть 1млн. слоев файн тюнинга прикрутить к базовой модели - результат будет минимальным.

А то что модель забывает - проблема в kv-cashe, любая топовая модель не будет делать лишние вычисления, проще поднять старое по смыслу из кеша. А хозяева модели не будут тратить лишние ресурсы на вычисления.

На практике, уменьшите количество голов kv-head и проблема забвения модели сократиться в N раз.

В будущем думаю все текущие проблемы отпадут с появлением квантовых вычислений, когда нет алгоритма, а есть миллиарды результатов на выходе из кубита.

на 8 H100 можно спокойно обучить свою модель на 5-8 млрд. параметров под свой датасет за короткое время. Тем более у Вас есть возможность собрать такой узкий датасет под Kotlin+обучить base train, например на ruwiki+ mathlab++++. Так у Вас будет не модель всезнайка с квантизацией на примере qwen, а узко специализированная под Вас. Докрутить роутеры + MoE. На инференсе получать телеметрики, в том числе поощрения, и автоматом собирать новый датасет под релиз новой модели.

Дали бы мне на недельку такие мощности, эх развернулся бы)))

уже начали вычислить и банить юзеров пожизненно.

а что это даст? Даже с подменой ты будешь ходить по API key, а цену антропик взвентил до небес. 250$ за 1млн.токенов.

сумку как у Dua Lipa находит?)))

Полностью согласен! Вот пример на скрине когда модель из postporcess запихала в один ответ разнородную информацию из снипеттов, и галлюцинации это боль, т.к. составить хороший промт это 90% успеха попадания в промт+снипетты. Сейчас подкручиваю слой модели судьи для оценки качества ответов и системных промтов

теоретические выкладки для тех кто реализует свои RAG системы. В статье описаны грабли на которые я наступил при проектировании и как сделать так чтобы агент хорошо понимал смысл экосистемы 1С.

Не понимаю как при таком алгоритме точка оказалась отброшенной? По сути на графике отсеялись чанки с score < 0.3

"«Роман, ты сделал такую классную тестовую систему! А напиши всё-таки документацию, как ей пользоваться, чтобы другие могли её запускать и не отвлекать тебя» " - тут автор оговорочку забыл приписать, зачастую такие просьбы не входят в рабочее время, как бы просят в не рабочее время написать мануал. В чем собственно проблема сделать СТО задачу с наивысшим приоритетом и мануал будет готов! Лукавишь автор!

В целом "рыба гниет с головы!". Какой СТО был в команде, такой и результат на выходе. Не надо, как говорится, перекладывать на незаменимых сотрудников.

плюс в карму поставил)

а о заряжен батарейки никто не подумал)))

а если я трек слушаю несколько раз и на макс.громкости он учитывается в рекомендациях как самый лучший? Нет конечно. А вот в spootify это учитывается и подмешиваются близкие треки.

А это вот Ваше tinyML - покушать батарейку))

Информация

В рейтинге
4 224-й
Зарегистрирован
Активность