Я бы начал с проверки теоретической возможности переноса и демонстрации на левом проекте и внешнем провайдере нормальных токенов а потом уже попробовал бы выбить под задачу бюджет на связку из пары серьезных но всё ещё бытовых gpu.
Ps То что ваши коллеги получили bad experience на кванте изначально слабой модели - логично
У сообщества в запросах разве нет готового образа чтоб без заморочек api дергать?
Это было бы удобно для
Если вы уже пользуетесь Whisper или другими моделями, то попробуйте подменить их на GigaAM-v3 в своём пайплайне и посмотрите, как изменятся метрики и субъективное восприятие.
Сейчас подумал и пришел к выводу что действительно, prefill этап быстрый и читая только один поток генерации черновика мастер будет большую часть времени простаивать занимая ценную vram, а при необходимости перехватить генерацию для 2+ потоках черновика шанс того что в памяти окажутся необходимые эксперты - небольшой, в итоге случится затык
В чате вполне могут использоваться и методы сжатия контекста (поиск/переупаковка участков) и кэш, но вот по api только кэш, оптимизация контекста - забота разработчика
Именно квадратичной сложности от размера контекста не осталось после flash attention. Взялась она из матрицы попарного внимания между токенами, с нюансами вроде: внимание считается для всего что левее конкретного токена
Нижняя граница зависит от потребностей в первую очередь. примерно 1.3 от размера необходимых весов + немного на контекстное окно. На 3060 6 Гб запускал квантованные веса для автокомплита кода, работает достаточно шустро
Насчёт данных 21 года - думаю это просто актуальность fact storage, валидация свежих фактов может влететь в копеечку. Дообучение дешевле выйдет, вполне могли придумать способ конвертации 4х смежных окон по 4k токенов в одно на 16k
По второму пункту. Озвученной ЦА сервиса, место публикации не очень соответствует
По третьему. Все в открытом доступе. Какой смысл заявлять об отсутствии в свободном доступе если опровергается за 5 секунд? Huggingface и civit.ai - качай сколько влезет..
Я бы начал с проверки теоретической возможности переноса и демонстрации на левом проекте и внешнем провайдере нормальных токенов а потом уже попробовал бы выбить под задачу бюджет на связку из пары серьезных но всё ещё бытовых gpu.
Ps То что ваши коллеги получили bad experience на кванте изначально слабой модели - логично
Sglang хорош на time to first token а вот при высокой конкурентности vllm в топе
Можно подробнее почему n8n орекстратор над flowise? Пока не щупал ни тот ни другой но планирую, рассматривал их в режиме vs а не coop
Нельзя было этот маркер "экспертизы" в самом начале проговорить? Столько времени можно было бы сэкономить..
У сообщества в запросах разве нет готового образа чтоб без заморочек api дергать?
Это было бы удобно для
Спасибо за проверку.
Сейчас подумал и пришел к выводу что действительно, prefill этап быстрый и читая только один поток генерации черновика мастер будет большую часть времени простаивать занимая ценную vram, а при необходимости перехватить генерацию для 2+ потоках черновика шанс того что в памяти окажутся необходимые эксперты - небольшой, в итоге случится затык
Классный материал, спасибо!
Вы не запускали (ну вдруг) в спекулятивном режиме oss-20b (драфт) + 120b + выгрузка экспертов для мастера?
Ps тот случай когда ссылка на ТГ канал нужна но её нет )
Зачем на олламе скорость замерять?
vllm и 50 параллельных запросов, тем более если есть h100
На ollama даже 4060 не раскроется, чего уж говорить о картах мощнее
В чате вполне могут использоваться и методы сжатия контекста (поиск/переупаковка участков) и кэш, но вот по api только кэш, оптимизация контекста - забота разработчика
Именно квадратичной сложности от размера контекста не осталось после flash attention. Взялась она из матрицы попарного внимания между токенами, с нюансами вроде: внимание считается для всего что левее конкретного токена
Да, надо было писать на visual basic и делать xbox эксклюзивом
Добрый день. Ограничение max len в 8к, это для а100 подобрано?
Есть в планах тюн для qwen2.5 b14?
Сравнивали свой тюн с RuadaptQwen1.5b ?
Тут суверенными будут даже попугаи, удобно
А вычислить максимум из максимумов по батчам не считается?
Да уж лучше сюда гранты, чем самизнаетекуда
Нижняя граница зависит от потребностей в первую очередь. примерно 1.3 от размера необходимых весов + немного на контекстное окно. На 3060 6 Гб запускал квантованные веса для автокомплита кода, работает достаточно шустро
Тогда уж две части: одна душеприказчику, другая жене. Ваши четверо посторонних могут и без жены консенсус организовать
Вся эта конструкция на убунте заведется вообще?
Насчёт данных 21 года - думаю это просто актуальность fact storage, валидация свежих фактов может влететь в копеечку. Дообучение дешевле выйдет, вполне могли придумать способ конвертации 4х смежных окон по 4k токенов в одно на 16k
По второму пункту. Озвученной ЦА сервиса, место публикации не очень соответствует
По третьему. Все в открытом доступе. Какой смысл заявлять об отсутствии в свободном доступе если опровергается за 5 секунд? Huggingface и civit.ai - качай сколько влезет..