Обновить
3
0
Константин@NeKonn

Пользователь

Отправить сообщение

а в llama-cpp-python работает?
Я просто пытался запустить через скрипт питона с этой оберткой и постоянно получал ошибку:

llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'qwen3vlmoe'

llama_model_load_from_file_impl: failed to load model

Exception ignored in: <function LlamaModel.__del__ at 0x0000029C1909D3A0>

И не могу понять, то ли сама обертка не поддерживает пока еще новые qwen3vl, то ли я что-то не так делаю

а c llama-cpp-python работает? Я просто пытаюсь gguf веса, выкаченные с HF попробовать воспроизвести через llama-cpp-python и получаю постоянно ошибку

llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'qwen3vlmoe'

llama_model_load_from_file_impl: failed to load model
Exception ignored in: <function LlamaModel.__del__ at 0x0000029C1909D3A0>
?

Антон, здравствуйте!
У меня такой вопрос, а чем triton server лучше, чем тот же vllm, есть ли у вас такая информация?

Ну и в целом, как вы считаете, для системы чата (на подобии веб версии чата гпт, квена, дипсика и др.) что лучше использовать для общения с LLM - vllm, tgi, triton server и почему? В чате также подразумевается агентная структуруа, т.е. не только общение с LLM, но и работа с созданными агентами.

На мой взгляд, лучше всего подойдут курсы от МФТИ. Можно найти лекции на ютубе. Если же говорить прям о курсах в классическом понимании (с решением задачек и т.д.), то на платформе stepic можно найти курс "Основы статистики", а также дополнительно можно пройти курс от Carpov Course по математике для анализа данных.

Если дадите пояснение в виде предложения/вопроса, то постараюсь ответить.

Полностью согласен с вами, что есть и другие решения. В статье я сразу отметил, что не претендую на звание первооткрывателя ни в области проводимых статистических тестов, ни в области универсальности подобного решения. Я не первый и наверняка не последний, кто под свои нужды написал нечто подобное. Свидетельством тому может послужить большое количество библиотек для autoML.

Подскажите, а сколько примерно GPU вам понадобилось для файнтюна моделей?

Atomic Hart и впрямь крутейшая игра, вышедшая за последнее время от РФ производителей. Не испытывал такого удовольствия от Российских игр со времен Сталкера. Особенно понравилась вариативность концовок

Весьма подробная статья, спасибо! А в Альфа-банке подобное применяется, если не секрет?

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Ученый по данным, ML разработчик
Средний
От 500 000 ₽
ООП
Python
C++
Алгоритмы и структуры данных
Оптимизация кода