Информация
- В рейтинге
- Не участвует
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Ученый по данным, ML разработчик
Средний
От 500 000 ₽
ООП
Python
C++
Алгоритмы и структуры данных
Оптимизация кода
а в llama-cpp-python работает?
Я просто пытался запустить через скрипт питона с этой оберткой и постоянно получал ошибку:
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'qwen3vlmoe'
llama_model_load_from_file_impl: failed to load model
Exception ignored in: <function LlamaModel.__del__ at 0x0000029C1909D3A0>
И не могу понять, то ли сама обертка не поддерживает пока еще новые qwen3vl, то ли я что-то не так делаю
а c llama-cpp-python работает? Я просто пытаюсь gguf веса, выкаченные с HF попробовать воспроизвести через llama-cpp-python и получаю постоянно ошибку
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'qwen3vlmoe'
llama_model_load_from_file_impl: failed to load model
Exception ignored in: <function LlamaModel.__del__ at 0x0000029C1909D3A0>
?
Антон, здравствуйте!
У меня такой вопрос, а чем triton server лучше, чем тот же vllm, есть ли у вас такая информация?
Ну и в целом, как вы считаете, для системы чата (на подобии веб версии чата гпт, квена, дипсика и др.) что лучше использовать для общения с LLM - vllm, tgi, triton server и почему? В чате также подразумевается агентная структуруа, т.е. не только общение с LLM, но и работа с созданными агентами.
На мой взгляд, лучше всего подойдут курсы от МФТИ. Можно найти лекции на ютубе. Если же говорить прям о курсах в классическом понимании (с решением задачек и т.д.), то на платформе stepic можно найти курс "Основы статистики", а также дополнительно можно пройти курс от Carpov Course по математике для анализа данных.
Если дадите пояснение в виде предложения/вопроса, то постараюсь ответить.
Полностью согласен с вами, что есть и другие решения. В статье я сразу отметил, что не претендую на звание первооткрывателя ни в области проводимых статистических тестов, ни в области универсальности подобного решения. Я не первый и наверняка не последний, кто под свои нужды написал нечто подобное. Свидетельством тому может послужить большое количество библиотек для autoML.
Подскажите, а сколько примерно GPU вам понадобилось для файнтюна моделей?
Atomic Hart и впрямь крутейшая игра, вышедшая за последнее время от РФ производителей. Не испытывал такого удовольствия от Российских игр со времен Сталкера. Особенно понравилась вариативность концовок
Весьма подробная статья, спасибо! А в Альфа-банке подобное применяется, если не секрет?