я пробовал, валиться на первом же этапе конвертации в ggml fp16 формат.
Вы бы выложили веса модели хотя бы в стандартном hugging face FP16, а то так хрен запустишь генерацию стандартными методами даже на RTX 4090, что вообще какое-то безобразие для такой сравнительно небольшой модели.
А смысл использовать сторонний vault-operator, когда официальный vault-agent, который ставится официальным же чартом, позволяет в аннотациях указать, какие секреты из волта нужны deployment'у?
я пробовал, валиться на первом же этапе конвертации в ggml fp16 формат.
Вы бы выложили веса модели хотя бы в стандартном hugging face FP16, а то так хрен запустишь генерацию стандартными методами даже на RTX 4090, что вообще какое-то безобразие для такой сравнительно небольшой модели.
А смысл использовать сторонний vault-operator, когда официальный vault-agent, который ставится официальным же чартом, позволяет в аннотациях указать, какие секреты из волта нужны deployment'у?