Pull to refresh

Comments 6

нет, греф, иди куда подальше
или, твоими словами: "банкиры нам не нужны!"

Для честного сравнения с qwen не хватает сравнения с qwen3-30b-a3b. Да, "не честно", "она крупнее". Но и GigaChat крупнее qwen3-4b примерно в той же пропорции.
Уж тем более если сравнивали "по скорости", как и сказано в статье - a3b быстрее будет (чем 4b).

лучшая - не значит хорошая 🤷‍♂️

30 минут жду выполнения первого промпта в бесплатном коллабе. Стоило упомянуть, что в настройках среды надо поменять Аппаратный ускоритель на TPU/T4

Надо бы было упомянуть, номера зависимостей библиотек. и правильный код инициализации модели а так при загрузке этой модели на бесплатный тариф модель заняла на диске 23 Гб, и при создании модели не поместилась в 12 Гб ОП colab. Как эту модель протестировать ещё не в колабе? И какой правильный магический конфиг параметров создания этой модели с учётом всевозможных версий питоновских библиотек ?

/usr/local/lib/python3.12/dist-packages/huggingface_hub/utils/_auth.py:94: UserWarning: 
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
  warnings.warn(

config.json: 

 1.28k/? [00:00<00:00, 79.2kB/s]

`rope_parameters`'s beta_fast field must be a float, got 32
`rope_parameters`'s beta_slow field must be a float, got 1

tokenizer_config.json: 

 2.75k/? [00:00<00:00, 136kB/s]

tokenizer.json: 100%

 10.7M/10.7M [00:02<00:00, 3.36MB/s]

special_tokens_map.json: 100%

 276/276 [00:00<00:00, 23.9kB/s]

`rope_parameters`'s beta_fast field must be a float, got 32
`rope_parameters`'s beta_slow field must be a float, got 1

model.safetensors.index.json: 

 477k/? [00:00<00:00, 15.4MB/s]

Download complete: 100%

 23.0G/23.0G [14:01<00:00, 165MB/s]

Fetching 14 files: 100%

 14/14 [05:39<00:00, 17.26s/it]

Warning: You are sending unauthenticated requests to the HF Hub. Please set a HF_TOKEN to enable higher rate limits and faster downloads.
WARNING:huggingface_hub.utils._http:Warning: You are sending unauthenticated requests to the HF Hub. Please set a HF_TOKEN to enable higher rate limits and faster downloads.
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/tmp/ipython-input-3174440837.py in <cell line: 0>()
     10 
     11 tokenizer = AutoTokenizer.from_pretrained("ai-sage/GigaChat3-10B-A1.8B-base", trust_remote_code=True)
---> 12 model = AutoModelForCausalLM.from_pretrained(
     13     "ai-sage/GigaChat3-10B-A1.8B-base",
     14     quantization_config=bnb_config,

3 frames

/usr/local/lib/python3.12/dist-packages/transformers/quantizers/quantizer_bnb_4bit.py in validate_environment(self, *args, **kwargs)
     70             values = set(device_map.values())
     71             if values != {"cpu"} and ("cpu" in values or "disk" in values):
---> 72                 raise ValueError(
     73                     "Some modules are dispatched on the CPU or the disk. Make sure you have enough GPU RAM to fit the "
     74                     "quantized model. If you want to dispatch the model on the CPU or the disk while keeping these modules "

ValueError: Some modules are dispatched on the CPU or the disk. Make sure you have enough GPU RAM to fit the quantized model. If you want to dispatch the model on the CPU or the disk while keeping these modules in 32-bit, you need to set `llm_int8_enable_fp32_cpu_offload=True` and pass a custom `device_map` to `from_pretrained`. Check https://huggingface.co/docs/transformers/main/en/main_classes/quantization#offload-between-cpu-and-gpu for more details. 

После создания модели с параметрами

model = AutoModelForCausalLM.from_pretrained(

    "ai-sage/GigaChat3-10B-A1.8B-base",

    dtype=torch.float32,

    device_map="cpu",  # Явно указываем CPU

    trust_remote_code=True,

    low_cpu_mem_usage=True

)

Модель пошла на взлёт но Сеанс прекращен, так как объем ОЗУ полностью исчерпан.

с сообщением

Warning: You are sending unauthenticated requests to the HF Hub. Please set a HF_TOKEN to enable higher rate limits and faster downloads.
WARNING:huggingface_hub.utils._http:Warning: You are sending unauthenticated requests to the HF Hub. Please set a HF_TOKEN to enable higher rate limits and faster downloads.
`rope_parameters`'s beta_fast field must be a float, got 32
`rope_parameters`'s beta_slow field must be a float, got 1

Loading weights:  20%

 71/363 [00:40<01:43,  2.81it/s, Materializing param=model.layers.5.mlp.experts

Наверное - это прекрасная ИИ, только сколько её нужно ОПеративной памяти для загрузки весов и для работы?

В лм студию и хьюджинфэйс ждать?

Sign up to leave a comment.

Articles