Короткая заметка для тех, кто работает с AI API и следит за расходами.

Alibaba Cloud Model Studio (Сингапурский регион) даёт бесплатную квоту новым пользователям: 1 000 000 токенов на каждую модель. Не на аккаунт, а на каждую модель отдельно. Qwen-Max, Qwen-Plus, Qwen-Flash, Qwen3-Coder-Plus и так далее. Включая модели для визуала.

Квота действует 90 дней с момента активации.

Что доступно

Полная линейка Qwen3:

  • Qwen-Max — флагман, сложные multi-step задачи, контекст 32K

  • Qwen-Plus — баланс качества и скорости, контекст до 1M токенов

  • Qwen-Flash — быстрая и дешёвая, тоже до 1M контекста

  • Qwen3-Coder-Plus/Flash — специализированные для кода, контекст до 1M

  • Qwen-VL — мультимодальные (текст + изображения)

  • Qwen-OCR — извлечение текста из изображений, поддержка русского

  • Qwen-Omni — аудио, видео, мультимодальность

Плюс открытые модели (qwen3-235b-a22b и другие) тоже доступны через API с квотой.

Практическая часть

API полностью совместим с OpenAI SDK. Меняете только base_url:

from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

response = client.chat.completions.create(
    model="qwen-plus",
    messages=[{"role": "user", "content": "Привет"}]
)

Для JS — аналогично, просто baseURL в конструкторе OpenAI.

Защита от случайных списаний

Важный момент: по умолчанию после исчерпания квоты начинается платное потребление. Но есть переключатель "Free Quota Only" в консоли на странице каждой модели. Включаете — и после исчерпания бесплатных токенов API просто возвращает ошибку AllocationQuota.FreeTierOnly вместо того, чтобы молча списывать деньги.

  • Квота только для Singapore region (International Edition).

  • Квота покрывает только real-time inference. Batch-вызовы и context cache идут за деньги

  • API-ключи Сингапура и Пекина не взаимозаменяемы 

  • Аккаунт и его RAM-пользователи делят одну квоту на модель

  • Квоты разных моделей не шарятся между собой (qwen-max и qwen-max-latest — это разные квоты)

Точные лимиты зависят от модели.

Qwen Code CLI

Alibaba также предлагает Qwen Code — CLI-инструмент для кодинга (аналог Claude Code). Помимо миллиона токенов через API, через OAuth-аутентификацию Qwen Chat можно получить 2000 бесплатных API-вызовов ежедневно. Это отдельная квота, не связанная с Model Studio.

Сколько это

Миллион токенов примерно 500 запросов среднего размера (по ~2K токенов). Для продакшена с серьёзной нагрузкой мало, для экспериментов и MVP.

Как активировать

  1. Зарегистрироваться на Alibaba Cloud (International Edition)

  2. Перейти в Model Studio — Singapore region

  3. Принять Terms of Service — квота активируется автоматически

  4. Получить API-ключ в консоли

  5. Включить "Free Quota Only" на нужных моделях