Короткая заметка для тех, кто работает с AI API и следит за расходами.

Alibaba Cloud Model Studio (Сингапурский регион) даёт бесплатную квоту новым пользователям: 1 000 000 токенов на каждую модель. Не на аккаунт, а на каждую модель отдельно. Qwen-Max, Qwen-Plus, Qwen-Flash, Qwen3-Coder-Plus и так далее. Включая модели для визуала.
Квота действует 90 дней с момента активации.
Что доступно
Полная линейка Qwen3:
Qwen-Max — флагман, сложные multi-step задачи, контекст 32K
Qwen-Plus — баланс качества и скорости, контекст до 1M токенов
Qwen-Flash — быстрая и дешёвая, тоже до 1M контекста
Qwen3-Coder-Plus/Flash — специализированные для кода, контекст до 1M
Qwen-VL — мультимодальные (текст + изображения)
Qwen-OCR — извлечение текста из изображений, поддержка русского
Qwen-Omni — аудио, видео, мультимодальность
Плюс открытые модели (qwen3-235b-a22b и другие) тоже доступны через API с квотой.
Практическая часть
API полностью совместим с OpenAI SDK. Меняете только base_url:
from openai import OpenAI client = OpenAI( api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1" ) response = client.chat.completions.create( model="qwen-plus", messages=[{"role": "user", "content": "Привет"}] )
Для JS — аналогично, просто baseURL в конструкторе OpenAI.
Защита от случайных списаний
Важный момент: по умолчанию после исчерпания квоты начинается платное потребление. Но есть переключатель "Free Quota Only" в консоли на странице каждой модели. Включаете — и после исчерпания бесплатных токенов API просто возвращает ошибку AllocationQuota.FreeTierOnly вместо того, чтобы молча списывать деньги.
Квота только для Singapore region (International Edition).
Квота покрывает только real-time inference. Batch-вызовы и context cache идут за деньги
API-ключи Сингапура и Пекина не взаимозаменяемы
Аккаунт и его RAM-пользователи делят одну квоту на модель
Квоты разных моделей не шарятся между собой (qwen-max и qwen-max-latest — это разные квоты)
Точные лимиты зависят от модели.
Qwen Code CLI
Alibaba также предлагает Qwen Code — CLI-инструмент для кодинга (аналог Claude Code). Помимо миллиона токенов через API, через OAuth-аутентификацию Qwen Chat можно получить 2000 бесплатных API-вызовов ежедневно. Это отдельная квота, не связанная с Model Studio.
Сколько это
Миллион токенов примерно 500 запросов среднего размера (по ~2K токенов). Для продакшена с серьёзной нагрузкой мало, для экспериментов и MVP.
Как активировать
Зарегистрироваться на Alibaba Cloud (International Edition)
Перейти в Model Studio — Singapore region
Принять Terms of Service — квота активируется автоматически
Получить API-ключ в консоли
Включить "Free Quota Only" на нужных моделях
