Открываем доступ к большим языковым и визуально‑генеративным моделям в пакетном режиме
Сегодня Yandex B2B Tech открывает доступ внутри Yandex Cloud AI Studio к LLM и визуально‑генеративным моделям (VLM), таким как DeepSeek VL2 Tiny, Qwen2.5 VL и Gemma3 27B. Режим Batch Processing, или режим пакетного инференса позволяет эффективно обрабатывать тысячи запросов с помощью таких генеративных моделей.

Всего в пакетном режиме доступно около 20 опенсорсных нейросетей, в том числе модели, которые умеют одновременно анализировать изображения и текст. Среди уже доступных моделей — Qwen2.5 и LLaMa 3.3*, рассуждающие нейросети QwQ и DeepSeek R1, полный список можно посмотреть на сайте.
По мере появления новых моделей в опенсорсе они будут оперативно добавляться на ML‑платформе. Так, вскоре будет доступна VLM‑модель Яндекса, которая используется в Алисе, Нейроэксперте, Поиске с Нейро и других сервисах.
Применение новых моделей в режиме Batch Processing позволяет фокусироваться на эффективной обработке большого объёма данных. Компании смогут использовать модели по расписанию, по мере накопления данных или для объёмных разовых задач. Такое использование обойдётся вдвое дешевле, чем в стандартном режиме. Тарификация при пакетном инференсе на больших объёмах данных начинается от 200 тыс. токенов.
Какие сценарии удобно решать в пакетном режиме
Анализ и суммаризация больших объёмов данных. Batch Processing помогает эффективно обрабатывать длинные последовательности текста и создавать качественный пересказ или анализ материалов. Это актуально, например, для исследовательских организаций и компаний, работающих с большими объёмами пользовательского контента.
Периодическая обработка данных клиентов. Многие компании регулярно анализируют текстовые данные от клиентов: отзывы, комментарии, запросы в службу поддержки и другие формы обратной связи. Пакетный инференс позволяет эффективно обрабатывать эти данные по расписанию, например, еженедельно или ежемесячно.
Масштабное индексирование и обогащение контента. Для компаний, работающих с большими библиотеками контента, пакетный инференс даёт возможность эффективного индексирования и обогащения материалов. Языковые модели могут автоматически генерировать метаданные, ключевые слова, теги и другие элементы, улучшающие поиск и организацию контента.
Обогащение датасетов для тюнинга моделей. Для команд, которые дообучают лёгкие версии языковых моделей с помощью дистилляции ответов больших версий моделей, Batch Processing помогает создавать синтетические датасеты для дообучения. На базе этих данных и с помощью инструмента LoRA Fine‑tuning разработчики могут создавать лёгкие модели высокого качества, при этом получая более реактивную скорость ответов и меньшую стоимость за обращение к модели.
*Llama создана компанией Meta. Meta признана экстремистской организацией, её деятельность в России запрещена.