Red Hat представила открытый проект llm-d — это распределённая структура вывода LLM на основе Kubernetes / Хабр

Red Hat представила открытый проект llm‑d. Это высокопроизводительная распределённая структура вывода LLM на основе Kubernetes. Исходный код решения опубликован на GitHub под лицензией Apache License 2.0.

Проект llm‑d направлен на расширение возможностей распределённого вывода и масштабирования систем генеративного ИИ.

Решение llm‑d разрабатывается Red Hat совместно с Nvidia, AMD, Intel, IBM Research, Google Cloud, CoreWeave, Hugging Face и другими поставщиками и организациями в сфере ИИ.

Программное обеспечение llm‑d создано на основе Kubernetes и использует vLLM для распределённого вывода. Llm‑d также использует LMCache для выгрузки KV‑cache (key‑value cache offloading), сетевой маршрутизации с поддержкой ИИ, высокопроизводительных коммуникационных API и других функций, помогающих найти убедительное решение для распределённого вывода и масштабирования ИИ‑систем.

Основные особенности llm‑d:

планировщик вывода\интерференса (Inference Scheduler), оптимизированный для vLLM;
дезагрегированное обслуживание с vLLM;
кэширование дезагрегированных префиксов с vLLM;
возможность автоматического масштабирования по оборудованию, рабочей нагрузке и трафику.