
Red Hat представила открытый проект llm‑d. Это высокопроизвод��тельная распределённая структура вывода LLM на основе Kubernetes. Исходный код решения опубликован на GitHub под лицензией Apache License 2.0.
Проект llm‑d направлен на расширение возможностей распределённого вывода и масштабирования систем генеративного ИИ.
Решение llm‑d разрабатывается Red Hat совместно с Nvidia, AMD, Intel, IBM Research, Google Cloud, CoreWeave, Hugging Face и другими поставщиками и организациями в сфере ИИ.
Программное обеспечение llm‑d создано на основе Kubernetes и использует vLLM для распределённого вывода. Llm‑d также использует LMCache для выгрузки KV‑cache (key‑value cache offloading), сетевой маршрутизации с поддержкой ИИ, высокопроизводительных коммуникационных API и других функций, помогающих найти убедительное решение для распределённого вывода и масштабирования ИИ‑систем.
Основные особенности llm‑d:
планировщик вывода\интерференса (Inference Scheduler), оптимизированный для vLLM;
дезагрегированное обслуживание с vLLM;
кэширование дезагрегированных префиксов с vLLM;
возможность автоматического масштабирования по оборудованию, рабочей нагрузке и трафику.

