Red Hat представила открытый проект llm‑d. Это высокопроизвод��тельная распределённая структура вывода LLM на основе Kubernetes. Исходный код решения опубликован на GitHub под лицензией Apache License 2.0.

Проект llm‑d направлен на расширение возможностей распределённого вывода и масштабирования систем генеративного ИИ.

Решение llm‑d разрабатывается Red Hat совместно с Nvidia, AMD, Intel, IBM Research, Google Cloud, CoreWeave, Hugging Face и другими поставщиками и организациями в сфере ИИ.

Программное обеспечение llm‑d создано на основе Kubernetes и использует vLLM для распределённого вывода. Llm‑d также использует LMCache для выгрузки KV‑cache (key‑value cache offloading), сетевой маршрутизации с поддержкой ИИ, высокопроизводительных коммуникационных API и других функций, помогающих найти убедительное решение для распределённого вывода и масштабирования ИИ‑систем.

Основные особенности llm‑d:

  • планировщик вывода\интерференса (Inference Scheduler), оптимизированный для vLLM;

  • дезагрегированное обслуживание с vLLM;

  • кэширование дезагрегированных префиксов с vLLM;

  • возможность автоматического масштабирования по оборудованию, рабочей нагрузке и трафику.