Inference-aware routing в Kubernetes: мониторинг LLM
22 июня 2026 г.
Inference Extension для Kubernetes Gateway API маршрутизирует LLM-запросы с учётом состояния KV-кэша, LoRA-адаптеров и глубины очередей бэкендов. Статья объясняет архитектуру расширения и показывает, как отслеживать эффективность маршрутизации через Datadog.