Pull to refresh

Comments 2

Не замеряли качество своего шедулинга задач: насколько эффективно используется оборудование, может, целевая метрика есть какая-то? У Ali cloud есть интересные статьи про их системы планирования пакетных заданий
Как я говорил в презентации, планировщик (диспетчер очереди), решает две основные задачи: максимизация утилизации оборудования и минимизация времени простоя задач в очереди. На синтетических тестах с условно бесконечным свободным местом на дисках он показывает очень высокий уровень утилизации агентов, в production-системе есть дополнительный фактор вытеснения ресурсов из кэша агента и освобождении дискового пространства — настройками агента можно регулировать скорость вытеснения — в таком случае утилизация кластера повышается, но понижается cache hit. Сейчас это статически настроенный параметр по результатам моделирования; есть идея добавить учет фактора голодания пользовательского пула из-за недостатка агентов с достаточным свободным местом для выполнения задач непосредственно в планировщик, но в целом по предварительным оценкам такая оптимизация значительно снижает время ожидания менее 1% задач.
Sign up to leave a comment.