VD_CS16 янв в 04:31

Агентные системы для продакшена

Средний

6 мин

8.9K

IT-инфраструктура * Natural Language Processing * Python * Машинное обучение *

Из песочницы

Комментарии 6

pacifictype 16 янв в 05:31

Использую для тестирования моделей - MMLU Pro в варианте который может по open ai api подключаться , конкретно https://github.com/chigkim/Ollama-MMLU-Pro , но в целом есть набор подобных . Не то что бы мегасупер но ничего лучше не нашел. Датасеты можно свои делать под домен.
А почему именно LiteLLM а как api gw а не BiFrost ? Бифрост вроде пошустрее , в целом его пишут с оглядкой на LiteLLM но более "под прод" - чисто ИМХО конечно.

VD_CS 18 янв в 09:26

Привет! Спасибо за комментарий
1. Я в основном работаю с чатовыми системами, здесь MMLU Pro не слишком подходит. Из хороших датасетов есть MT-bench (вот здесь статья от авторов), но я все равно делаю упор на кастомизацию под конкретный домен.

2. По поводу BiFrost, действительно он шустрее, но обычно сам gateway не создает ощутимого bottleneck (здесь я рассуждаю в рамках <=50RPS). Из плюсов LiteLLM перед BiFrost выделю следующее:

Observability: есть готовые интеграции с Langfuse и LangSmith
Шире покрытие провайдеров/совместимых API, правда много мусорных, но все равно
Написан на Python -> проще писать кастомные хуки, трансформации запросов/ответов и тд

Еще нашел guidance от aws (можно брать как референс архитектуру), где они рекомендуют использовать именно LiteLLM.

Но соглашусь, что когда нагрузка становится большой и возникает overhead на gateway, стоит присмотреться к BiFrost.

Vorchun 16 янв в 09:36

Объясните, пожалуйста, LangGraph ведь можно заменить графической средой вида N8N?

VD_CS 18 янв в 08:16

Привет! N8N более широкий инструмент, чем LangGraph, и он позволяет "заменить" LangGraph, допустим для своего пет-проекта. Если смотреть на продакшен применение, то чаще используют кодовые фреймворки (LangGraph, Google ADK, Crew AI).

bachisheo 16 янв в 21:43

Спасибо за статью! Классно, что структурировали подход к решениям по "классам сложности")

bachisheo 16 янв в 21:44

Железо прям впритык, больше не можем дать. Рекомендую поэкспериментировать с LLM, промптами, квантизациями, включаем кэширование, шаблонизаторы и максимально пытаемся снизить потребление столь ценного GPU.

Было бы еще интересно отдельно про это почитать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий