lemon_m May 11 at 13:45

Агрегатор LLM, как выбирать живые free-модели и переживать сбои провайдера

7 min

11K

Artificial IntelligencePython * Django * TypeScript * Website development *

Tutorial

Comments 19

slabnoff May 11 at 19:25

Эээ... Вы статью не через ии же генерили? Уж очень на нейрослоп похоже. Либо как-то не очень с подачей получилось

lemon_m May 11 at 21:45

У меня стиль мышления близок к ИИ-шному, не первый раз сталкиваюсь с таким вопросом. А так - да, кто ж сейчас не оптимизирует свои ресурсы через умных помощников? Статья написана на основе собственной кодовой базы и продовых сценариев, форма подачи какая есть

slabnoff May 12 at 14:22

Прочитал ваш комментарий, чувствуется профдеформация. Сам такой временами. Но все-таки иногда стоит 'живости' добавить в текст.

Никак, если что, задеть не хотел.

lemon_m May 12 at 22:53

Спасибо, все ок ✌️

У меня напротив эмодеформация, когда желательно разбавить лаконичность субъектными штучками)

Altair2021 May 12 at 00:10

недать

Что за зверь такой?

Может временно недать доступ к конкретной free-модели.

lemon_m May 12 at 09:43

Верно, что заметили. Должно быть «не дать доступ». У OpenRouter особенность - модели, которые числятся в /api/v1/models с фильтром free, не всегда реально доступны в момент запроса. Некоторые отдают ошибку при попытке вызова. Отсюда и логика с fallback - пробуем одну, не дало доступ, идём к следующей

arthuru1 May 12 at 04:14

Возможно ли сделать супер LLM которая прогоняла бы запрос через несколько моделей, анализировала и выдавала уточненный результат?

Altair2021 May 12 at 06:41

Это обычный агент. В openai agents sdk есть agents as tools. В качестве инструментов как раз могут быть запросы через другие модели

lemon_m May 12 at 09:45

В проекте используется OpenRouter, он сам по себе уже является агрегатором моделей и поддерживает fallback между ними на уровне API. То есть описанная в статье логика - надстройка поверх его возможностей, а не замена. Но согласен, OpenAI Agents SDK тоже рабочий вариант для более сложной маршрутизации

Altair2021 May 13 at 09:34

Fallback -- как я понимаю, это не то же самое, что запрос одновременно к нескольким моделям и суммаризация, а запрос с возможностью гарантированно получить ответ, если какая-то из моделей недоступна. Т.е. отвечает одна модель.

lemon_m May 13 at 10:15

Верно, fallback - это последовательный перебор, одна модель не ответила, пробуем следующую. Гарантия не абсолютная, если весь пул моделей недоступен, пользователь всё равно получит ошибку. В текущей реализации цикл проходит по списку один раз. Можно улучшить, либо использовать встроенный fallback OpenRouter (он пробует внутри себя), либо сделать цикл с повторным проходом и задержкой, либо добавить параллельный запрос к двум моделям и брать первый успешный ответ. Но это уже усложнение под конкретные сценарии

Altair2021 May 13 at 10:46

Вы немного не о том. Вопрос был про параллельный запрос к нескольким моделям и суммаризацию.

Возможно ли сделать супер LLM которая прогоняла бы запрос через несколько моделей, анализировала и выдавала уточненный результат?

Вы ответили про fallback, подразумевая (комментарий же об этом), что его можно использовать в упомянутом качестве -- параллельный запрос с суммаризацией. На что и был мой комментарий.

Altair2021 May 13 at 10:49

а вообще, fallback наоборот может навредить, если нужен ответ от конкретной модели (например, opus-4.7). Кроме того, цена будет другой (если вместо opus-4.7 внезапно будет fallback, настроенный Вами, на условную gpt-5.5)

lemon_m May 14 at 20:28

Вы правы, я смешал два разных сценария. Fallback - это последовательная подмена недоступной модели, а не параллельный опрос с агрегацией. Для параллельного опроса и суммаризации нужна отдельная логика, OpenRouter в базовом API этого не даёт, только через надстройку. Цена и выбор конкретной модели тоже важные ограничения, согласен.

lemon_m May 12 at 09:44

Да, из статьи это следует прямо. Backend уже пробует разные модели при сбое, ничего не мешает расширить логику, отправлять запрос параллельно в несколько моделей, сравнивать результаты, выбирать лучший или агрегировать. Вопрос только в цене и времени ответа. OpenRouter, кстати, даёт такую возможность через routing и fallback на уровне платформы

Altair2021 May 13 at 10:39

на опенроутере через fallback нельзя отправлять запросы к нескольким моделям параллельно

lemon_m May 14 at 20:29

Верно, на скрине видно, что models параметр именно для автоматической замены при сбое, а не для параллельных вызовов. В статье описан кастомный fallback поверх API, не встроенный механизм

pilc80 May 14 at 12:06

Сильная мысль про то, что harness — это часть модели. Мне кажется, в таких сравнениях это один из главных confounders: permission model, persistent shell, качество tool API, sandbox и даже то, насколько удобно агенту читать результат тестов, могут сильно менять итог.

Было бы интересно прогнать все три реализации не их собственными тестами, а одним независимым black-box набором: happy path, malformed messages, плохая сеть, повторный запуск, несовместимые версии peer-ов, повреждённая сериализация key shares. Особенно для threshold crypto «собралось и прошло demo» ещё не означает, что протокол корректно переживает неприятные сценарии.

lemon_m May 14 at 20:30

Спасибо за глубокий комментарий. Согласен, окружение тестирования (harness) сильно влияет на результат. Независимый black-box набор - правильный путь, особенно для threshold crypto, где «прошло демо» не гарантирует корректность при сбоях. В статье эта тема не раскрыта, вы правы