Комментарии 12
Как решаете 503 This model is currently experiencing high demand. Spikes in demand are usually temporary. Please try again later. ?
Нужно DLQ с отлёжкой, бесплатно - не равно "можно некачественно".
Это, если что, не что-то узкое или специфичное, а 10-15% от всех сделанных лично у меня
Справедливое замечание. 503 действительно прилетает, особенно в пиковые часы.
У меня реализовано так: при 503 или 429 сообщение уходит в retry-очередь с экспоненциальным backoff (1с, 3с, 9с, максимум 3 попытки). Если все три попытки неудачные, сообщение пропускается без проверки и логируется для ручного разбора.
Для антиспама на моем уровне это допустимый компромисс: лучше пропустить одно сообщение, чем задержать очередь. Спамеры редко отправляют одно сообщение, второе или третье уже поймается. Полноценный DLQ с отложенной обработкой тоже вариант, но для антиспама теряет смысл: если проверять сообщение через 5 минут, спам уже прочитали. Скорость реакции важнее 100% coverage.
10-15% ошибок это много. У меня в среднем 2-3%, но бывают всплески до 8-10% на 15-20 минут. Если у вас стабильно 10-15%, возможно стоит посмотреть в сторону нескольких API-ключей с round-robin или fallback на вторую модель?
Можно посмотреть в сторону omniroute . Позволяет объединять разных провайдеров и модели + делать fallback + балансировку. В принципе на бесплатных провайдерах/моделях можно собрать.
10-15% ошибок это много. У меня в среднем 2-3%, но бывают всплески до 8-10% на 15-20 минут.
не совсем) на годе и полутора - значения меняются. Рассчитывайте фоллбек на релизах новых моделей и изменениях в ai studio - студия, кстати, приоритетнее (по ощущениям) чем просто бесплатные ключи, что достаточно логично, и они оба живут с отдельным приоритетом (цод/очередь для "бесплатников"), - платные ключи так или иначе никогда не получают 503 (если получали раньше у кого-то буду рад послушать, не застал это время).
Если у вас стабильно 10-15%, возможно стоит посмотреть в сторону нескольких API-ключей с round-robin или fallback на вторую модель?
безусловно! и то, и другое - есть. round robin - редко достаточное решение в данном случае - у них лимитер достаточно простой по вышеупомянутым причинам (классификация по признаку денех) - все ключи начинают получать 503, редко когда кто-то по одиночке.
поделюсь тем, чем вообще нигде не делился:

и это не первая его итерация - суммарно "сэкономлено" более 2k$. в своё оправдание - плачу напрямую в нескольких проектах, это исключительно личная штука под баловство и инфру домашнюю. но как по мне - если сотне моих коллег гемини не нужен - что мне мешает одолжить у них доступ =))
Полноценный DLQ с отложенной обработкой тоже вариант, но для антиспама теряет смысл: если проверять сообщение через 5 минут, спам уже прочитали. Скорость реакции важнее 100% coverage.
есть такой момент - да. я из-за профдеформаций теряю интерес к бизнес логике и нахожу к архитектуре. если у вас действительно в первые пять минут, грубо говоря, среагировать важнее, чем вообще среагировать (поймите меня правильно, тут нет сарказма - просто логическое выражение) - то супер, DLQ тогда действительно будет овержинжиниринг.
Мое почтение. Без иронии!
благодарю, рад если что подсказал полезного. по моему мнению - все ллм должны иметь бесплатный программный доступ, пусть и очень ограниченный, иначе - тормозят развитие собственных же опен сорц экосистем вокруг себя. вашего бота поглядел - процветания! тоже в ТГ проектец делаю. даст судьба - на хабре обо всём, включая балансер, расскажу подробнее чуть позже.
У вас достаточно простая работа для нейронки, поэтому подойдут и не топовые модели.
Для бесплатных моделей Gemma лимит по 14400 запросов в сутки.
Для Mistral бесплатный, и возобновляемый ежемесячно лимит - 1миллиард токенов.
На Openrouter 1000 free запросов в день, но этого для серьёзных вещей не хватит, чисто как запасной вариант "на подхвате".
Поэтому при недоступности основных моделей самое простое - fallback (запасные варианты) на бесплатные и/или платные модели на oрenrouter (там тоже нужно прописать пачку fallback'oв).
Но если у вас есть бюджет на несколько баксов в месяц, то конечно же лучше использовать дешёвые , но платные модели, это реально надёжней и в разы быстрее:) За деньги в этом мире почти всё - лучше))
Есть ещё cerebras с их free лимитами. Там модели B-tier, но для вашего случая вполне достаточно. Но вообще, вот люди собрали список сервисов/провайдеров, где есть возможность юзать API LLM'ок бесплатно: https://github.com/mnfst/awesome-free-llm-apis
Может кому полезно будет для пет-проектов или личного пользования.
А вы тоже когда увидите невероятно выгодные условия, думаете: "Ну это точно какой то чит-кол"
(Ирония про то что текст написан ИИ)
Откуда такие цифры, бесплатный api gemini flash 2.5 имеет ограничения в 5 запросов в минуту и 20 запросов в день. Пришлось уходить от Gemini когда они порезали лимиты с 500 до 20
В наших реалиях, все на свете дешевле гигачата.
Вот только 152 фз и ежедневные блокировки и ограничения, все остальное превращают в игрушки, не сегодня-завтра любой сервис превратится в красивую заглушку.
Поэтому приходится ради безопасности пользователей на hhbro довольствоваться тем что есть.
Есть и бонус, 70 процентов конкурентов закрылись либо работают в чёрную, об этом тоже писал исследование на хабре.

Антиспам на нейронках: Gemini Flash в 1000 раз дешевле чем GigaChat