StudyQA2 апр в 18:02

Антиспам на нейронках: Gemini Flash в 1000 раз дешевле чем GigaChat

Средний

2 мин

10K

Искусственный интеллектСпам и антиспам

Обзор

Комментарии 12

Noizefan 2 апр в 18:16

Как решаете 503 This model is currently experiencing high demand. Spikes in demand are usually temporary. Please try again later. ?

Нужно DLQ с отлёжкой, бесплатно - не равно "можно некачественно".

Это, если что, не что-то узкое или специфичное, а 10-15% от всех сделанных лично у меня

StudyQA 2 апр в 18:33

Справедливое замечание. 503 действительно прилетает, особенно в пиковые часы.

У меня реализовано так: при 503 или 429 сообщение уходит в retry-очередь с экспоненциальным backoff (1с, 3с, 9с, максимум 3 попытки). Если все три попытки неудачные, сообщение пропускается без проверки и логируется для ручного разбора.

Для антиспама на моем уровне это допустимый компромисс: лучше пропустить одно сообщение, чем задержать очередь. Спамеры редко отправляют одно сообщение, второе или третье уже поймается. Полноценный DLQ с отложенной обработкой тоже вариант, но для антиспама теряет смысл: если проверять сообщение через 5 минут, спам уже прочитали. Скорость реакции важнее 100% coverage.

10-15% ошибок это много. У меня в среднем 2-3%, но бывают всплески до 8-10% на 15-20 минут. Если у вас стабильно 10-15%, возможно стоит посмотреть в сторону нескольких API-ключей с round-robin или fallback на вторую модель?

ASD2003ru 2 апр в 23:11

Можно посмотреть в сторону omniroute . Позволяет объединять разных провайдеров и модели + делать fallback + балансировку. В принципе на бесплатных провайдерах/моделях можно собрать.

privet_mir 22 часа назад

А потом прилетает бан на каждый аккаунт, который ты привязывал к omniroute, было у меня дело🤣

Noizefan 4 часа назад

10-15% ошибок это много. У меня в среднем 2-3%, но бывают всплески до 8-10% на 15-20 минут.

не совсем) на годе и полутора - значения меняются. Рассчитывайте фоллбек на релизах новых моделей и изменениях в ai studio - студия, кстати, приоритетнее (по ощущениям) чем просто бесплатные ключи, что достаточно логично, и они оба живут с отдельным приоритетом (цод/очередь для "бесплатников"), - платные ключи так или иначе никогда не получают 503 (если получали раньше у кого-то буду рад послушать, не застал это время).

Если у вас стабильно 10-15%, возможно стоит посмотреть в сторону нескольких API-ключей с round-robin или fallback на вторую модель?

безусловно! и то, и другое - есть. round robin - редко достаточное решение в данном случае - у них лимитер достаточно простой по вышеупомянутым причинам (классификация по признаку денех) - все ключи начинают получать 503, редко когда кто-то по одиночке.

поделюсь тем, чем вообще нигде не делился:

балансировщик Gemini free tier API ключей

и это не первая его итерация - суммарно "сэкономлено" более 2k$. в своё оправдание - плачу напрямую в нескольких проектах, это исключительно личная штука под баловство и инфру домашнюю. но как по мне - если сотне моих коллег гемини не нужен - что мне мешает одолжить у них доступ =))

Полноценный DLQ с отложенной обработкой тоже вариант, но для антиспама теряет смысл: если проверять сообщение через 5 минут, спам уже прочитали. Скорость реакции важнее 100% coverage.

есть такой момент - да. я из-за профдеформаций теряю интерес к бизнес логике и нахожу к архитектуре. если у вас действительно в первые пять минут, грубо говоря, среагировать важнее, чем вообще среагировать (поймите меня правильно, тут нет сарказма - просто логическое выражение) - то супер, DLQ тогда действительно будет овержинжиниринг.

StudyQA 4 часа назад

Мое почтение. Без иронии!

Noizefan 3 часа назад

благодарю, рад если что подсказал полезного. по моему мнению - все ллм должны иметь бесплатный программный доступ, пусть и очень ограниченный, иначе - тормозят развитие собственных же опен сорц экосистем вокруг себя. вашего бота поглядел - процветания! тоже в ТГ проектец делаю. даст судьба - на хабре обо всём, включая балансер, расскажу подробнее чуть позже.

Triton5 2 апр в 22:14

У вас достаточно простая работа для нейронки, поэтому подойдут и не топовые модели.

Для бесплатных моделей Gemma лимит по 14400 запросов в сутки.

Для Mistral бесплатный, и возобновляемый ежемесячно лимит - 1миллиард токенов.

На Openrouter 1000 free запросов в день, но этого для серьёзных вещей не хватит, чисто как запасной вариант "на подхвате".

Поэтому при недоступности основных моделей самое простое - fallback (запасные варианты) на бесплатные и/или платные модели на oрenrouter (там тоже нужно прописать пачку fallback'oв).

Но если у вас есть бюджет на несколько баксов в месяц, то конечно же лучше использовать дешёвые , но платные модели, это реально надёжней и в разы быстрее:) За деньги в этом мире почти всё - лучше))

Per_Ardua вчера в 00:44

Есть ещё cerebras с их free лимитами. Там модели B-tier, но для вашего случая вполне достаточно. Но вообще, вот люди собрали список сервисов/провайдеров, где есть возможность юзать API LLM'ок бесплатно: https://github.com/mnfst/awesome-free-llm-apis

Может кому полезно будет для пет-проектов или личного пользования.

Petr_axeman 20 часов назад

А вы тоже когда увидите невероятно выгодные условия, думаете: "Ну это точно какой то чит-кол"

(Ирония про то что текст написан ИИ)

MLGBrotishka 15 часов назад

Откуда такие цифры, бесплатный api gemini flash 2.5 имеет ограничения в 5 запросов в минуту и 20 запросов в день. Пришлось уходить от Gemini когда они порезали лимиты с 500 до 20

DVZakusilo 8 часов назад

В наших реалиях, все на свете дешевле гигачата.

Вот только 152 фз и ежедневные блокировки и ограничения, все остальное превращают в игрушки, не сегодня-завтра любой сервис превратится в красивую заглушку.

Поэтому приходится ради безопасности пользователей на hhbro довольствоваться тем что есть.

Есть и бонус, 70 процентов конкурентов закрылись либо работают в чёрную, об этом тоже писал исследование на хабре.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий