Artem_leadl16 мар в 13:15

Как мы отсеиваем 95% мусора из Telegram-чатов до того, как сообщение попадёт в LLM

Средний

6 мин

5.6K

CSS *

Обзор

-1

Комментарии 12

Triton5 16 мар в 13:55

"Задача: вытащить эти 3-5% качественных сообщений. Первой мыслью было отдать всё на откуп большой LLM типа GPT-4o. Посчитали. Среднее сообщение 50 токенов. 100 000 сообщений 50 токенов/сообщение ($10 / 1M токенов) = $50 в день только на input. Добавьте сюда output и prompt — и счёт легко перевалит за $100-150/день или $3000-4500/месяц. Для стартапа это путь в никуда. "

Это неверные расчёты.

OpenAI: GPT-4o
$2.50/M input tokens
$10/M output tokens
То есть по input цена меньше в 4 раза, не $50 а $12,5. То есть получается не $100-150/день а $70-100/день и $2100-3000/месяц.

Господа, мне почему-то кажется, что для ваших целей с головой хватит GPT-4o-mini - модель от OpenAI с гарантированной поддержкой Structured Output:

OpenAI: GPT-4o-mini
$0.15/M input tokens
$0.60/M output tokens
То есть по input и output дешевле в 16,6 раз, что приводит к $4-10/день в день и соответственно к $126-$180 в месяц, что уже как бы ОК:)

Далее, для довольно-таки простой задачи очистки сырых данных может быть достаточно и более дешёвых моделей, но конечно же тоже с гарантированной поддержкой Structured Output:

OpenAI: gpt-oss-120b
$0.039/M input tokens
$0.19/M output tokens
это в 64 раза дешевле по input и в 52 раза по output , что приводит к $35-$55 в месяц

OpenAI: gpt-oss-20b
$0.03/M input tokens
$0.14/M output tokens
это в 83 раза дешевле по input и в 71 раза по output , что приводит к $25-$40 в месяц

Я не утверждаю, что деньги валяются на дороге и их нужно бросать в монитор, но реальные цены несколько корректируют картину мира:)

Triton5 16 мар в 14:46

Ну и за что минусите, хочу узнать?

Artem_leadl 16 мар в 15:12

Не понял

Artem_leadl 16 мар в 15:16

мы в месяц сжираем порядка 7млрд токенов

sunnybear 16 мар в 15:08

Есть бесплатные китайские. Непонятно, можно ли на конвейере использовать, но стоимость обработки сейчас уже сильно ниже

Artem_leadl 16 мар в 15:10

Мы пробовали deepseek он нагрузку не вывозит, но скорит хорошо.
А ты про какие слышал?
Просто мы токены пожираем огромным количеством

sunnybear 16 мар в 16:58

Qwen flash / glm flash хорошо классифицируют

Artem_leadl 17 мар в 09:53

кайф, тестанем, спасибо

Artem_leadl 16 мар в 15:12

Мы на GPT сидели с самого начала, чуть не разорились, сейчас ушли на Grok 4 fast

Triton5 17 мар в 00:49

При объёмах 7 млрд токенов/мес стоит запросить Enterprise-тариф у любого провайдера — они часто дают скидку 20–40% при годовом контракте, к этому также прилагается персональный менеджер, приоритетные ответы, гарантии uptime, latency, throughput , приоритет в очереди при высокой нагрузке на серверы .

Напишите письма с темой "Enterprise API Access Request — 7B tokens/month" к разным провайдерам, в том числе и в DeepSeek (или как его там правильно:)

Artem_leadl 17 мар в 09:54

не знал про такую опцию, пошел писать всем, спасибо большое

eps 16 мар в 14:20

И причём тут хаб CSS?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий