Обновить

Написал новую, третью статью из серии «Как работают большие языковые модели»

Почему дорогая LLM дороже: экономика инференса, которую видно в твоём 5-часовом лимите


Что внутри ⤵️

1. Про открытые модели и почему мы используем их как пример
2. Из чего складывается цена токена
3. Про Dense и MoE архитектуры
4. Как считается attention и активные параметры
5. Total ≠ active: тренд на MoE архитектуру
6. Почему output-токены дороже input
7. Reasoning-токены как невидимый output, за который тоже приходится платить
8. Context Window и KV-cache — почему длинный контекст дорогой
9. Как посчитать вес одного токена и из чего он складывается
10. В чем разница между KV-cache и prompt caching
11. За счет чего фронтир модели стоят в разы дороже
12. Почему дорогая модель чаще всего реально «умнее»
13. Как всё это итого собирается в 5-часовой лимит

14. И как бонус — сортировка open-weight моделей по active и total

---------------

Вот две предыдущие статьи из этой же серии

Прочитав эту серию постов, вы станете намного лучше понимать принцип работы современных LLM и агентных систем

Теги:
+4
Комментарии0

Публикации