Написал новую, третью статью из серии «Как работают большие языковые модели»
Почему дорогая LLM дороже: экономика инференса, которую видно в твоём 5-часовом лимите

Что внутри ⤵️
1. Про открытые модели и почему мы используем их как пример
2. Из чего складывается цена токена
3. Про Dense и MoE архитектуры
4. Как считается attention и активные параметры
5. Total ≠ active: тренд на MoE архитектуру
6. Почему output-токены дороже input
7. Reasoning-токены как невидимый output, за который тоже приходится платить
8. Context Window и KV-cache — почему длинный контекст дорогой
9. Как посчитать вес одного токена и из чего он складывается
10. В чем разница между KV-cache и prompt caching
11. За счет чего фронтир модели стоят в разы дороже
12. Почему дорогая модель чаще всего реально «умнее»
13. Как всё это итого собирается в 5-часовой лимит
14. И как бонус — сортировка open-weight моделей по active и total
---------------
Вот две предыдущие статьи из этой же серии
Просто и подробно о том, как работают ChatGPT и другие GPT подобные модели. С картинками. Кстати, эта статья стала одной из победителей Космотекста
От написания промптов к проектированию контекста. Или один очень обширный материал по Context Engineering. Эта статья сложнее, чем первая, но проще, чем третья
Прочитав эту серию постов, вы станете намного лучше понимать принцип работы современных LLM и агентных систем
