Pull to refresh
8K+
32
Сергей Нотевский@Ser_no

AI Platform Lead

19
Rating
28
Subscribers
Send message

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Level of difficultyMedium
Reading time12 min
Reach and readers11K

32 tools в промпте - дешевле, чем 7. Да, да - если вы строите агентов, это не опечатка. Это следствие того, как работает prefix cache в агентском цикле, и почему локальная оптимизация одного запроса ломает кэш на всей траектории. Третья статья серии про prefix caching - теперь про этих ваших агентов.

Читать далее

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Level of difficultyMedium
Reading time9 min
Reach and readers7.5K

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

Читать далее

Погоди переезжать на дешёвую модель: считаем effective cost с учётом кэша

Reading time12 min
Reach and readers8.3K

В сообществе часто пишут о том что KV-cache hit rate - один из главных приоритетов при оптимизации стоимости. Manus в той-самой статье про context engineering и своего агента, TikTok в кейсе про оптимизацию AI-агента для тестирования, AiSDR в статье про перестройку шаблонов генерации писем.
Стало интересно стало: а как это считается у MaaS-провайдеров? Я знаком со скидкой за кэш токены, но никогда не садился детально разбирать экономику кэша у OpenAI, Anthropic, Gemini, DeepSeek - с цифрами, сценариями, сравнением.

Сел считать. Первый же результат удивил: два запроса к одной и той же модели с одним и тем же объёмом токенов - разница в цене в 3 раза. Зависит только от того, попали ли токены в кэш.

Про то как KV-кэш устроен внутри - уже хорошо написано на Хабре, ссылки в конце. Здесь только про деньги и токены: как считать реальную стоимость и почему прайс-лист для этого не подходит только прайс-лист.

Читать далее

Навыки агентов (Agent Skills): что это такое и почему это больше, чем «папка с промптами»

Level of difficultyEasy
Reading time13 min
Reach and readers23K

Сначала были LLM. Потом - агенты, MCP, RAG, tools: сложная архитектура, протоколы, оркестрация.
А в конце 2025 индустрия внезапно формализует следующий “большой шаг” как… папку с файлами.

Похоже, это как раз тот случай, когда простая форма скрывает важный сдвиг: сообщество зацепилось за skills в конце 2025, а в 2026, судя по всему, станет, мейнстримом в проектировании ai-систем, примерно как когда-то вокруг MCP. Я постарался разобрать эту штуку по-простому, чтобы не пришлось собирать картину из десятка разрозненных источников. Постарался ответить на возникающие у меня самого вопросы вроде "в чем суть?" и "как сейчас решается похожая проблематика?"

В статье разберу:
- что такое Agent Skills;
- как работает схема Discovery → Activation → Execution;
- чем skills отличаются от tools, RAG и MCP, и какое место занимают в архитектуре LLM-агента.

Читать далее

Синдром бесконечного окна: почему 1 миллион токенов в LLM не решает ваши проблемы (пока)

Level of difficultyMedium
Reading time5 min
Reach and readers17K

Год назад индустрия жила лозунгом «Scale is all you need», перекладывая его на размер контекстного окна. 32k казались прорывом, 128k - стандартом, а Gemini с 1M+ токенов - убийцей RAG.

Сейчас, в 2025-м, я вижу, как этот миф разбивается о реальность. Разработчики пихают в промпт целые книги, логи за неделю и дампы баз данных, а на выходе получают галлюцинации и «кашу».

Давайте вооружимся свежими бенчмарками и разберемся, почему «поддерживаемый контекст» ≠ «рабочий контекст», что такое Context Rot (гниение контекста) и как с этим жить.

Читать далее

ИИ-агенты простым языком: разбираем на примере Deep Research

Level of difficultyEasy
Reading time6 min
Reach and readers8.2K

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Моя команда отвечает за модельки под капотом наших AI сервисов.

Агенты, агентные системы, agentic AI - эти слова сейчас повсюду. Мы сами делаем своего агента, Марту AI. Но последние пару месяцев я все чаще слышу от коллег и читателей один и тот же вопрос: «Серёж, объясни по-простому - что это такое? Я запустил 100 вызовов LLM подряд, это уже агент? А если добавил RAG? А с поиском?»

В итоге, на нашей внутренней AI-конференции я выступил с докладом на эту тему, и по мотивам родилась эта статья. 

На самом деле, сложность начинается с того, что у нас нет общепринятого стандарта: что считать AI-агентом, а что нет. Есть десятки определений, статей и докладов, но многие формулировки порождают больше вопросов, чем ответов.

В этой статье я не буду придумывать ещё одно академическое определение. Вместо этого мы соберём рабочую интуицию: как «просто LLM», «workflow» и «агент» связаны между собой и где проходит граница. А разбираться будем на живом примере всем уже известной функции - Deep Research.

Итак, типичное описание:

AI-агент - это интеллектуальная программа, которая умеет выполнять задачи по заданному сценарию, используя нейросети.

В отличие от чат-ботов, AI-агент «думает» и реагирует на контекст, принимает решения, запускает действия и учится по ходу работы.

Звучит красиво, но мало помогает.

Читать далее

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Level of difficultyEasy
Reading time4 min
Reach and readers1.7K

Как фильтры стиля и настроения меняют рейтинг LM Arena

Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.

Что такое LM Arena и зачем она нужна

Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).

На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

Читать далее

От контекста до юрисдикции: 7 ключевых параметров при выборе LLM для вашего проекта

Level of difficultyEasy
Reading time11 min
Reach and readers5.7K

Год назад казалось, что достаточно просто выбрать GPT-4 — и все проблемы с ИИ решены. Сегодня же рынок языковых моделей напоминает зоопарк, где каждый день появляются новые экзотические виды. Claude, Gemini, Mistral, Qwen — и это только верхушка айсберга.

Как в этом безумном мире нейросетей выбрать ту самую, которая подойдет именно вам? Как не утонуть в терминах, характеристиках и не выкинуть деньги на ветер? В этой статье мы разберем ключевые параметры LLM без лишней воды и заумных терминов — чтобы вы могли принять взвешенное решение и сэкономить время, нервы и бюджет на внедрении модели.

Читать далее

Information

Rating
400-th
Works in
Registered
Activity