Обновить
8K+
29
Сергей Нотевский@Ser_no

AI Platform Lead

10
Рейтинг
22
Подписчики
Отправить сообщение

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.8K

Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.

Читать далее

Погоди переезжать на дешёвую модель: считаем effective cost с учётом кэша

Время на прочтение12 мин
Охват и читатели7.6K

В сообществе часто пишут о том что KV-cache hit rate - один из главных приоритетов при оптимизации стоимости. Manus в той-самой статье про context engineering и своего агента, TikTok в кейсе про оптимизацию AI-агента для тестирования, AiSDR в статье про перестройку шаблонов генерации писем.
Стало интересно стало: а как это считается у MaaS-провайдеров? Я знаком со скидкой за кэш токены, но никогда не садился детально разбирать экономику кэша у OpenAI, Anthropic, Gemini, DeepSeek - с цифрами, сценариями, сравнением.

Сел считать. Первый же результат удивил: два запроса к одной и той же модели с одним и тем же объёмом токенов - разница в цене в 3 раза. Зависит только от того, попали ли токены в кэш.

Про то как KV-кэш устроен внутри - уже хорошо написано на Хабре, ссылки в конце. Здесь только про деньги и токены: как считать реальную стоимость и почему прайс-лист для этого не подходит только прайс-лист.

Читать далее

Навыки агентов (Agent Skills): что это такое и почему это больше, чем «папка с промптами»

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели19K

Сначала были LLM. Потом - агенты, MCP, RAG, tools: сложная архитектура, протоколы, оркестрация.
А в конце 2025 индустрия внезапно формализует следующий “большой шаг” как… папку с файлами.

Похоже, это как раз тот случай, когда простая форма скрывает важный сдвиг: сообщество зацепилось за skills в конце 2025, а в 2026, судя по всему, станет, мейнстримом в проектировании ai-систем, примерно как когда-то вокруг MCP. Я постарался разобрать эту штуку по-простому, чтобы не пришлось собирать картину из десятка разрозненных источников. Постарался ответить на возникающие у меня самого вопросы вроде "в чем суть?" и "как сейчас решается похожая проблематика?"

В статье разберу:
- что такое Agent Skills;
- как работает схема Discovery → Activation → Execution;
- чем skills отличаются от tools, RAG и MCP, и какое место занимают в архитектуре LLM-агента.

Читать далее

Синдром бесконечного окна: почему 1 миллион токенов в LLM не решает ваши проблемы (пока)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели17K

Год назад индустрия жила лозунгом «Scale is all you need», перекладывая его на размер контекстного окна. 32k казались прорывом, 128k - стандартом, а Gemini с 1M+ токенов - убийцей RAG.

Сейчас, в 2025-м, я вижу, как этот миф разбивается о реальность. Разработчики пихают в промпт целые книги, логи за неделю и дампы баз данных, а на выходе получают галлюцинации и «кашу».

Давайте вооружимся свежими бенчмарками и разберемся, почему «поддерживаемый контекст» ≠ «рабочий контекст», что такое Context Rot (гниение контекста) и как с этим жить.

Читать далее

ИИ-агенты простым языком: разбираем на примере Deep Research

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8K

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Моя команда отвечает за модельки под капотом наших AI сервисов.

Агенты, агентные системы, agentic AI - эти слова сейчас повсюду. Мы сами делаем своего агента, Марту AI. Но последние пару месяцев я все чаще слышу от коллег и читателей один и тот же вопрос: «Серёж, объясни по-простому - что это такое? Я запустил 100 вызовов LLM подряд, это уже агент? А если добавил RAG? А с поиском?»

В итоге, на нашей внутренней AI-конференции я выступил с докладом на эту тему, и по мотивам родилась эта статья. 

На самом деле, сложность начинается с того, что у нас нет общепринятого стандарта: что считать AI-агентом, а что нет. Есть десятки определений, статей и докладов, но многие формулировки порождают больше вопросов, чем ответов.

В этой статье я не буду придумывать ещё одно академическое определение. Вместо этого мы соберём рабочую интуицию: как «просто LLM», «workflow» и «агент» связаны между собой и где проходит граница. А разбираться будем на живом примере всем уже известной функции - Deep Research.

Итак, типичное описание:

AI-агент - это интеллектуальная программа, которая умеет выполнять задачи по заданному сценарию, используя нейросети.

В отличие от чат-ботов, AI-агент «думает» и реагирует на контекст, принимает решения, запускает действия и учится по ходу работы.

Звучит красиво, но мало помогает.

Читать далее

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели1.7K

Как фильтры стиля и настроения меняют рейтинг LM Arena

Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.

Что такое LM Arena и зачем она нужна

Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).

На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

Читать далее

От контекста до юрисдикции: 7 ключевых параметров при выборе LLM для вашего проекта

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели5.6K

Год назад казалось, что достаточно просто выбрать GPT-4 — и все проблемы с ИИ решены. Сегодня же рынок языковых моделей напоминает зоопарк, где каждый день появляются новые экзотические виды. Claude, Gemini, Mistral, Qwen — и это только верхушка айсберга.

Как в этом безумном мире нейросетей выбрать ту самую, которая подойдет именно вам? Как не утонуть в терминах, характеристиках и не выкинуть деньги на ветер? В этой статье мы разберем ключевые параметры LLM без лишней воды и заумных терминов — чтобы вы могли принять взвешенное решение и сэкономить время, нервы и бюджет на внедрении модели.

Читать далее

Информация

В рейтинге
783-й
Работает в
Зарегистрирован
Активность