Обновить
24
55
Сергей Нотевский@Ser_no

AI Platform Lead

Отправить сообщение

Навыки агентов (Agent Skills): что это такое и почему это больше, чем «папка с промптами»

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.6K

Сначала были LLM. Потом - агенты, MCP, RAG, tools: сложная архитектура, протоколы, оркестрация.
А в конце 2025 индустрия внезапно формализует следующий “большой шаг” как… папку с файлами.

Похоже, это как раз тот случай, когда простая форма скрывает важный сдвиг: сообщество зацепилось за skills в конце 2025, а в 2026, судя по всему, станет, мейнстримом в проектировании ai-систем, примерно как когда-то вокруг MCP. Я постарался разобрать эту штуку по-простому, чтобы не пришлось собирать картину из десятка разрозненных источников. Постарался ответить на возникающие у меня самого вопросы вроде "в чем суть?" и "как сейчас решается похожая проблематика?"

В статье разберу:
- что такое Agent Skills;
- как работает схема Discovery → Activation → Execution;
- чем skills отличаются от tools, RAG и MCP, и какое место занимают в архитектуре LLM-агента.

Читать далее

Синдром бесконечного окна: почему 1 миллион токенов в LLM не решает ваши проблемы (пока)

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели15K

Год назад индустрия жила лозунгом «Scale is all you need», перекладывая его на размер контекстного окна. 32k казались прорывом, 128k - стандартом, а Gemini с 1M+ токенов - убийцей RAG.

Сейчас, в 2025-м, я вижу, как этот миф разбивается о реальность. Разработчики пихают в промпт целые книги, логи за неделю и дампы баз данных, а на выходе получают галлюцинации и «кашу».

Давайте вооружимся свежими бенчмарками и разберемся, почему «поддерживаемый контекст» ≠ «рабочий контекст», что такое Context Rot (гниение контекста) и как с этим жить.

Читать далее

ИИ-агенты простым языком: разбираем на примере Deep Research

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7K

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Моя команда отвечает за модельки под капотом наших AI сервисов.

Агенты, агентные системы, agentic AI - эти слова сейчас повсюду. Мы сами делаем своего агента, Марту AI. Но последние пару месяцев я все чаще слышу от коллег и читателей один и тот же вопрос: «Серёж, объясни по-простому - что это такое? Я запустил 100 вызовов LLM подряд, это уже агент? А если добавил RAG? А с поиском?»

В итоге, на нашей внутренней AI-конференции я выступил с докладом на эту тему, и по мотивам родилась эта статья. 

На самом деле, сложность начинается с того, что у нас нет общепринятого стандарта: что считать AI-агентом, а что нет. Есть десятки определений, статей и докладов, но многие формулировки порождают больше вопросов, чем ответов.

В этой статье я не буду придумывать ещё одно академическое определение. Вместо этого мы соберём рабочую интуицию: как «просто LLM», «workflow» и «агент» связаны между собой и где проходит граница. А разбираться будем на живом примере всем уже известной функции - Deep Research.

Итак, типичное описание:

AI-агент - это интеллектуальная программа, которая умеет выполнять задачи по заданному сценарию, используя нейросети.

В отличие от чат-ботов, AI-агент «думает» и реагирует на контекст, принимает решения, запускает действия и учится по ходу работы.

Звучит красиво, но мало помогает.

Читать далее

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели627

Как фильтры стиля и настроения меняют рейтинг LM Arena

Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.

Что такое LM Arena и зачем она нужна

Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).

На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

Читать далее

От контекста до юрисдикции: 7 ключевых параметров при выборе LLM для вашего проекта

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели2.1K

Год назад казалось, что достаточно просто выбрать GPT-4 — и все проблемы с ИИ решены. Сегодня же рынок языковых моделей напоминает зоопарк, где каждый день появляются новые экзотические виды. Claude, Gemini, Mistral, Qwen — и это только верхушка айсберга.

Как в этом безумном мире нейросетей выбрать ту самую, которая подойдет именно вам? Как не утонуть в терминах, характеристиках и не выкинуть деньги на ветер? В этой статье мы разберем ключевые параметры LLM без лишней воды и заумных терминов — чтобы вы могли принять взвешенное решение и сэкономить время, нервы и бюджет на внедрении модели.

Читать далее

Информация

В рейтинге
136-й
Работает в
Зарегистрирован
Активность