Pull to refresh
13
6.5
Сергей Нотевский@Ser_no

AI Platform Lead

Send message

ИИ-агенты простым языком: разбираем на примере Deep Research

Level of difficultyEasy
Reading time6 min
Reach and readers6.3K

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Моя команда отвечает за модельки под капотом наших AI сервисов.

Агенты, агентные системы, agentic AI - эти слова сейчас повсюду. Мы сами делаем своего агента, Марту AI. Но последние пару месяцев я все чаще слышу от коллег и читателей один и тот же вопрос: «Серёж, объясни по-простому - что это такое? Я запустил 100 вызовов LLM подряд, это уже агент? А если добавил RAG? А с поиском?»

В итоге, на нашей внутренней AI-конференции я выступил с докладом на эту тему, и по мотивам родилась эта статья. 

На самом деле, сложность начинается с того, что у нас нет общепринятого стандарта: что считать AI-агентом, а что нет. Есть десятки определений, статей и докладов, но многие формулировки порождают больше вопросов, чем ответов.

В этой статье я не буду придумывать ещё одно академическое определение. Вместо этого мы соберём рабочую интуицию: как «просто LLM», «workflow» и «агент» связаны между собой и где проходит граница. А разбираться будем на живом примере всем уже известной функции - Deep Research.

Итак, типичное описание:

AI-агент - это интеллектуальная программа, которая умеет выполнять задачи по заданному сценарию, используя нейросети.

В отличие от чат-ботов, AI-агент «думает» и реагирует на контекст, принимает решения, запускает действия и учится по ходу работы.

Звучит красиво, но мало помогает.

Читать далее

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Level of difficultyEasy
Reading time4 min
Reach and readers582

Как фильтры стиля и настроения меняют рейтинг LM Arena

Привет, Хабр! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтр Sentiment Control, который «вычитает» эмоции и украшательства из итогового балла. Ниже — коротко о том, как они вычислили этот «эмо-чит» и почему это важно всем, кто выбирает модель для продукта, клиентской поддержки или внутреннего ассистента.

Что такое LM Arena и зачем она нужна

Сейчас существует много способов измерить качество языковых моделей. Есть метрики, которые оценивают знание фактов (MMLU), способность к обобщённому рассуждению (ARC‑AGI), умение решать задачи в игровой среде (VideoGameBench) и даже подсчитывают, сколько долларов модель могла бы заработать на реальных биржах фриланса (GigBench).

На этом фоне появилась LM Arena — платформа, где пользователи вслепую сравнивают ответы разных моделей и выбирают лучший. Чем больше побед у модели, тем выше её рейтинг. Это похоже на шахматы или киберспорт, где тоже используется рейтинговая система Elo.

Читать далее

От контекста до юрисдикции: 7 ключевых параметров при выборе LLM для вашего проекта

Level of difficultyEasy
Reading time11 min
Reach and readers2.1K

Год назад казалось, что достаточно просто выбрать GPT-4 — и все проблемы с ИИ решены. Сегодня же рынок языковых моделей напоминает зоопарк, где каждый день появляются новые экзотические виды. Claude, Gemini, Mistral, Qwen — и это только верхушка айсберга.

Как в этом безумном мире нейросетей выбрать ту самую, которая подойдет именно вам? Как не утонуть в терминах, характеристиках и не выкинуть деньги на ветер? В этой статье мы разберем ключевые параметры LLM без лишней воды и заумных терминов — чтобы вы могли принять взвешенное решение и сэкономить время, нервы и бюджет на внедрении модели.

Читать далее

Information

Rating
954-th
Works in
Registered
Activity