Статьи / Профиль antipov_dmitry / Хабр

Все потоки

Дмитрий Антипов @antipov_dmitry

AI / LLM / ML / Software

ПрофильСтатьи34ПостыНовостиКомментарии49

antipov_dmitry 4 ноя в 11:39

Тело AI-агентов: технический обзор робота 1X Neo

11 мин

2K

Искусственный интеллектМашинное обучение * РобототехникаАнализ и проектирование систем *

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям.

Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

Читать далее

+2

antipov_dmitry 29 окт в 08:18

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

18 мин

11K

Анализ и проектирование систем * Машинное обучение * Искусственный интеллектБазы данных *

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.

Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

Читать далее

+25

antipov_dmitry 22 окт в 07:38

Большое сравнение архитектур LLM

Сложный

33 мин

15K

Анализ и проектирование систем * Big Data * Машинное обучение * Искусственный интеллект

Перевод

Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке. Поговорим про DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.

Ну а дальше слово автору:

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, оглядываясь назад на GPT-2 (2019) и вперед на DeepSeek-V3 и Llama 4 (2024-2025), можно удивиться тому, насколько структурно похожими остаются эти модели.

Однако я считаю, что все еще есть большая ценность в изучении структурных изменений самих архитектур, чтобы увидеть, чем занимаются разработчики LLM в 2025 году.

Читать далее

+14

antipov_dmitry 18 окт в 19:53

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Сложный

34 мин

4.3K

Искусственный интеллектМашинное обучение * Big Data * Анализ и проектирование систем *

Перевод

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.

Читать далее

+11

antipov_dmitry 17 окт в 04:40

Мультиагентный фреймворк CrewAI: разбор архитектуры и внутренностей

10 мин

2.6K

Анализ и проектирование систем * Big Data * Машинное обучение * Искусственный интеллект

CrewAI — фреймворк интересный. Он похож на самый быстрый способ удивить своего босса: легкий, у него очень низкий порог входа, он по дизайну нацелен на мультиагентность и из него можно очень быстро собирать MVP с вау-эффектом. В статье поговорим о том как создавать агентов на фреймворке, что у них внутри, где фреймворк хорош, а куда брать его не нужно.

Мультиагентная система без подходящей задачи — это, как говорится, токены на ветер, поэтому мы сколотим банду агентов, которые нам будут анализировать arxiv-статьи про LLM и посмотрим как это работает.

Читать далее

+6

antipov_dmitry 15 окт в 18:00

От LangChain к LangGraph: детально разбираемся с фреймворками и всей Lang-экосистемой

13 мин

7.1K

Искусственный интеллектМашинное обучение * Big Data * Анализ и проектирование систем *

LangChain или LangGraph? Какой фреймворк для ии-агентов выбрать? А может быть LangSmith? Или LangFuse? LangFlow? Если вы сходу не отличаете все эти Lang-что-то там между собой или просто хочется побольше узнать о внутренностях LangChain и LangGraph, то добро пожаловать в эту статью, которую мне хотелось сделать фундаментальной, чтобы ответить сразу на все возникающие вокруг LangChain вопросы.

Поговорим про архитектурные различия между LangChain и LangGraph, их подходы, посмотрим как это выглядит в коде, поищем лучшие точки применения и взглянем на сформированную экосистему вокруг.

Читать далее

+18

antipov_dmitry 13 окт в 16:21

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов

9 мин

2.6K

Анализ и проектирование систем * Big Data * Машинное обучение * Искусственный интеллект

Поводом написания этой статьи послужил подслушанный диалог:

— А на чем у вас агенты написаны?

— У нас на MCP!

Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться.

Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?

Читать далее

+8

antipov_dmitry 6 окт в 05:10

Понимание оценки LLM: детальный разбор 4 основных подходов

26 мин

962

Искусственный интеллектМашинное обучение * Big Data *

Перевод

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.

Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.

В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.

Читать далее

+1

antipov_dmitry 5 окт в 16:08

ChatGPT как главный маркетплейс планеты: разбираем OpenAI Agentic Commerce Protocol

10 мин

5.1K

Big Data * Анализ и проектирование систем * Машинное обучение * Искусственный интеллект

Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие несколько лет. А может и нет.

Однажды в интервью продуктологов OpenAI я прочитал важную мысль про подход к запуску новых продуктов — «мы трясем яблоню и смотрим что упадет». Можно любить OpenAI и не любить, любить LLMки и нет (лучше — любить), но все, что делает OpenAI неизбежно долгосрочно оказывает влияние на всю индустрию, поэтому совсем пройти мимо такого интересного события — не хотелось.

И как говорил мой англоговорящий друг: «Is that just hype, low hanging fruit, or a real game changer?» (хороший вопрос, кстати).

Попробуем разобраться что внутри и куда движет еком, сравнив в том числе с тем, что делает Google.

Читать далее

0

antipov_dmitry 3 окт в 12:33

Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение

10 мин

7.7K

Анализ и проектирование систем * Big Data * Машинное обучение * Искусственный интеллект

Привет! В этой статье я детально разберу основные фреймворки для AI-агентов, попробую их побенчить и детально распишу их плюсы и минусы. Если вы подступались к агентам, то первым вопросом наверняка стало «а на чем их делать?». Отовсюду все говорят про langchain и десяток других фреймворков, звучат аббревиатуры типа MCP и A2A, какие-то Swarmы и CrewAI, мультиагентность и самое всякое разное.

Давайте попробуем все это разложить по полочкам, потестировать, замерить и собрать материал, который поможет за раз во всем разобраться. А в качестве задачи мы возьмем мой проектик, который я с удовольствием поделываю в качестве развлекухи по ночам: сложный выбор товаров на маркетплейсах LLMкой.

Что будем тестировать: LangChain, LangGraph, AutoGen, CrewAI, OpenAI Swarm, LlamaIndex, MetaGPT, ControlFlow, Haystack, Phidata, Pydantic AI, smolagents, DSPy, SuperAGI, Semantic Kernel, Claude Agent SDK

Читать далее

+10

antipov_dmitry 26 сен в 09:17

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

9 мин

2.9K

Big Data * Машинное обучение * Искусственный интеллект

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными.

Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты.

Обо всем это и хочется рассказать.

Читать далее

+6

antipov_dmitry 14 сен в 06:12

Почему бокс — это мультиагентная система

10 мин

524

Искусственный интеллектМашинное обучение * Анализ и проектирование систем *

Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.

В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. И да, сходу со старта: это, конечно же, легкая и ироничная статья, к которой не нужно относиться серьезно — это чистый сарказм и попытка натянуть мультиагентную сову на мультиагентный боксерский глобус, а все приведенные аналогии между боксом и агентами — лишь художественный вымысел. ツ

Итак, поговорим про system design бокса, про reinforcement learning, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation агентов и многое другое.

Читать далее

0

antipov_dmitry 4 сен в 05:37

Порулить браузером через LLM: пишем AI-агента в стиле «browser-use» на ванильной LLM без фреймворков

9 мин

3.6K

Развитие стартапаАнализ и проектирование систем * Машинное обучение * Искусственный интеллект

Туториал

Привет! Не успел мир договориться, что вообще подразумевать под агентами, как в инфополе обычные агенты заменились аж сразу мультиагентными системами. Обычно большинство статей про агентов начинаются с фразы "на фреймворке X..." — ну так с фреймворком каждый может, а ты попробуй без него.

А вот мы и попробуем! Причем попробуем не самую тривиальную штуку, а замахнемся сразу на эксперимент с агентным управлением браузером.

Читать далее

+10

antipov_dmitry 27 авг в 14:59

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google

4 мин

12K

Машинное обучение * ДизайнИскусственный интеллект

Обзор

Вчера вышла модель Gemini 2.5 Flash Image (промо название Nano Banana), которая, возможно, изменит мир работы с изображениями так, как это сделал своим появлением фотошоп. На превью — краткий пример возможностей, в посте — полная версия гифки и много классных экспериментов на все виды редактирования картинок, посмотрим с чем моделька справляется хорошо, а с чем не очень.

В заголовке написано «революция», «новый фотошоп» — это, возможно, все же преувеличение. Или нет. Штука очень крутая, залипал с ней до самого утра.

Давайте смотреть.

Читать далее

+19

antipov_dmitry 24 авг в 13:47

Как я автоматизировал мониторинг цен своей корзины на маркетплейсах и при чем тут LLM

Простой

8 мин

9.6K

Искусственный интеллектРазвитие стартапаАнализ и проектирование систем *

Кейс

Привет! Маркетплейсы очень сильно изменили нашу жизнь, сделав ее супер удобной. Это классно, но думаю всем знакома картина, когда добавил товар в корзину, отвлекся, а он уже на 500р дороже. Или дешевле. Или вообще продается на косарь меньше на другом маркетплейсе. Ах да, как насчет «зачеркнутых выгодных» цен вида ̶1̶7̶0̶0̶0̶ 800р?

Все это превращает покупки в биржу (или большой рынок), где одни и те же товары уезжают разным людям по разным ценам. А если так, то значит это дело надо автоматизировать и хочу рассказать как это сделал я.

Приступим!

Читать далее

+24

antipov_dmitry 19 авг в 06:13

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Средний

9 мин

3.3K

Анализ и проектирование систем * Big Data * ЗвукМашинное обучение * Искусственный интеллект

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош.

Поехали!

Читать далее

+10

antipov_dmitry 8 авг в 10:49

По следам GPT-5: как LLM все сильнее превращается в айфон

Простой

7 мин

17K

Искусственный интеллектМашинное обучение * Интерфейсы * Анализ и проектирование систем *

Мнение

LLMки можно любить и ненавидеть, но нельзя отрицать того, что это что-то очень большое и сильно трансформирующее все вокруг. Я регулярно и помногу размышляю над AI-агентами и в целом траекторией genAI движения и после вчерашней презентации GPT-5 мой личный паззлик окончательно сложился. Все это очень похоже на то, что мы уже видели.

И это — iPhone.

Читать далее

+3

antipov_dmitry 28 июл в 07:30

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Средний

10 мин

3.3K

Big Data * Искусственный интеллектМашинное обучение * Анализ и проектирование систем *

Мнение

Привет! AI-агенты — самая горячая тема года и не просто так: это действительно мощная концепция, которая неизбежно заставляет пересматривать устоявшиеся подходы во многих сферах. Одна из самых интересных областей для агентов — аналитика и BI, и последние полгода я активно занимаюсь в том числе этим.

Адаптивные и налету подстраивающиеся под задачу дашборды, естественный язык вместо SQL, автономная работа для генерации и проверки гипотез, — все это очень интересно, но реальность всегда чуточку сложнее.

Обо всем этом и поговорим.

Давайте разбираться!

Читать далее

+9

antipov_dmitry 17 янв в 05:37

Свой стартап на LLM и агентах — это просто! (нет). Или почему технология не всегда так важна

Простой

6 мин

2.8K

Программирование * Проектирование и рефакторинг * Развитие стартапаАнализ и проектирование систем * Искусственный интеллект

Мнение

В эпоху повального увлечения AI кажется, что достаточно взять OpenAI API, найти проблему, написать сложненький промпт (или их цепочку) и готово — ваш следующий единорог уже на подходе. Однако реальность, как всегда, оказывается намного сложнее и это мираж технологической простоты. В этой статье — рассуждения о том, почему базовая технология или стек целиком — это лишь верхушка айсберга в создании успешного продукта, и почему даже имея доступ к самым передовым технологиям, создать по-настоящему ценный продукт остается сложной задачей.

Читать далее

+3

antipov_dmitry 27 дек 2024 в 06:14

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Средний

8 мин

4.7K

Data Engineering * Data Mining * Big Data * Искусственный интеллектМашинное обучение *

Мнение

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее

+4

1