Pull to refresh
51
69
Дмитрий Антипов @antipov_dmitry

AI / LLM / ML / Software

Send message

Тело AI-агентов: технический обзор робота 1X Neo

Reading time11 min
Views1.8K

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям.

Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

Читать далее

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

Reading time18 min
Views11K

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.

Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

Читать далее

Большое сравнение архитектур LLM

Level of difficultyHard
Reading time33 min
Views15K

Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке. Поговорим про DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.

Ну а дальше слово автору:

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, оглядываясь назад на GPT-2 (2019) и вперед на DeepSeek-V3 и Llama 4 (2024-2025), можно удивиться тому, насколько структурно похожими остаются эти модели.

Однако я считаю, что все еще есть большая ценность в изучении структурных изменений самих архитектур, чтобы увидеть, чем занимаются разработчики LLM в 2025 году.

Читать далее

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Level of difficultyHard
Reading time34 min
Views4.3K

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.

Читать далее

Мультиагентный фреймворк CrewAI: разбор архитектуры и внутренностей

Reading time10 min
Views2.6K

CrewAI — фреймворк интересный. Он похож на самый быстрый способ удивить своего босса: легкий, у него очень низкий порог входа, он по дизайну нацелен на мультиагентность и из него можно очень быстро собирать MVP с вау-эффектом. В статье поговорим о том как создавать агентов на фреймворке, что у них внутри, где фреймворк хорош, а куда брать его не нужно.

Мультиагентная система без подходящей задачи — это, как говорится, токены на ветер, поэтому мы сколотим банду агентов, которые нам будут анализировать arxiv-статьи про LLM и посмотрим как это работает.

Читать далее

От LangChain к LangGraph: детально разбираемся с фреймворками и всей Lang-экосистемой

Reading time13 min
Views7.1K

LangChain или LangGraph? Какой фреймворк для ии-агентов выбрать? А может быть LangSmith? Или LangFuse? LangFlow? Если вы сходу не отличаете все эти Lang-что-то там между собой или просто хочется побольше узнать о внутренностях LangChain и LangGraph, то добро пожаловать в эту статью, которую мне хотелось сделать фундаментальной, чтобы ответить сразу на все возникающие вокруг LangChain вопросы.

Поговорим про архитектурные различия между LangChain и LangGraph, их подходы, посмотрим как это выглядит в коде, поищем лучшие точки применения и взглянем на сформированную экосистему вокруг.

Читать далее

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов

Reading time9 min
Views2.6K

Поводом написания этой статьи послужил подслушанный диалог:

— А на чем у вас агенты написаны?

— У нас на MCP!

Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться.

Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?

Читать далее

Понимание оценки LLM: детальный разбор 4 основных подходов

Reading time26 min
Views960

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.

Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.

В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.

Читать далее

ChatGPT как главный маркетплейс планеты: разбираем OpenAI Agentic Commerce Protocol

Reading time10 min
Views5.1K

Не так давно OpenAI анонсировала Instant Checkout и затем опубликовала Agentic Commerce Protocol — два важных изменения, которые могут качественно повлиять на то, как будет выглядеть еком в ближайшие несколько лет. А может и нет.

Однажды в интервью продуктологов OpenAI я прочитал важную мысль про подход к запуску новых продуктов — «мы трясем яблоню и смотрим что упадет». Можно любить OpenAI и не любить, любить LLMки и нет (лучше — любить), но все, что делает OpenAI неизбежно долгосрочно оказывает влияние на всю индустрию, поэтому совсем пройти мимо такого интересного события — не хотелось.

И как говорил мой англоговорящий друг: «Is that just hype, low hanging fruit, or a real game changer?» (хороший вопрос, кстати).

Попробуем разобраться что внутри и куда движет еком, сравнив в том числе с тем, что делает Google.

Читать далее

Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение

Reading time10 min
Views7.7K

Привет! В этой статье я детально разберу основные фреймворки для AI-агентов, попробую их побенчить и детально распишу их плюсы и минусы. Если вы подступались к агентам, то первым вопросом наверняка стало «а на чем их делать?». Отовсюду все говорят про langchain и десяток других фреймворков, звучат аббревиатуры типа MCP и A2A, какие-то Swarmы и CrewAI, мультиагентность и самое всякое разное.

Давайте попробуем все это разложить по полочкам, потестировать, замерить и собрать материал, который поможет за раз во всем разобраться. А в качестве задачи мы возьмем мой проектик, который я с удовольствием поделываю в качестве развлекухи по ночам: сложный выбор товаров на маркетплейсах LLMкой.

Что будем тестировать: LangChain, LangGraph, AutoGen, CrewAI, OpenAI Swarm, LlamaIndex, MetaGPT, ControlFlow, Haystack, Phidata, Pydantic AI, smolagents, DSPy, SuperAGI, Semantic Kernel, Claude Agent SDK

Читать далее

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Reading time9 min
Views2.9K

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными.

Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных, а потом позанимался генерацией разного роды синты.

Обо всем это и хочется рассказать.

Читать далее

Почему бокс — это мультиагентная система

Reading time10 min
Views524

Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.

В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. И да, сходу со старта: это, конечно же, легкая и ироничная статья, к которой не нужно относиться серьезно — это чистый сарказм и попытка натянуть мультиагентную сову на мультиагентный боксерский глобус, а все приведенные аналогии между боксом и агентами — лишь художественный вымысел. ツ

Итак, поговорим про system design бокса, про reinforcement learning, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation агентов и многое другое.

Читать далее

Порулить браузером через LLM: пишем AI-агента в стиле «browser-use» на ванильной LLM без фреймворков

Reading time9 min
Views3.6K

Привет! Не успел мир договориться, что вообще подразумевать под агентами, как в инфополе обычные агенты заменились аж сразу мультиагентными системами. Обычно большинство статей про агентов начинаются с фразы "на фреймворке X..." — ну так с фреймворком каждый может, а ты попробуй без него.

А вот мы и попробуем! Причем попробуем не самую тривиальную штуку, а замахнемся сразу на эксперимент с агентным управлением браузером.

Читать далее

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google

Reading time4 min
Views12K

Вчера вышла модель Gemini 2.5 Flash Image (промо название Nano Banana), которая, возможно, изменит мир работы с изображениями так, как это сделал своим появлением фотошоп. На превью — краткий пример возможностей, в посте — полная версия гифки и много классных экспериментов на все виды редактирования картинок, посмотрим с чем моделька справляется хорошо, а с чем не очень.

В заголовке написано «революция», «новый фотошоп» — это, возможно, все же преувеличение. Или нет. Штука очень крутая, залипал с ней до самого утра.

Давайте смотреть.

Читать далее

Как я автоматизировал мониторинг цен своей корзины на маркетплейсах и при чем тут LLM

Level of difficultyEasy
Reading time8 min
Views9.6K

Привет! Маркетплейсы очень сильно изменили нашу жизнь, сделав ее супер удобной. Это классно, но думаю всем знакома картина, когда добавил товар в корзину, отвлекся, а он уже на 500р дороже. Или дешевле. Или вообще продается на косарь меньше на другом маркетплейсе. Ах да, как насчет «зачеркнутых выгодных» цен вида ̶1̶7̶0̶0̶0̶ 800р?

Все это превращает покупки в биржу (или большой рынок), где одни и те же товары уезжают разным людям по разным ценам. А если так, то значит это дело надо автоматизировать и хочу рассказать как это сделал я.

Приступим!

Читать далее

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Level of difficultyMedium
Reading time9 min
Views3.3K

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно. 

В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош.

Поехали!

Читать далее

По следам GPT-5: как LLM все сильнее превращается в айфон

Level of difficultyEasy
Reading time7 min
Views17K

LLMки можно любить и ненавидеть, но нельзя отрицать того, что это что-то очень большое и сильно трансформирующее все вокруг. Я регулярно и помногу размышляю над AI-агентами и в целом траекторией genAI движения и после вчерашней презентации GPT-5 мой личный паззлик окончательно сложился. Все это очень похоже на то, что мы уже видели.

И это — iPhone.

Читать далее

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Level of difficultyMedium
Reading time10 min
Views3.3K

Привет! AI-агенты — самая горячая тема года и не просто так: это действительно мощная концепция, которая неизбежно заставляет пересматривать устоявшиеся подходы во многих сферах. Одна из самых интересных областей для агентов — аналитика и BI, и последние полгода я активно занимаюсь в том числе этим.

Адаптивные и налету подстраивающиеся под задачу дашборды, естественный язык вместо SQL, автономная работа для генерации и проверки гипотез, — все это очень интересно, но реальность всегда чуточку сложнее.

Обо всем этом и поговорим.

Давайте разбираться!

Читать далее

Свой стартап на LLM и агентах — это просто! (нет). Или почему технология не всегда так важна

Level of difficultyEasy
Reading time6 min
Views2.8K

В эпоху повального увлечения AI кажется, что достаточно взять OpenAI API, найти проблему, написать сложненький промпт (или их цепочку) и готово — ваш следующий единорог уже на подходе. Однако реальность, как всегда, оказывается намного сложнее и это мираж технологической простоты. В этой статье — рассуждения о том, почему базовая технология или стек целиком — это лишь верхушка айсберга в создании успешного продукта, и почему даже имея доступ к самым передовым технологиям, создать по-настоящему ценный продукт остается сложной задачей.

Читать далее

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Level of difficultyMedium
Reading time8 min
Views4.7K

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее
1

Information

Rating
106-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

AI-Agents
Lead
People management
Business development
Development management
Automation of processes