Обновить
32K+
62
Дмитрий Антипов@antipov_dmitry

AI / LLM / ML / Software

28,9
Рейтинг
96
Подписчики
Отправить сообщение

Разбор архитектуры и тест-драйв OpenAI Privacy Filter на бенчмарке персональных данных на русском

Время на прочтение7 мин
Охват и читатели8.9K

22 апреля 2026 OpenAI выложила Privacy Filter — маленькую открытую модель, которая ищет и маскирует персональные данные прямо на устройстве. Без облаков, утечек и горы регулярок. В анонсе — 97% F1, длинный контекст, восемь классов чувствительных сущностей и обещание мультиязычности.

Джонов из Айовы или Вошингтон Ди Си она находит замечательно, а что насчет Максима Улугбековича из Нижневартовска? А Галин Палны из Урус-Мартана? У меня возникло простое человеческое желание потестить все это в реальных условиях, поэтому я собрал небольшой бенч на русском и хочу поделиться разбором модели и результатами.

А результаты, мягко говоря, из коробки совсем не звездные.

Читать далее

Началось: меня забанили в Claude Code на аккаунте за $200

Время на прочтение5 мин
Охват и читатели30K

Вчера мне заблокировали аккаунт в Claude Code.

Это был не расходник и не тестовый акк, это был нормальный основной аккаунт с полуторагодовалой платной историей. Максимально платный аккаунт, который уже “начал меня хорошо понимать”, и вокруг которого уже была построена софтверная фабрика и фабрика экспериментов, был без предупреждения безвозвратно отключен.

И это отличная история, чтобы глубоко порефлексировать на всю эту тему. Поговорим про хрупкость, свой харнесс, заменяемость, и немного про людей.

Читать далее

Как кодинг-агенты используют инструменты, память и контекст репозитория, чтобы писать код лучше

Время на прочтение13 мин
Охват и читатели8.3K

Это перевод хорошей статьи про базу того, как устроены кодинг-ассистенты и что для них важно: что такое харнесс и харнесс-инжиниринг, в чем разница просто агентной обвязки и кодинговой, что такое компактизация и почему та же самая модель в консольке ощущается мощнее, чем просто в веб-чате.

Сильного хардкора и больших откровений в ней нет, но это отличный материал для старта изучения архитектуры кодинг-ассистентов и лучшего понимания, как оно работает внутри.

Читать далее

Русский культурный код как оценка генеративных моделей

Время на прочтение9 мин
Охват и читатели8.2K

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу.

Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки разных моделей рядом и все было сразу понятно: где Шурик взял шаву на ход ноги, а где доктор Ливси спотыкается об поребрик.

Читать далее

Разработка после разработчиков. Что оставит AI?

Время на прочтение11 мин
Охват и читатели9.8K

За последние полгода произошел большой слом — написание кода с AI перестало быть забавой и стало серьезным инструментом, способным писать хороший код, проектировать архитектуру и принимать сложные решения. Меня не отпускают вопросы о том, куда из-за всего этого движутся профессии, нужны ли будут программисты и как вообще изменится продуктовая разработка.

Но чтобы не стать еще одной статьей про размышления и спекуляции, я провел большой эксперимент: залез в самые внутренности AI-генераторов кода, создал сложный продукт с нуля, все сломал и починил, а затем с циферками поприкидывал насколько скоро нам всем на мороз.

Читать далее

Как я делаю своего голосового AI-ассистента: роботы пишут код и работают, когда я отдыхаю

Время на прочтение10 мин
Охват и читатели11K

В этой статье я открою капот своей системы, которая по голосовухе в телеграме сразу делает новые фичи на живых проектах. С появлением LLM я безоговорочно верил в то, что голос станет следующим важным интерфейсом — и вот наконец технологии всех частей достаточно созрели, чтобы собрать своего персонального AI-ассистента, который и код из бара напишет и в пробке за рулем кофеек на маркетплейсе закажет.

Поговорим про целеполагание, архитектуру, ASR, TTS, таск-трекинг, ai-агентов, написание кода ллмками, авто-комиты и пошагово пройдемся по моему end-to-end пайплайну, который себя блестяще показал и выглядит как что-то из фильмов про будущее, которое уже наступило.

Читать далее

Когда лопнет пузырь AI?

Время на прочтение16 мин
Охват и читатели19K

«Когда OpenAI обанкротятся, на Сен-Бартелеми будут пить меньше шампанского. Ну а мы — мы хорошо заработаем» ©

Всем очевидно, что мы внутри большого пузыря. Но лопнет ли он? Как он лопнет? Или в этот раз все будет по другому? Я попытался разобраться в технологических маниях и переложить это все на текущий AI.

Получилось шесть вайб-школ разных отношений, 4 слоя AI со своими рисками и экскурс в железные дороги, электричество и доткомы.

Читать далее

Итоги LLM в 2025 году: прогресс, проблемы и прогнозы

Уровень сложностиСложный
Время на прочтение26 мин
Охват и читатели10K

Один из лучших обозревателей в мире LLM выпустил масштабный разбор всего самого важного, что случилось с языковыми моделями в 2025 году. Я перевел, чтобы как можно больше людей прочитало этот фундаментальный труд.

Здесь про архитектуры, GRPO и про то, почему бенчмарки больше ничего не значат.

Дальше — слово автору.

Читать далее

Технический обзор моделей DeepSeek от V3 до V3.2

Уровень сложностиСложный
Время на прочтение22 мин
Охват и читатели12K

Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский.

Эта перевод крутой технически глубокая статьи известного исследователя LLM о том, как эволюционировали флагманские модели с открытыми весами от DeepSeek и обзор DeepSeek V3.2.

Читать далее

LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели7.6K

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.

Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим несколько самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.

Здесь будет про Langfuse, Phoenix, OpenLIT, Langtrace, LangWatch и Lunary. Про оценку (evaluations или evals) здесь не будет, но обязательно скоро будет отдельная статья и про это.

Поехали!

Читать далее

LLM Evals: движущая сила новой эры ИИ в бизнесе

Время на прочтение7 мин
Охват и читатели8K

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.

Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.

Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.

Читать далее

Не только трансформеры: за пределами стандартных архитектур LLM

Уровень сложностиСложный
Время на прочтение31 мин
Охват и читатели10K

Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.

Каждая архитектура достаточно детально и глубоко разобрана, поэтому если вы интересуетесь LLMками, то будет очень интересно.

Читать далее

Тело AI-агентов: технический обзор робота 1X Neo

Время на прочтение11 мин
Охват и читатели11K

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям.

Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

Читать далее

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

Время на прочтение18 мин
Охват и читатели22K

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.

Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

Читать далее

Большое сравнение архитектур LLM

Уровень сложностиСложный
Время на прочтение33 мин
Охват и читатели19K

Это перевод классной статьи с детальным обзором архитектур главных опенсорсных LLM: очень структурировано, доходчиво и с изумительными картиночками. И такой обзор просто обязан быть на русском языке. Поговорим про DeepSeek V3/R1, OLMo 2, Gemma 3, Mistral Small 3.1, Llama 4, Qwen3, SmolLM3, Kimi K2, GPT-OSS, Grok 2.5, GLM-4.5, Qwen3-Next.

Ну а дальше слово автору:

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, оглядываясь назад на GPT-2 (2019) и вперед на DeepSeek-V3 и Llama 4 (2024-2025), можно удивиться тому, насколько структурно похожими остаются эти модели.

Однако я считаю, что все еще есть большая ценность в изучении структурных изменений самих архитектур, чтобы увидеть, чем занимаются разработчики LLM в 2025 году.

Читать далее

Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью

Уровень сложностиСложный
Время на прочтение34 мин
Охват и читатели13K

Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:

От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.

В этом посте я постепенно представлю все основные системные компоненты и продвинутые функции, которые составляют современную систему инференса LLM с высокой пропускной способностью. И детально разберу, как внутри работает vLLM.

Читать далее

Мультиагентный фреймворк CrewAI: разбор архитектуры и внутренностей

Время на прочтение10 мин
Охват и читатели7.4K

CrewAI — фреймворк интересный. Он похож на самый быстрый способ удивить своего босса: легкий, у него очень низкий порог входа, он по дизайну нацелен на мультиагентность и из него можно очень быстро собирать MVP с вау-эффектом. В статье поговорим о том как создавать агентов на фреймворке, что у них внутри, где фреймворк хорош, а куда брать его не нужно.

Мультиагентная система без подходящей задачи — это, как говорится, токены на ветер, поэтому мы сколотим банду агентов, которые нам будут анализировать arxiv-статьи про LLM и посмотрим как это работает.

Читать далее

От LangChain к LangGraph: детально разбираемся с фреймворками и всей Lang-экосистемой

Время на прочтение13 мин
Охват и читатели13K

LangChain или LangGraph? Какой фреймворк для ии-агентов выбрать? А может быть LangSmith? Или LangFuse? LangFlow? Если вы сходу не отличаете все эти Lang-что-то там между собой или просто хочется побольше узнать о внутренностях LangChain и LangGraph, то добро пожаловать в эту статью, которую мне хотелось сделать фундаментальной, чтобы ответить сразу на все возникающие вокруг LangChain вопросы.

Поговорим про архитектурные различия между LangChain и LangGraph, их подходы, посмотрим как это выглядит в коде, поищем лучшие точки применения и взглянем на сформированную экосистему вокруг.

Читать далее

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов

Время на прочтение9 мин
Охват и читатели6.8K

Поводом написания этой статьи послужил подслушанный диалог:

— А на чем у вас агенты написаны?

— У нас на MCP!

Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться.

Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?

Читать далее

Понимание оценки LLM: детальный разбор 4 основных подходов

Время на прочтение26 мин
Охват и читатели4.7K

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

Для каждого метода есть описание и код реализации с нуля, которые отлично показывают, что под капотом у каждого из методов оценки. И такой материал заслуживает того, чтобы быть на русском языке, поэтому я сделал качественный перевод, включая ключевые картиночки. Объёмные блоки кода скрыты за спойлерами, основные схемы переведены — если вы интересуетесь оценкой LLM (ее еще называют evals), то будет интересно.

Важное уточнение: статья позиционирует себя как «создание с нуля» (from scratch), и для этой цели она отлично подходит. Однако, будучи глубоко погружённым в эту тему, я посчитал многие моменты достаточно базовыми. Поэтому финальные выводы с radar-диаграммой и таблицей плюсов-минусов я вынес в самое начало — это отличный способ быстро освежить знания и систематизировать понимание для тех, кто уже глубоко в теме. И продублирую идею о том, что в реальной жизни под конкретную задачу стоит создавать свой бенчмарк и замеряться именно на нем.

В остальном — из песни слов не выкинешь, всё переведено как в оригинале, и это действительно отличный материал. Дальше будет именно он.

Читать далее

Информация

В рейтинге
305-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

AI-Agents
Ведущий
Управление людьми
Развитие бизнеса
Управление разработкой
Автоматизация процессов