Статьи / Профиль aak204 / Хабр

Андрей@aak204

Пользователь

Подписчики

ПрофильСтатьи5ПостыНовостиКомментарии22

aak204 13 апр в 12:29

Как я спас агентов в VS Code от передоза инструментами, сжав зоопарк MCP-серверов в один Go-бинарник

Средний

5 мин

8.2K

Искусственный интеллектGo * Open source * Программирование * Микросервисы *

Кейс

Подключили к своему ИИ-агенту в VS Code пару десятков MCP-серверов и ужаснулись счетам за API? Знакомая история. В этой статье рассказываю, как я устал платить за замусоренный системный промпт и написали toolc - прокси-шлюз на Go. Он прозрачно сжимает хаос из баз данных, скриптов и OpenAPI-каталогов в один компактный слой. Показываю на реальных бенчмарках (GPT-5.4, Claude 4.6), как правильная маршрутизация снижает затраты на токены на 60% и спасает LLM от галлюцинаций.

aak204 9 апр в 19:31

Я просканировал 30 публичных MCP-серверов: почти половина не дошла даже до скоринга

Средний

5 мин

13K

Open source * Информационная безопасность * Тестирование IT-систем * Машинное обучение * Искусственный интеллект

Аналитика

Мы привыкли винить LLM‑агентов в галлюцинациях, бесконечных циклах и слитых бюджетах на API. Но что, если проблема в инфраструктуре, которую мы им скармливаем? Я написал детерминированный CI‑сканер для оценки качества MCP‑серверов и прогнал через него 30 публичных пакетов. Результат оказался интересным: почти половина серверов убивает агента ещё до старта, а официальные инструменты дают ИИ гранату в руки. Под катом - хардкорный разбор костылей экосистемы, графики и Open Source инструмент, который защитит ваш продакшен.

+10

aak204 6 апр в 15:21

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Средний

6 мин

12K

Программирование * Python * Исследования и прогнозы в IT * Машинное обучение * Искусственный интеллект

Аналитика

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку.

Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку.

В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

+14

aak204 5 апр в 12:05

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Средний

5 мин

7.2K

Машинное обучение * Искусственный интеллектИнформационная безопасность * Алгоритмы * Python *

Аналитика

Индустрия ИИ переживает бум мультиагентных систем. Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы.

Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда - скатываются в бесконечные галлюцинации, теряют контекст и выдают результат хуже, чем базовая модель соло. Индустрия решает эту проблему в стиле средневековых алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на болтовню». Никто не измеряет физику процесса.

Мы решили, что с нас хватит алхимии. Нам понадобился измерительный прибор - эдакий МРТ-аппарат для мультиагентных сетей, который покажет механику общения LLM изнутри.

Так появился опенсорсный проект llm-coordination-harness - строгий измерительный стенд (measurement rig), который доказывает, что у общения нейросетей есть своя физика, которую можно и нужно измерять.

Под катом рассказываем и показываем на графиках. Никаких заявлений про AGI - только честный хардкорный ресёрч, физика графов и отрицательные результаты, которые оказались важнее положительных.

Заглянуть в черный ящик

aak204 16 ноя 2025 в 06:31

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Средний

6 мин

25K

Искусственный интеллектМашинное обучение * Обработка изображений *

Из песочницы

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.

Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

+35

Как я спас агентов в VS Code от передоза инструментами, сжав зоопарк MCP-серверов в один Go-бинарник

Я просканировал 30 публичных MCP-серверов: почти половина не дошла даже до скоринга

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Информация

Специализация