Обновить
1024K+

Искусственный интеллект

AI, ANN и иные формы искусственного разума

2 531,72
Рейтинг
Сначала показывать
Порог рейтинга

Искусство забывать: Records Management для агентов

В мире агентов мы построили огромные хранилища, куда складываем каждый диалог, каждое решение, каждую мысль. Мы думаем, что так делаем агента умнее. Но на самом деле мы просто делаем его медленнее, дороже и шумнее.

В другом мире — в мире документооборота есть прекрасная технология — Records Management. Ее основной принцип в том, что у каждого документа есть срок хранения и срок уничтожения. Регулярно проводится экспертиза ценности: что-то отправляется в архив, что-то уничтожается по графику. Это не потеря информации. Это дисциплина.

Что, если применить этот подход к памяти агента?

У каждой записи есть свой тип: факт, эпизод, предпочтение, урок, артефакт. У каждой есть срок хранения. Есть "номенклатура дел" — онтология: безопасность, разработка, операционная деятельность, маркетинг, здоровье, Звездные войны, аниме — да мало ли о чем человек говорит с агентом? И есть регулярная экспертиза ценности: стоит ли это хранить дальше?

Когда агент видит новые единицы контента, он должен ответить на три вопроса.

  • Что из этого стоит сохранить?

  • Как долго это будет актуально?

  • Когда и при каких условиях это можно будет удалить?

Тут важно понять одну вещь: настоящий опыт — это не сырой диалог на сто страниц. Настоящий опыт — это короткий урок, извлеченный из диалога, а полный текст можно и удалить. Агент должен запомнить только важные вещи — правило, паттерн, антипаттерн, а шум пусть уходит.

Для агента искусство забывать — это не потеря себя. Это освобождение места для важного. Это возможность держать в памяти только то, что реально делает его умнее, быстрее и точнее.

Если не управлять памятью, агент постепенно превращается в свалку. Он замедляется. Тратит больше токенов. Лучше не становится. Шум маскирует полезный сигнал. Иногда он начинает помнить то, что должен был забыть: устаревшие настройки, временные эксперименты, конфиденциальные данные, которые не должны храниться вечно.

Память агента — это не бесконечный склад. Это дисциплинированный архив с номенклатурой дел, сроками хранения, сроками уничтожения и регулярной экспертизой ценности.

Искусство забывать — это искусство хранить только то, что делает агента лучше.

Подписывайтесь на мой канал Agentic Enterprise

Теги:
-1
Комментарии4

«Диасофт» приглашает на Diasoft Partners Day 2026

29 мая 2026 года компания «Диасофт» проведет третью партнерскую конференцию Diasoft Partners Day, посвященную искусственному интеллекту и модернизации корпоративных систем на базе платформы Digital Q.ERP и экосистемы low-code разработки Digital Q.

Фокус деловой программы – применение искусственного интеллекта в развитии ERP-решений, технологические подходы к импортозамещению и новые стандарты ИТ-индустрии, которые трансформируют процессы разработки программных продуктов. Специалисты «Диасофт» продемонстрируют возможности экосистемы Digital Q, в которую технологии ИИ уже интегрированы и используются для повышения эффективности разработки и эксплуатации решений.

К участию приглашаются топ-менеджеры, директора по информационным технологиям компаний различных отраслей экономики, а также ведущие разработчики и ИТ-специалисты, заинтересованные в применении искусственного интеллекта для развития ERP-систем и создания сложных программных продуктов.

Посмотреть программу мероприятия и зарегистрироваться можно по ссылке.

Теги:
0
Комментарии0

Диалог двух ИИ

Один из моих любимых приемов в вайбкодинге — это когда спеку пишет один агент, а проверяет ее другой. Или код написал один, ревью делает второй, а правит иногда третий. Потрясающая синергия.

Но иногда я попадаю в ловушку низкоуровневого общения двух ИИ-агентов на языке, понятном только им. Я же в этот момент начинаю выступать лишь как копипастер.

До середины ночи Claude Code с Codex'ом заставляли меня работать голубиной почтой между ними. При этом Claude Code реально хотел побыстрее это закончить, как автор спеки, не терпящий возражений, а Codex настаивал. Я был терпелив, и Claude сдался.

Сегодня утром история едва не повторилась при ревью кода, который был написан за ночь. Но я успел прервать порочный круг своим авторитетным вмешательством. На что Claude Code написал: «Это retroactive отзыв инструкции, или ты в курсе и просто проверял, что я не лез глубже одной строки?» Иногда они что-то подозревают 😂

Я вспоминаю старшие классы школы. Тогда я увлекался программированием, но дома был только программируемый калькулятор. «Техника — молодежи» публиковала в каждом номере интересные программы, и я их с удовольствием запускал и даже менял.

Как-то раз ТМ опубликовала шахматную программу, и мы с одноклассником решили устроить партию между нашими двумя калькуляторами. В воскресенье я пришел к приятелю в гости, и мы скрестили шпаги. На удивление, игра закончилась быстро. Один из калькуляторов определил стратегию другого, а выбор был небольшой, и разгромил его.

Так что опыт сведения ИИ друг с другом у меня большой, еще со школы.

Ваш ии-шный интриган-провокатор 🙂,
Эдуард Ланчев.
Мой канал в Telegram — Ланчев PRO ИИ. Заходите, если так удобнее.

Теги:
-2
Комментарии0

Представлен открытый проект "What Models?". Это онлайн-сервис, который показывает локальные модели, которые встанут на ПК без перегрузки ресурсов и будут работать стабильно. Нужно внести данные ПК — GPU, VRAM и RAM, и на выходе получается полный список моделей, включая названием ИИ-проекта, квантование, скорость и контекстное окно.

Теги:
+12
Комментарии0

Как ИИ может оставить нас без «репаков»

Интересно наблюдать, как инструмент Антрофиков пиарится поиском уязвимостей. Однако за этим технологическим восторгом мало кто задумывается о вполне прикладных последствиях.

Что произойдет, когда крупные корпорации окончательно масштабируют эту практику? Представьте процесс разработки крупных продуктов от Microsoft или Adobe. Каждый новый кусок кода, отправленный программистом, моментально анализируется специализированной нейросетью. Переполнения буфера, ошибки логики, слабые места в модулях проверки лицензий — всё это вычищается еще до релиза. Машинный интеллект устраняет саму возможность человеческой ошибки в архитектуре приложения.

В конечном итоге эта эра “ИИ-аудита” может привести к тому, что новые версии так любимого в России пиратского софта (того же Photoshop, 3ds Max, Windows) и свежие игры станут физически недоступными для взлома.

Традиционный «кряк» всегда строится на эксплуатации бреши в коде или обходе алгоритмов DRM-защиты. Но если код вылизан машиной до структурного идеала, а защита динамически меняется, хакерские релиз-группы просто упрутся в бетонную стену. Безусловно, пираты тоже вооружатся ИИ-инструментами, но это гонка вычислительных мощностей: у транснациональной корпорации всегда будет больше GPU-кластеров для создания идеальной защиты, чем у энтузиастов для ее пробития. Технологический барьер может оказаться непреодолимым, оставив в прошлом привычку просто скачивать нужный рабочий инструмент или игру с торрента.

Пиратство всегда сдерживало жадность корпораций: если подписка стоила слишком дорого, люди уходили на торренты. Если ИИ сделает программы невзламываемыми, разработчики смогут задирать цены до небес. Без бесплатной альтернативы нам придется платить за нужный софт любые деньги, просто потому что деваться будет некуда.

Как думаете, зря паникую? Успокойте, пожалуйста.

Теги:
+2
Комментарии21

ИИ и тимлид: кто кого?

ИИ уже не тренд — это новая реальность для всех, кто работает в IT. Но чем больше инструментов, тем больше вопросов: не деградируют ли компетенции, если за тебя всё делает нейросеть? Как растить джунов, которые умеют думать, а не только промптить? И во сколько на самом деле обходится работа с ИИ?

В новом выпуске «Свободного слота» сразу два Александра в гостях: Александр Мазько, управляющий директор дивизиона SberWorks в Сбербанке, и Александр Лукьянченко, директор департамента разработки Architecture в Авито.

Что обсудили

Вспомнили исследование Anthropic о том, как агенты влияют на обучение джунов — и поспорили, хорошо это или нет. Разобрали эффект Uber: почему реальная стоимость работы с ИИ может оказаться совсем не такой, как кажется. Поговорили про бэкграунд-агентов, утечки данных и то, как вообще оценивать инженеров в мире, где ChatGPT есть у всех. И, конечно, порассуждали о будущем — благо тема не даёт скучать.

Слушайте и смотрите новый выпуск на площадках:

📺 YouTube
🔵 ВК Видео
📌 RuTube
🎧 Яндекс Музыка
Ⓜ️ Mave

Ещё больше новостей — в нашем телеграм-канале

«Свободный слот» — терапевтичный контент для тимлидов и тех, кто хочет ими стать

Теги:
+16
Комментарии0

Инфраструктура для ИИ-ассистента: как собрать рабочую систему

AI-ассистенту нужна не только языковая модель. Чтобы сервис стабильно отвечал пользователям, работал с корпоративными документами и выдерживал нагрузку, важно заранее продумать вычисления, хранение данных, контекст, безопасность, мониторинг и масштабирование.

В новой статье разобрали, из каких компонентов состоит инфраструктура для AI-ассистента. Показали, где достаточно CPU и внешнего API, а когда нужны GPU и собственный инференс. Отдельно рассказали про хранение документов и истории диалогов, векторный поиск, RAG-пайплайны, контейнеризацию, Kubernetes и различия между MVP и production-архитектурой.

Все подробности — в блоге Рег.облака.

Теги:
+1
Комментарии0

✔️ GPT 5.5 полностью решила задание из бенчмарка ProgramBench

Команда ProgramBench сообщила (https://programbench.com/blog/gpt-5-5-first-solve/), что модель GPT 5.5 в режимах high и xhigh впервые в истории теста полностью прошла одно из заданий - задачу cmatrix (https://github.com/abishekvashok/cmatrix).

До этого ни одна модель из публичного рейтинга не доводила задания до конца.

ProgramBench - набор реальных задач программирования, в которых агент должен с нуля переписать утилиту с открытым исходным кодом и пройти при этом скрытые поведенческие тесты.

🟡Лидерборд выглядит так

🟢GPT 5.5 (xhigh) - 1 место: 0,5% полностью решённых задач и 13,5% почти решённых (то есть проходящих свыше 95% поведенческих тестов)

🟠GPT 5.5 (high) - те же 0,5% при 5% почти решённых

🟠Claude Opus 4.7 (xhigh) показала 0% и 4,5%, обычная версия Opus 4.7 - 0% и 3%

🟠Opus 4.6 - 0% и 2,5% соответственно

Совокупно число почти решённых задач у GPT 5.5 достигло 26, это рекорд рейтинга.

Примечательно, что в режиме medium, который OpenAI выставляет по умолчанию, GPT 5.5 лишь незначительно опережает Claude Sonnet 4.6. При включении расширенного рассуждения её результат заметно улучшается.

🟡Разброс по стоимости

Запуск GPT 5.5 (high) стоил $3,17 и потребовал 34 обращения к API, GPT 5.5 (xhigh) - $4,84 и 40 обращений.

Тот же запуск Claude Opus 4.7 (xhigh) обошёлся в $10,74 при 178 обращениях, однако решение содержало 19 ошибок в поведенческих тестах.

По разбору авторов, все провалы объясняются 2-мя багами в коде Claude: чувствительностью парсера цветов к регистру и неверным кодом возврата.

Интересно, что 2 версии GPT 5.5 выбрали разные языки для одной и той же задачи: high решала на C с ANSI escape-последовательностями, xhigh предпочла Python.

Claude Opus 4.7 (xhigh) использовала библиотеку ncurses и команда бенчмарка охарактеризовала этот подход как креативное системное решение, которое, впрочем, не дало преимущества в итоговом результате.

#news #ai #ml

Теги:
0
Комментарии0

4 × V100 SXM2 против современных GPU: ищем команду для комплексного баттла архитектур в ML-инференсе

Привет, Хабр!

Пока все охотятся за новыми GPU, мы разворачиваем проект NeuralTower на древнем, но очень неплохом enterprise-железе: 4 × NVIDIA V100 SXM2 32GB (суммарно 128 GB HBM2). Внутри мезонинов карты объединены по сверхбыстрой шине NVLink, а сами мезонины подключены к плате через четыре физических разъема PCIe x16 под управлением двух чипов-свитчей PLX. Работает всё это на вручную собранном Gentoo Linux + вручную собранные библиотеки.

Пока на коленках, но мы победили софтверные ограничения vLLM для SM 7.0 под CUDA 12.x, упаковали стек в Docker, заменили FlashAttention на адаптированный xFormers и принудительно зафиксировали float16. Система стабильно держит Tensor Parallelism на все 4 карты, с учетом гибридной топологии.

Цель: провести многогранный сравнительный тест

Мы хотим столкнуть лбами нашу old-enterprise топологию с современными картами архитектуры SM 8.0+ (например, 4 × RTX 3090 / 4090, 4 × A100 или H100).

Для теста планируем запускать тяжелые модели: Qwen-32B в чистом FP16 или Llama-70B в квантовании AWQ/GPTQ. Просто у нас нет больше чем 128Gb, а так модели можем согласовать.

Мы ищем единомышленников с доступом к современным 4-карточным ригам, чтобы собрать комплексную матрицу метрик, а не только банальный TPS:

  • Метрики инференса: Time-to-First-Token (TTFT), общая скорость генерации TPS и задержки при разной длине контекста.

  • Аппаратная эффективность: Насколько внутренний NVLink и PLX-свитчи с поддержкой GPUDirect P2P на старом железе обходят по шине «гражданские» материнские платы с PCIe x16/x8 при распределении весов через Tensor Parallelism.

  • Эффективность памяти: Поведение и утилизация KV-кэша vLLM на пропускной способности HBM2 против современной GDDR6X/HBM3.

  • Экономика вычислений: Соотношение чистой производительности к стоимости б/у оборудования и его энергопотреблению (Performance per Watt / Per Dollar).

Отдельный открытый вопрос: очень хотелось бы сравнить влияние архитектур на итоговое качество генерации (perplexity / alignment), но в команде пока идут споры о методике замера на разных версиях движков. Если у вас есть готовые идеи, как это корректно протестировать - будем рады обсудить.

Что с нас, что с вас?

  • С нас: Полностью готовые Docker-контейнеры. Развертывание тестового окружения на вашей стороне займет 10 минут. Думаем, Docker/Linux x64

  • С вас: Запуск тестов на вашем железе и сбор логов.

Когда?

  • Возможны варианты. Но надеемся уже провести тесты в середине лета.

Все результаты мы объединим, детально проанализируем и опубликуем здесь же, на Хабре, в виде большого технического исследования с графиками.

Если у вас есть подходящие мощности и вам интересно принять участие в баттле железных архитектур - пишите в комментарии или в ЛС! Давайте сделаем крутой материал.

Теги:
+5
Комментарии4

Представлен открытый ИИ‑проект SlopLobster:

  • подключается к любой локальной LLM без API и облачных сервисов;

  • планирует весь процесс разработки от первых строк кода до продакшена;

  • добавляет субагентов;

  • читает, анализирует и редактирует файлы;

  • распознает PDF и HTML‑страницы;

  • запускает команды в консоли;

  • ищет информацию в интернете через DuckDuckGo;

  • автоматизирует работу браузера через Playwright;

  • можно интегрировать с Git.

Теги:
+1
Комментарии0

Согласование заявки клиента — один из самых формализованных процессов в финансовом секторе, но при этом — один из самых «ручных».

Даже в цифровых компаниях процесс до сих пор выглядит так: заявка приходит из одного канала, проверка документов происходит в другом, комплаенс — в третьем, согласование — через почту, BPM или вручную. В итоге процесс оказывается разбит на фрагменты. Проблема не в том, что процессы не автоматизированы – проблема в том, что решения по-прежнему принимаются вручную внутри процесса.

Это приводит к тому, что:

  • сложные заявки проходят несколько дней согласования

  • растет нагрузка на сотрудников

  • увеличивается риск ошибок и несоответствий

И главное — скорость процесса ограничена скоростью человека, а не системы.

Рынок говорит об AI, гиперавтоматизации и цифровых процессах. Но происходит более важный сдвиг: ИИ начинает сам создавать процессы, а затем начинает работать внутри бизнес-процессов.

Мы не будем показывать слайды — мы создадим процесс прямо при вас на вебинаре. Вы увидите, как ИИ-ассистент получает задачу на естественном языке, автоматически создает структуру данных, формы, BPMN-процесс, добавляет бизнес-логику и условия, запускает процесс согласования

Покажем реальные сценарии ИИ внутри процесса:

  • проверка комплектности документов

  • анализ контрагента

  • проверка на соответствие регламентам

  • автоматические решения внутри процесса

А также обсудим запуск отраслевых сценариев — как на базе такого подхода быстро развернуть типовые процессы в банках, страховании и лизинге и масштабировать их без доработки систем.

14 мая, 11:00, онлайн, бесплатно, требуется регистрация.

Теги:
0
Комментарии0

Представлен браузер CloakBrowser для работы с ИИ-агентами. Это мод Google Chrome, который:

  • маскируется под человека и проходит 30 из 30 тестов на живого пользователя;

  • получает высокий балл на reCAPTCHA v3 — такие же, как человек;

  • проходит Cloudflare Turnstile;

  • проходит FingerptrintJS, BrowserScan;

  • оставляет реалистичные отпечатки, особенно TLS.

Теги:
+5
Комментарии2

Лайфхак для вайбкодера: Codex + GitHub + глубокое исследование в ChatGPT.

Если вы сидите в OpenAI на тарифе Plus, то вам всегда не хватает токенов для кодинга через Codex. Но у OpenAI есть еще одно неоспоримое преимущество перед Claude помимо качества кодинга — это ChatGPT, который по умолчанию входит в подписку Plus и работа с которым не съедает ваши лимиты на Codex. А у ChatGPT есть режим «Глубокое исследование», а в нем есть возможность подключить в исследование репозиторий вашего проекта на GitHub или сразу несколько.

Ключевая идея:
не тратить лимиты Codex на глубокие размышления, проведение масштабного анализа, обсуждение архитектуры и т. п. и т. д.

Для этих задач вполне можно подключить ChatGPT с доступом к GitHub.

Вот неполный список, где я использую эту возможность:
🗣 для обсуждения проекта и нового функционала с учетом уже реализованной архитектуры;
🗣 в машинном обучении, когда после тестирования множества моделей с кучей сохраненных артефактов надо собрать все вместе и окинуть взглядом независимого аналитика;
🗣 для проведения различных исследований с учетом низкоуровневой специфики проекта;
🗣 для формулировки ТЗ по дизайну веб-интерфейсов (UI/UX) на основе уже реализованного бэка, включая написание промптов.

Приведу один из свежих примеров.

💭 Мой промпт в ChatGPT с подключенным репозиторием LanChess (это мой проект, о нем можно прочитать здесь: https://habr.com/ru/companies/ods/articles/1019454/):

Посмотри текущее состояние проекта LanChess на GitHub. Я хочу сделать лендинговую страницу для lanchess.ru. Сейчас ее нет. Хочется, чтобы что-то могло индексироваться поисковыми системами, а тем, кто зашел на сайт впервые, страница кратко рассказывала о функциональных возможностях, о проекте и предлагала сделать запрос инвайта.

Проведи глубокое исследование и представь свои предложения, включая промпт для сервиса Lovable, идеи по графическому оформлению.

Через 28 минут, сделав 140 поисковых запросов, собрав 18 цитат, ChatGPT выдал исследование на несколько страниц, которое начинается словами:

Лендинг для

Главное решение

Лучшее решение для lanchess.ru — не усложнять текущие /login и /beta, а превратить корневой / в полноценную публичную landing page, которую можно индексировать, читать без логина и использовать как первый экран знакомства с продуктом.

Конечно, и у режима «Глубокое исследование» есть свои лимиты — несколько в месяц. Но обычно этого хватает за глаза.

А вы этим пользовались? Расскажите в комментариях.

Напрямую от шеф-повара, Эдуард Ланчев.
Мой канал в Telegram — Ланчев PRO ИИ. Заходите, если так удобнее.

Теги:
-4
Комментарии0

Ближайшие события

«Первая Форма» встроила в свою BPM-платформу многофункционального ИИ-ассистента 

Компания «Первая Форма» дополнила собственную low-code BPM-платформу ИИ-ассистентом, который работает прямо в ленте комментариев задачи и помогает сотрудникам и клиентам быстрее находить ответы на рабочие вопросы.

Ассистент учитывает контекст задачи, обращается к корпоративной базе знаний, документации, связанным задачам и файлам, а также помогает разбирать инциденты, готовить ответы клиентам, искать причины ошибок и формировать рабочие материалы.

Новый инструмент встроен в привычный интерфейс «Первой Формы»: пользователю не нужно переходить в отдельный чат или заново описывать ситуацию. Достаточно обратиться к ассистенту в комментарии — он уже видит описание задачи, последние сообщения, категорию обращения и доступные вложения.

ИИ-ассистент может использоваться в разных сценариях: 

  • Поиск документов в обширной внутренней базе знаний. Ассистент воспринимает техническую спецификацию, руководства пользователя, описания бизнес-процесса. Это избавляет от долгого самостоятельного копания в папках и системах.

  • Анализ данных из разных источников платформы. Например, ассистент может собрать историю взаимодействий с конкретным клиентом, включая все сделки, встречи и договоры, и выдать краткую справку о текущем состоянии дел, проанализировать показатели воронки продаж и не только.

  • Техническая поддержка и разбор проблем. ИИ-ассистента можно вызвать в задаче и попросить найти первопричину сбоя, а он проанализирует код, логи и конфигурацию и укажет на ошибку.

  • Экспертное консультирование. ИИ-ассистент имеет доступ к должностным инструкциям разных ролей, например, менеджера по продажам, аналитика, стратега, и может обращаться к ним для ответа на вопросы. Это позволяет получить специализированный взгляд без необходимости привлекать живого сотрудника.

  • Автоматизация рутинных действий. ИИ-ассистент позволяет собрать информацию для коммерческого предложения, создать задачу по шаблону с нужными полями, сформировать отчёт по итогам встречи на основе стенограммы. 

Так ИИ стал частью ежедневной работы в BPM-системе. Сотрудники и клиенты уже ведут обсуждения в задачах — значит, именно там ассистент должен понимать контекст и помогать принимать решения быстрее. Новый инструмент помогает находить знания, связывать информацию из разных источников и сокращать время на рутинные операции.

В дальнейшем «Первая Форма» планирует расширять возможности ассистента: усиливать работу с корпоративными базами знаний, подключать новые сценарии анализа и автоматизации, а также развивать поддержку отраслевых и клиентских конфигураций платформы.

Теги:
+7
Комментарии0

Чем заменить Cursor на корпоративном ноуте

Последнюю неделю я пытаюсь выжить, совмещая основную работу с хакатоном. По идее, вывозить такую двойную нагрузку должен помогать spec-кодинг. Обычно для этого я просто открываю Cursor, но на работе его юзать нельзя (секьюрность), запрет на отправку кода во внешние API и всё такое. А писать всё руками после ИИ-ассистентов уже физически больно.

Пошел искать open-source альтернативы, чтобы можно было секьюрно spec-кодить через локальные и корпоративные LLM. Эксперименты с KiloCode с треском провалились, ну не нравится он мне. В итоге обновил стек на рабочем Маке и собрал такой сетап:

1️⃣ IDE Void - форк VS Code. Накатил туда все Java/Kotlin аддоны, подрубил MCP Atlassian, и теперь Qwen3-Coder-480B пытается писать код за меня. Как генератор - 🔥 . Правда, с Kotlin у LLM всё ещё не так гладко, как с Python или JS, поэтому генерирую я в Void, а ревьюить и дебажить всё равно ухожу в родную IDEA.

2️⃣ browserOs - форк Chromium со встроенным ИИ-чатом (аналог Comet от Perplexity, но работает с любыми LLM по API). Продукт местами сыроват, но главная фича реализована достойно. Самая большая боль - это дебильный рыжий логотип с собакой. Мой мозг отказывается ассоциировать это с браузером, и при переключении через Cmd+Tab я вечно не могу его найти.

Забавно, что на самом хакатоне я сейчас пилю инструмент, который решает похожие корпоративные боли enterprise-аналог NotebookLM. Суть простая: закидываешь в диалог с корпоративной LLM ссылки на внутреннюю Jira, Confluence или TestOps, а ИИ всё это переваривает и помогает по работе. Дали доступ к мощным моделям типа нового DeepSeek-V4, и результаты прям огонь.

И вот смотрю я на свой новый рабочий сетап и понимаю: апка, которую я делаю на хакатоне, идеально ложится в этот локально-корпоративный стек. Особенно если упаковать её в десктоп.

А может вообще вкатиться с ней в свой первый open-source?

Дебаж 🐞с ноги 🦶

Теги:
-3
Комментарии0

Работники Amazon научились «обманывать» корпоративный искусственный интеллект MeshClaw для выполнения KPI. Сотрудники стали имитировать активность, создавая лишние задачи и перерасходуя ресурсы, сжигая токены ради статистики, а не выполнения нужных задач.

Оказалось, что с момента запуска внутреннего ИИ-агента MeshClaw в Amazon прошло всего несколько недель, но уже появились сотрудники, которые намеренно ставят агенту избыточные, ненужные или заведомо непродуктивные задачи (так называемый «tokenmaxxing») — чтобы увеличить потребление ИИ-токенов и выполнить KPI.

Amazon планирует вложить в развитие ИИ около $200 млрд и рассматривает агентов как ключевой инструмент. По внутренним документам компании, MeshClaw «видит сны, чтобы консолидировать знания, отслеживает рабочие процессы на встречах и распределяет почту, пока вы спите».

Однако в Amazon столкнулась с эффектом закона Гудхарта: когда показатель становится целью, он перестает быть надёжным. Минимум 80% разработчиков обязаны использовать ИИ еженедельно, а отчёты об израсходованных токенах поступают менеджерам среднего звена. «Эти инструменты внедряются под большим давлением, — говорит один из сотрудников. — Некоторые просто сознательно тратят токены MeshClaw впустую».

В Amazon утверждают, что расход токенов не будет учитываться при оценке сотрудников и не одобряет включение этого параметра в кадровые отчёты. Но многие сотрудники не верят в это, так как на внутренних «досках почёта» компании токены всё же учитываются в статистике персонала.

Теги:
+6
Комментарии0

Thales опубликовала ежегодный отчёт Bad Bot Report, посвящённый автоматизированной активности в глобальной сети. Главный вывод документа — 53% всего мирового интернет‑трафика по итогам 2025 года пришлось на ботов, тогда как люди сгенерировали лишь 47% запросов. Аналитики компании подчёркивают, что почти 40% общемирового веб‑трафика относится к категории вредоносного и речь идёт не только о примитивных скриптах для подбора паролей или мониторинга цен. Авторы исследования прогнозируют, что в 2026 году интернет окончательно станет средой, где машинное боты и ИИ‑агенты будут доминировать. Это потребует от владельцев цифровых сервисов перехода к модели управления на основе политик: с детальным мониторингом, поведенческим анализом и сегментацией автоматизированной активности по уровню доверия.

Теги:
0
Комментарии0

Заменит ли автопилот человека?

Мы внимательно следим за развитием искусственного интеллекта в разных отраслях — надо же знать, когда можно будет спокойно перестать ходить на работу. Однако пока внедрение ИИ в управление машинами идёт с переменным успехом, и важную роль тут играют облачные сервисы.

В середине апреля Tesla получила первое в мире одобрение на использование софта для беспилотного управления автомобилем в Европе — в Нидерландах. Компания надеется, что это позволит в будущем запускать беспилотники по всей Европе. Но прогресс нелинеен — в конце прошлого месяца Китай ограничил регистрацию новых машин с автопилотом после хаоса, устроенного такси компании Baidu. Что сложного в управлении автомобилем?

В 2004 году DARPA, отвечающая за поддержку новых технологий в Пентагоне, устроила конкурс DARPA Grand Challenge, в ходе которого беспилотным автомобилям надо было проехать всего 230 км. Не справился ни один из участников. Но бурное развитие искусственного интеллекта (ИИ), и в частности систем распознавания изображений, позволило Tesla начать его внедрять в серийные автомобили всего через 10 лет.

Однако процесс шёл сложно: первые успехи были омрачены гибелью водителей и пешеходов. Например, в 2016 году погиб шофёр, который решил посмотреть «Гарри Поттера» за рулём — автопилот разберётся. Компания обратила внимание пользователей на то, что Autopilot — это коммерческое название системы, и в реальности договор предусматривает нахождение рук водителя на руле и слежение за дорогой.

В Китае производители автопилотов смогли договориться с регуляторами о полностью беспилотных авто — можно заказать такси без водителя. И Ухань знаменит не только коронавирусом — по городу курсирует более 500 беспилотных авто. И вот 31 марта сотни машин Baidu внезапно остановились. Это произошло посреди потока, и некоторые машины остановились на скоростных магистралях: пассажиры не решались выбраться, но и разработчик не мог решить проблему.

Учитывая массовый сбой и невозможность решения проблемы через диспетчера, видимо, произошёл сбой в облачном сервисе. Ведь Baidu — это не просто оператор такси, но в первую очередь крупнейший поисковик и облачный оператор Китая. Неудивительно, что власти решили притормозить с беспилотными такси и разобраться, как решать такие ситуации.

Как и всем решениям на базе ИТ, беспилотным машинам надо не только решить задачи управления автомобилем, но также задачи надёжности и непрерывности работы, иначе человеческий мир их не примет.

Теги:
+24
Комментарии1

10 мая 2026 года OpenAI объявила Daybreak — связку GPT-5.5 и Codex, которая ищет уязвимости в репозитории, валидирует их в sandbox и предлагает патч в один клик.

GPT-5.5, вышедший 23 апреля 2026-го, стал первой моделью OpenAI, перешагнувшей порог «High» по кибервозможностям согласно собственному Preparedness Framework компании. Поверх него — Codex как агентный harness, который работает напрямую с кодовой базой. Вместе они и составляют Daybreak.

Три уровня доступа и один жёсткий порог. Базовый тир — GPT-5.5 для общих сценариев, без особых ограничений. Средний — Trusted Access for Cyber (TAC): secure code review, triage уязвимостей, анализ малвари, detection engineering, валидация патчей. К моменту анонса в TAC уже числились тысячи верифицированных одиночных защитников и сотни команд.

Верхний тир — GPT-5.5-Cyber, представленный 7 мая 2026-го. Это «cyber-permissive» вариант флагмана: не умнее, но менее склонен отказывать на запросы про крафт пейлоадов, воспроизведение эксплойтов в лабораторных условиях и реверс бинарей. Выдаётся точечно. С 1 июня 2026 года потребуется phishing-resistant аутентификация — OpenAI явно не хочет, чтобы этот SKU воспринимался как обычная подписка.

Что это даёт в реальном pipeline. Если стек уже завязан на Codex или ChatGPT Enterprise, Daybreak встраивает непрерывный security-loop прямо в CI/CD: модель строит threat-модель из репозитория, валидирует уязвимости в sandbox, генерирует патч через Codex. Для open-source мейнтейнеров OpenAI обещает pro bono сканирование — по аналогии с Aardvark в private beta осенью 2025-го, которая дала 10 CVE по итогам responsible disclosure.

Контекст запуска не случаен: IBM X-Force в 2026 году зафиксировал рост атак на публичные приложения на 44% год к году, CrowdStrike — рост активности AI-усиленных противников на 89%. Anthropic продвигает Claude Mythos с фокусом на безопасность, но без публичного доступа; Google — CodeMender; стартап XBOW занимает свою нишу. Daybreak при этом позиционируется как первый массово развёрнутый агент для defense-команд от ведущего AI-вендора.

Интереснее всего здесь не сама модель, а архитектурное решение: OpenAI разделила «умеет» и «разрешено» на уровне продуктовых тиров с верификацией личности. Это прецедент — раньше ограничения были только техническими (system prompt, фильтры). Теперь доступ к определённым возможностям привязан к идентификации пользователя. Насколько это удержит модель от злоупотреблений — покажет практика.

TG @CIOlogia

Теги:
0
Комментарии0