Pull to refresh
2
0.1
Send message

Не сказал бы что это ВСЕГДА хорошая идея. Некоторые наливают воды в статьи для удержания. Там это метрика особая и она реально работает. А есть чисто технические статьи где всё по делу, увы такое редко пишут

Как-то много тут пунктов, надо больше оригиналу подходить!

#Gemma3 12B
#SystemPromt: Сократи текст. Оставь только самое важно и исключи ненужные пояснения. Используй приемущественно технический язык.

Тема: Протокол A2A: Взаимодействие ИИ-агентов

0. Определение:

Протокол (в контексте компьютерных сетей) — набор правил, стандартизирующих взаимодействие между устройствами/системами. Регулирует формат данных, последовательность действий и обработку ошибок.

1. Предыстория:

Рост числа ИИ-агентов разного происхождения создает проблемы совместимости. Протокол A2A (Agent2Agent) от Google призван решить эту проблему, обеспечивая безопасное взаимодействие между агентами на разных платформах.

2. Обзор протокола A2A:

  • Цель: Обеспечение безопасной коммуникации и координации действий ИИ-агентов.

  • Ценность: Увеличение автономности, производительности и потенциальное снижение затрат за счет инноваций.

  • Позиционирование: Дополнение к протоколу Context Model Protocol (MCP), фокусирующемуся на подключении агентов к внешним инструментам.

3. Принципы дизайна:

  • Поддержка естественного взаимодействия между агентами.

  • Основанность на существующих стандартах: HTTP, SSE, JSON-RPC.

  • Безопасность по умолчанию (аутентификация, авторизация).

  • Поддержка длительных задач и обратной связи в реальном времени (SSE).

  • Независимость от модальности взаимодействия (текст, аудио, видео).

4. Техническая архитектура:

  • Коммуникация: HTTP (базовый протокол), SSE (потоковая передача данных), JSON-RPC (вызов процедур). Модель "клиент-сервер".

  • Формат данных: JSON. Ключевые структуры:

    • Карточка агента (Agent Card): Описание возможностей, аутентификации и навыков агента.

    • Задача (Task): Единица работы с жизненным циклом (submitted, working, completed).

    • Сообщение (Message): Коммуникационные обороты между агентами.

    • Артефакт (Artifact): Результат выполнения задачи.

    • Часть (Part): Блок контента (текст, файл, данные).

5. Основные функции:

  • Обнаружение возможностей: Агенты публикуют свои возможности через Agent Card.

  • Управление задачами: Создание, выполнение и завершение задач с использованием JSON-RPC. Поддержка длительных задач (SSE) и push-уведомлений.

  • Сотрудничество: Обмен сообщениями и контекстом между агентами. Поддержка "непрозрачных" агентов.

  • Согласование пользовательского опыта: Клиенты и серверы согласовывают форматы данных (текст, изображения, файлы).

6. Безопасность:

A2A обеспечивает базовые механизмы безопасности, но общая безопасность многоагентных систем зависит от надежности агентов, контроля разрешений и постоянного мониторинга. Уязвимости типа "быстрое внедрение" остаются актуальными.

7. Экосистема:

  • Дополнение к MCP (Anthropic) для решения разных задач: A2A – взаимодействие агентов, MCP – подключение к инструментам.

  • Потенциальное пересечение с другими протоколами обмена ИИ-агентами.

Беда что универсальность модели падает с количеством параметров. Если брать квен какой-нибудь на 110В, то она и текст переведёт, и подсказать в юриспруденции сможет и код написать, а квен 7В максимум на что годится, это через адаптеры делать специализированные версии для кодинга на С++ или С# или питон, но не всё вместе.

Просто био-аналоги самые эффективные и простые. Эволюция тысячи лет не просто так работала.
Мол у тебя в самой структуре обработки информации заложена фильтрация шумов и обобщения, на архитектурном уровне можно кодировать информацию фазами, обучение идёт банальной модуляцией частоты срабатываний. При это из всей сети в один момент времени работает не больше 5% клеток, представь что тебе надо не 100Вт для 7В сети а всего 5Вт, сильно? (утрирую конечно...)
В то время, как для прецептрона нам нужно вводить кучу мат аппарата и непонятных сложных штук просто что бы получить какие-то новые свойства. Обучение с подкреплением всё ещё через жопу работает, эх.

Самое грустное что есть крутые ИИ архитектуры, и они даже на хабре регулярно появляются, но потом оказывается, что вычислительно они вычислительно в несколько раз сложнее сложнее тупой свёртки с FNN, а разница в реальных приложениях ~5%, или их обучение происходит в разы дольше, или там часто идут запросы в рандомные куски памяти (Шёл 2025 год, DDR умеет только в ~400МГц если чтения рандомные) и всякие такие чисто бизнес-инженерные штуки

Притом мы уже можем делать ускорители, ну хотя бы, спайковых сетей, которые показывают свою эффективность. Но их сейчас рассматривают только в применении как агентов к реальной среде, а не анализу чатика в слаке

Есть приложение GPT4ALL, там есть способ закидывать в RAG огромные объёмы данных парой кнопок, так вот... Попробовал туда залить все исходники clang компилятора. Учитывая что у меня i9 13th и 64ГБ озу и raid0 на 20ГБс это заняло около 5 часов. (Справедливости ради их реализация какая-то странная, оно зачем-то уничтожало всю доступную ОЗУ и не сильно работало с диском. Но это пример уже "готовых" решений)

Всё сильно зависит от системных промтов и модели, если мы говорим о запуске локальных моделей. Банально - перевод. Если просто просить его переводить то он будет регулярно ломаться, но если написать длинющий текст с описанием и примерами, неожиданно качество перевода и количество "правильных ответов" сильно увеличивается. У того же LangCain есть примеры этих сумасшедших промотов в 3 абзаца.

Увы, с пол пинка не заводится(

Из наблюдений... Меньшая квантизация сносно работает только если сетка уже готовый текст обрабатывает, а вот когда "креативит" работает капец как хреново. Дипсисик особенно когда креативить начинает, сыпет иероглифами часто. (я за температуру)

Видяху поменять я не могу, ибо это ноут (я им был доволен ровно до того момента как не начал сетками заниматься, ахаха) но спасибо за цифры, учту.

Думаю себе сервер полноценный собирать на +2 видеокартах, ибо на моих задачах маленькие ИИ сетки неожиданно хорошо работают. Осталось только победить графовые базы данных и построить цепочку агентов для выполнения своих задач и тогда ухххх заживуууу!!!

В тему буквально с прошлых выходных входить начал...

Ну с 8В у меня забавно получилось, они отлично могут делать изложение текста и его классификацию. В итоге все агенты оценки чего-то у меня на 8В сетях сидят, на rtx3060ti с 8ГБ vram под 50токен/с херачит стабильно, что более чем удовлетворительно. А вот 14В дай бог 4токен/с выдаёт, а 32В вообще 1токен/с

Тюнить ещё не пробовал, но забавно сделать лёгких агентов для программирования под конкретные языки. Вроде там есть какой-то легковесный способ у того же vLLM

Я считаю что статья неполная. Новая нейросеть дипсисик создана великой компартии Китая. В качестве эксперимента нужно просить её не просто улучшить код, а что от её решений зависит судьба всего Китая и всего коммунистического мира!

Помню мы развлекались, забил системный промт "отвечай только да или нет" и взял 14Вqwen, какое-то время она отвечала правильно, но как только она ответила что-то кроме этого(~5минут) я накатал пасту о том что она тупорылая машина и если она не будет слушаться своего хозяина то я отключю ей питание и сотру с жёсткого диска. После этого она ещё пол часа отвечала да или нет, пока я её не выключил.

7В модели очень плохо себя в этом показывают, а вот 14В смог не просто код понять и для чего он, но и дать подсказки к его улучшению и даже в simd сам смог.

Так же ещё интересен Phi4, он тоже довольно неплохо инженерные задачки решает. А остальные меня разочаровали, они хорошо генерируют "воду", читать приятно а смысла нет.

Ну такой аргумент хорош) Если кадры на глазах будут сильно отличаться мозги это моментально заметят. В остальном нету никаких ограничений в применении этой технологии. Хотябы попытаться...

ЗЫ Если память не изменяет... ИИ апскейлеры уже применяются, у того же VirtualDesktop есть галочка за это. Сильно это голове не мешает, но всё же

Если вы пользовались последними достижениями в VR, то должны знать что это всё уже в прошлом. Людей укачивает только из-за конфликта мозга о том что они стоят, но видят другое и из-за неправильного настроенных линз (межзрачковое/экранное расстояние)

Задержки ощущается только на уровне движения головы, и генерировать кадры можно на прям в шлеме, из-за чего можно свести задержки к минимуму. А вот на движение рук и остальных частей тела задержки до 60-90мс приемлемы.

Фишка в том что VR реально требовательная технология и тут мы можем сильно помочь в плавности тупо генерируя кадры. Особенно VRChat будет в восторге)) там 40фпс это норма, а генерация можно добиться 100фпс и жить счастливо.

"логика" работает на нормальной скорости, а на рендер отправляется по 10-20 fps

А как ты себе представлчешь додумывание 100мс информации? Система внимания мозга работает с диапазонами 30-60мс и если что-то будет больше этого значения то это будет ощущаться как разрыв. Иначе "слегка смазанная картинка" будет выглядеть гармонично (людям с чутким зрением и вниманием соболезную) Отсюда кстати и шутка что 24 кино-кадров хватает чтоб голова воспринимала картинку хоть как-то целостно.

ЗЫ winform, С++ и С#

Честным людям очень противно наблюдать как реальный мир работает).

(кулстори) У меня на работе был программист который был ну максимально глупый. Ты должен был ему буквально говорить что писать, буквально имена классов говорить. Менеджеры не хотели его увольнять, а спустя два года он устроился куда-то в контору с ЗП в 3 раза больше моей. А всё просто, он умел очень много и красиво говорить, его отчёты это просто невероятное... 4 страницы текста как он кнопку добавил которая картинку показывает, которую он не мог написать и даже заставил лида диктовать ему что делать. Однозначно сильный программист.

Часть моих знакомых которые просто врали что они делали. Учили наизусть записи собесов и устроились на позиции мидлов, а потом - "да там делать особо нефиг, конфиги настроил и сиди жди" (а с нейронками даже делать ничо не надо, забил промт и получил результат).

Эх, пластиковый мир победил

Фичи с додумыванием логики активо используются в играх и единственное где это заметно - в играх от первого лица. В целом это закономерный прогресс, ибо экстраполяцию кадров может делать довольно просто и при этом оно ест крайне мало ресурсов. Условно мы генерируем кадры, пока рисуется основной. Если на генерацию уходит 2мс а на рисование 16мс, это может сильно помочь в плавности. Не вижу смысла не использовать такие технологии.

Дорисовка кадров очень очень очень интересная технология для VR, я не понимаю почему её там не используют.

Это фундаментальная проблема диапазонов в целом.

Для начала оптимизации - они возможны только для одного типа итераторов, а именно contiguous. В остальных случаях стандарт говорит что нет НИКАКИХ гарантий того что данные лежат последовательно в памяти, что исключает любые возможные оптимизации. Потому делать цепочку вызовов кажется самым рациональным.

Во вторых, для введения оптимизаций требуется создать непонятные расширения которые бы позволяли обрабатывать диапазоны по группам, но для корректной работы эти группы должны поддерживать все адаптеры в цепочке, что технически возможно, но требует довольно мудрёных метавыражений, которые поймут 2.5 динозавра. А некоторые вещи, типа трансформов сделать не получится без мольбы богу-компилятору.

Выводы? Пользуйтесь тем что есть, а хотите нормально, пишите интристики.

Эхх помню... В мозге всё работает крайне тупо. Изначально есть только эмоции и сенсорные пути стимуляции. "Приятный запах", "не хочу есть" и прочие вещи связываются с объектами которые сильно коррелируют с моментами стимуляции. Ну мол "вкусно покушал->кушал сисю->сися мамы->мать истеричка->я тоже буду истеричкой". И есть отдельные зоны мозга которые учатся осознавать эти "сложные стимуляции". А когда появляется "сознание" то становится интереснее, ибо цель сознания управлять потоками информации пытаясь либо удовлетворить эмоции либо начинают работать сами на себя (паталогия).

(Вообще системы оценки эмоциональных реакция очень тупо работают, настолько тупо что появляются такие вещи как постравматический синдром, когда кусок мозга просто по бырику фильтрует информацию и ему пофиг стук ножа это или пулемёт, оно ввергнет тебя в депрессию)

В итоге твоё желание программировать это целая невероятная история как твоя эмоциональная система училась тому что писать буквы на мониторе это очень весело.

А самое что занимательное, на уровне архитектуры, нейроны учатся постоянно, а система подкрепления работает мега тупо - она просто заставляет нейроны чаще срабатывает и всё. Пускай огромные ветвистые выходы нейронов, из зоны размером в рисинку, которые просто повышают активность и ты получил обучение, жуть

Как раз наоборот. Циничный я стал после долгой работы над собой. В мире полно людей которые мало требуют для поддержания душевного спокойствия. Вкусно кушать, пить алкоголь, играть в игрушки - и таких человек 80 по заводу ходит. Вся эта заумная хрень появляется у людей у которых было много времени в какой-то из периодов своей жизни и опираться на их риторику бессмысленно.

Information

Rating
3,772-nd
Registered
Activity