Eon Systems в прошлом месяце как раз провели такой эксперимент - загрузили оцифрованный мозг дрозофилы в симуляцию. И, вроде как, она полетела без какого-либо либо обучения/настройки извне.
🔗 Sequential (конвейер): Агенты работают по очереди. Каждый видит, что конкретно сделали предыдущие, и сам решает — кем быть и стоит ли вообще участвовать.
Из статьи непонятно - зачем тогда нужна команда агентов. Если все агенты работают последовательно, т.е. только один агент активен в один момент времени, разве не должно хватать ровно одного агента? А роль он будет менять себе на лету.
И в продолжение мысли - разве ваша статья не доказывает, что агентская разработка, когда несколько агентов совместно разрабатывают ПО, проигрывает инкрементальному подходу, когда один агент последовательно пишет всё ПО? Что, в принципе, ставит под сомнение эффективность в использовании группы агентов.
Кстати, в статье опущен важный элемент - скорости разработки. Sequental может быть эффективнее других, но гораздо медленнее. Проводилась ли оценка по критерию: при каком из подходов будет быстрее достигнуто решение с уровнем качества 0.6, например? Потому что sequental, может быть, и даёт результат качественнее, но ждать его надо, допустим, в 10 раз дольше. Возможно, что самоотвод будет давать дополнительную прибавку к скорости - при одном подходе агенты решат, что "и так уже хорошо", а при другом будут "биться об стену в тщетных попытка".
Платформа CodeSpeak меняет этот парадокс, фиксируя диалог с ИИ в виде статических файлов спецификаций. Спецификация становится главным артефактом, подлежащим контролю версий и код-ревью. Команда обсуждает и утверждает смысловую часть алгоритма, оставляя валидацию синтаксиса на откуп автоматизированным тестам.
А чем это отличается от обычной спецификаций в .md для языковых моделей?
Главная ценность такого подхода заключается в жесткой изоляции. Так как спецификация предельно четкая и имеет строгие контракты ввода-вывода, ИИ-агенту не нужно выдумывать, что именно реализовать, или галлюцинировать дополнительный функционал. Нейросеть ограничена рамками Markdown-файла. Если спустя время разработчику понадобится добавить извлечение даты получения письма, он просто допишет одну строку в раздел «Output Structure» в .cs.md файле. После команды сборки CodeSpeak обновит исключительно eml_converter.py и его тесты, совершенно не затрагивая остальную кодовую базу проекта.
Так и как это реализовано? За счёт чего удается избежать галлюцинаций (тем более, что исследователи OpenAI уже доказали, что это невозможно) и написания лишнего функционала?
Я, кстати, тоже не понял, почему 70B лучше запускать на потребительских картах, если они не умещаются в память. Наоборот, Spark нужен как раз для работы с большими моделями.
Он перед уходом от Цукерберга начал претворять концепции "понимания мира" в жизнь - разработал класс новых моделей jepa. Так что он точно не просто болтает.
Reasoning должен быть проверяемым. В математике в качестве проверки используются правила. Поэтому модель может навыдумывать кучу задач, а затем проверять, чтобы она соответствовала правилам математики.
С изображениями сложнее - в качестве проверки выступают правила реального мира, и их сложно формализовать.
Вообще, проблема постановки задачи и оценки ее решения - центральная проблема в обучении нейросетей. Потому что обучить их можно чему угодно.
Можно почитать про архитектуру JEPA от Яна Лекуна, с помощью которой он хочет приблизить модели к человеческому мышление.
Если вкратце, то животные, и человек в том числе, рождаются с "предобученной моделью", с базовыми знаниями о законах мира, которая "быстро дообучается".
Если почитать оригинальную статью, то там не совсем про форму. Просто раньше не было датасетов, которые бы могли научить модели отличать "живое" от "неживого", растения от животных, сухопутное от морского и т.д. А за счет нового датасета модели могут это понять, что делает их восприятие близким к человеческому.
До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.
Почитал оригинальную статью, и это не совсем про texture bias и форму объекта. Это про то, что модели не обладают знаниями о природе вещей, поэтому не могут понять разницу между сковородкой и собакой. В статье приводится пример, что модель скорее отнесет ящерицу к растениям, а не к животным. Потому что из снимков невозможно понять, что ящерица - это живое, подвижное существо.
Суть статьи - авторы создали синтетический датасет, который дает моделям некоторое представление о природе вещей, что позволяет им классифицировать объекты по высокоуровневым признакам, как это делает человек.
Была статья - достаточно давняя, где изучалось, что видят сверточные модели, в зависимости от применённых аугментаций. И только использование специальных шумов приводило к тому, что модели начинали фокусироваться на силуэте объектов.
Это скорее типичная ситуация в ML - две модели имеют, условно, accuracy 90%, но у них может различаться точность по отдельным классам, будут разные precision и recall.
Во-вторых, могу делать много рутинных задач параллельно. При этом фокусируюсь на действительно сложных вещах — производительности, архитектуре, дизайне, абстракциях, правильной доменной модели для бизнеса
сеньоры создали что-то сложное, потом уволились, пришли другие сеньоры и сказали: "Тут надо всё переписывать"»
Сквозь текст как будто проходит тонкая нить иронии.
OpenWorm сделали, а в марте запустили цифровой мозг мухи в "матрицу".
Гуглите Eon Systems.
Вот про сам эксперимент от авторов:
https://theinnermostloop.substack.com/p/the-first-multi-behavior-brain-upload
Eon Systems в прошлом месяце как раз провели такой эксперимент - загрузили оцифрованный мозг дрозофилы в симуляцию. И, вроде как, она полетела без какого-либо либо обучения/настройки извне.
Подробнее от основателя компании:
https://theinnermostloop.substack.com/p/the-first-multi-behavior-brain-upload
Из статьи непонятно - зачем тогда нужна команда агентов. Если все агенты работают последовательно, т.е. только один агент активен в один момент времени, разве не должно хватать ровно одного агента? А роль он будет менять себе на лету.
И в продолжение мысли - разве ваша статья не доказывает, что агентская разработка, когда несколько агентов совместно разрабатывают ПО, проигрывает инкрементальному подходу, когда один агент последовательно пишет всё ПО? Что, в принципе, ставит под сомнение эффективность в использовании группы агентов.
Кстати, в статье опущен важный элемент - скорости разработки. Sequental может быть эффективнее других, но гораздо медленнее. Проводилась ли оценка по критерию: при каком из подходов будет быстрее достигнуто решение с уровнем качества 0.6, например? Потому что sequental, может быть, и даёт результат качественнее, но ждать его надо, допустим, в 10 раз дольше. Возможно, что самоотвод будет давать дополнительную прибавку к скорости - при одном подходе агенты решат, что "и так уже хорошо", а при другом будут "биться об стену в тщетных попытка".
А чем это отличается от обычной спецификаций в .md для языковых моделей?
Так и как это реализовано? За счёт чего удается избежать галлюцинаций (тем более, что исследователи OpenAI уже доказали, что это невозможно) и написания лишнего функционала?
Я, кстати, тоже не понял, почему 70B лучше запускать на потребительских картах, если они не умещаются в память. Наоборот, Spark нужен как раз для работы с большими моделями.
Он перед уходом от Цукерберга начал претворять концепции "понимания мира" в жизнь - разработал класс новых моделей jepa. Так что он точно не просто болтает.
Reasoning должен быть проверяемым. В математике в качестве проверки используются правила. Поэтому модель может навыдумывать кучу задач, а затем проверять, чтобы она соответствовала правилам математики.
С изображениями сложнее - в качестве проверки выступают правила реального мира, и их сложно формализовать.
Вообще, проблема постановки задачи и оценки ее решения - центральная проблема в обучении нейросетей. Потому что обучить их можно чему угодно.
Без этого непонятно зачем вообще столько мороки.
Можно почитать про архитектуру JEPA от Яна Лекуна, с помощью которой он хочет приблизить модели к человеческому мышление.
Если вкратце, то животные, и человек в том числе, рождаются с "предобученной моделью", с базовыми знаниями о законах мира, которая "быстро дообучается".
Тут скорее про то, что не существовало объемных датасетов, размеченных под такую задачу. Авторы в статье описывают, как они создали такой датасет.
Если почитать оригинальную статью, то там не совсем про форму. Просто раньше не было датасетов, которые бы могли научить модели отличать "живое" от "неживого", растения от животных, сухопутное от морского и т.д. А за счет нового датасета модели могут это понять, что делает их восприятие близким к человеческому.
Почитал оригинальную статью, и это не совсем про texture bias и форму объекта. Это про то, что модели не обладают знаниями о природе вещей, поэтому не могут понять разницу между сковородкой и собакой. В статье приводится пример, что модель скорее отнесет ящерицу к растениям, а не к животным. Потому что из снимков невозможно понять, что ящерица - это живое, подвижное существо.
Суть статьи - авторы создали синтетический датасет, который дает моделям некоторое представление о природе вещей, что позволяет им классифицировать объекты по высокоуровневым признакам, как это делает человек.
Была статья - достаточно давняя, где изучалось, что видят сверточные модели, в зависимости от применённых аугментаций. И только использование специальных шумов приводило к тому, что модели начинали фокусироваться на силуэте объектов.
PaddleOCR вы можете дообучить и он будет отлично распознавать, а вот LLMки дообучать проблематично
А вы указывали, какой язык собираетесь распознавать?
Это скорее типичная ситуация в ML - две модели имеют, условно, accuracy 90%, но у них может различаться точность по отдельным классам, будут разные precision и recall.
Так, а почему нет идеальной метрики? HOTA выглядит всеобъемлющей, регулирует все части процесса трекинга. Какие у нее явные недостатки?
Asyncio - single-threaded (однопоточный), поэтому он всяко дешевле, но он и не обладает способностью к параллелизму.
Сквозь текст как будто проходит тонкая нить иронии.