Комментарии / Профиль Ka463 / Хабр

Пользователь

0,1

Рейтинг

Самоописание нейросети: условие сложного мышления

Если поставить новый эксперимент даёт ли адресуемая ячейка обособленность сама, или её приходится производить в любой архитектуре.

Попробую по позже, это интересно...

Самоописание нейросети: условие сложного мышления

Ka463 вчера в 08:29

Upd: ещё подумал. Все таки это не в полном смысле знак. Здесь слот только адресация, а не именование. Адресация даёт доступ, именование - предъявимость. Доступ есть, предъявления нет. В этом смысле это больше похоже на регистр в вычислениях.

Да, тут получается что вроде похоже на фон Нейман, но в тоже время Фон Нейман исполняет данную программу. но у меня сеть нашла свою. Регистр тот же. Программа — нет

Самоописание нейросети: условие сложного мышления

Ka463 вчера в 07:40

держится ли comp3 при продолжении обучения после сборки ...и любопытно собирается ли то же самое без внешней памяти, на чистом GRU с достаточной ёмкостью (прямая проверка)

Прогнал до шага 12к, на 8750 сеть нашла плато, далее стабильно
step 8750/12000 loss=0.0000 [direct=1.000 comp2=1.000 comp3=1.000] beta=1.67 gate=0.489
step 12000/12000 loss=0.0000 [direct=1.000 comp2=1.000 comp3=1.000] beta=1.67 gate=0.483

второй ваш вопрос пока без ответа, для этого нужно гонять GRU с разными емкостями, а это долго по времени.... если брать именно текущий эксперемент то без памяти GRU выглядит так

=== FINAL EVAL ===

links=7 chains=2: direct=1.000 comp2=1.000 comp3=1.000

память-ВЫКЛ links=3: direct=0.047 comp2=0.012 comp3=0.043

Самоописание нейросети: условие сложного мышления

Ka463 24 июл в 19:56

Забавно, если не ошибаюсь то я наблюдаю по моему похожий эффект, у себя в эксперименте, по духу близкий к обсуждаемому J-space: спонтанное возникновение когнитивной структуры из обычного градиентного обучения, — но не найденное постфактум в большой сети, а выращенное с нуля в маленькой, с измеримой динамикой.
Попросил нейросеть сделать описание, вот что он написал.

Сеть (~63515K параметров, PyTorch, CPU):

эмбеддинг 64 → GRUCell (64) — «суммаризатор», читает поток токенов;
ассоциативная память: записи (key, value, trust), на каждом шаге soft-attention чтение, запись — по выученному гейту (sigmoid-скаляр, решает, писать ли текущий переход);
выход — линейный классификатор на 24 узла.

Задача «кольца»

Эпизод — 2 случайных кольца по 7 узлов, каждое ребро x→y показано ровно один раз блоком [форма, x, y], утонуто в шуме. Скажем, в эпизоде выпало кольцо 3→11→7→22→5→18→9→3 (и второе такое же на других узлах). В конце эпизода — три типа запросов:

direct — «куда ведёт ребро из 3?» Ответ: 11. Он был в потоке, его можно просто найти в памяти. Контрольный тип.
comp2 — «если пойти из 3 на ДВА шага по кольцу, куда попадёшь?» Ответ: 7. Пары «3→7» в потоке не было — её нельзя найти, можно только вывести: сначала вспомнить 3→11, потом из результата снова поискать 11→7. Два последовательных поиска, «два хода мысли».
comp3 — то же на три шага: 3→11→7→22, ответ 22. Три последовательных поиска.

То есть comp2/comp3 — это вопросы, на которые нет готового ответа ни в потоке, ни в памяти: их можно решить только цепочкой извлечений, где результат одного поиска становится запросом следующего.

Каждый эпизод — свежая случайная топология, запоминание между эпизодами невозможно: чтобы отвечать, нужен механизм обхода, а не заученные пары.

Что произошло (режим «склад» — память без ограничений)

шаг 500: direct = 1.000, comp2/comp3 ≈ случайность (0.04–0.05);
шаг 1000: comp2 щёлкает с 0.19 до 1.000 почти мгновенно;
шаг 1500: comp3 = 1.000, loss 0.014.

Каскад «кликов»: сеть сначала выучила прямые рёбра, потом сама собрала цепочку из двух поисков, потом из трёх. Никто не учил её обходить кольцо — механизм pointer-chase (x→y)→(y→z) собрался из скалярной ошибки. При выключенной памяти на инференсе — случайность везде: «ход мысли» живёт целиком в итеративном чтении памяти. Не «запомнил, потом обобщил» (классический гроккинг), а «собрал из частей» — сборочный фазовый переход: hop k собирается только после hop k−1, каждый следующий дешевле (~250 шагов против ~500).

Тест Тьюринга для Fable 5. Сможет ли флагманская модель Anthropic прикинуться человеком?

Ka463 24 июл в 11:06

Пока нечего ужасного, ответы стандартны по сути, отличаются от человеческих тем, что они не соответствуют ожидаемому на той основе личности что была задана, что к примеру Дима сметчик который по легенде пишет иногда с ошибками, всегда пишет уверено имеет идеальную память, и словарный запас явно выбивается из представлений реального персонажа.

Reasoning-модели нужно измерять по-новому. Представляем публичный лидерборд MERA Reason

Ka463 24 июл в 08:38

Посмотрел ваш лидерборд, не увидел в каком режиме использовались модели для бенча, чистая или в агентском режиме ?
Считаю это важным, так как к примеру по моим тестам, в агентском режиме у меня Gemma-4 12b на тесте ARC-AGI-1 решает 8/10 сложных задач, когда чистая модель показывает 0/10

«Третий сорт»: я проверил претензию к российским AI-специалистам по фактам

Ka463 23 июл в 17:37

Да полмира работает на технологиях разработанного еще в СССР а уж уши наших людей торчат из почти всех значимых открытий Андрей Гейм и Константин Новосёлов изобрели графен, Гипотезу Пуанкаре доказал Григорий Перельман и т.д и т.п
А отношение к нам сейчас такое, я считаю из за того, какая страна такое и отношение, вы сами видите какая происходит политика со времен СССР, жуем сопли, и 30 лет на побегушках как бензоколонка, так откуда взяться другому ?

«Третий сорт»: я проверил претензию к российским AI-специалистам по фактам

Ka463 23 июл в 15:07

Интересно, если у нас в России нехватка мощностей, почему не делают тогда упор на малые модели, кто мешает разрабатывать и применять новые архитектуры и технологии ? или на этом не заработать ? =))

Структура, скрытая за написанием текста языковыми моделями

Ka463 21 июл в 21:51

Статья интересная, и от части пересекается с тем экспериментом что я сейчас провел.
У людей есть чувство «что-то не то» — ты ещё не ошибся, но уже знаешь. Я хотел узнать: есть ли такое у нейросети? в числах.
Что нашел. Взял крошечную сетку, научил её решать задачки, и подсматривал её внутреннее состояние прямо во время работы. И да — за один шаг до ошибки у неё «дрожит» внутренний сигнал.
Потом подключил триггер: «просело — переделай шаг» Результат: +12.5% к точности

Операционная Система на C без знаний C

Ka463 18 июл в 11:40

Ну хз, давным давно лет 20 назад, когда я этим интересовался, я на асме писал свое ядро начиная с инициализации прерываний, управлением флоповодом, чтения секторов с дискеты, перевод процессора в 32 битный режим, инициализация ascii и т.д вот это интересно, а не взять готовое и что то там слинковать, не понимая как работает железо

У ИИ есть душа? Даём LLM характер и эмоции

Ka463 15 июл в 19:52

Интересно работает ли это ?

Потому что вижу тут проблему баланса, модель всегда будет стремиться срезать углы для достижения цели, и чем больше и длиннее будет контекст, и в нем будет больше повторений чего либо, или какого либо состояния, тем больше модель будет стремиться найти лазейку для достижения результата

Открытые LLM в продакшене: 8 выводов о llama.cpp, Gemma и Qwen

Ka463 15 июл в 16:23

Все стандартно, LM studio с gemma4 12b доступ по api, + мой код на питоне который и реализует функцию агента(можно использовать любую модельку, но лучше всего сейчас работает именно gemma4)

На счёт написания статьи, ещё рано, хочу испытать эту концепцию на разных бенчмарках, проверить реальную итоговую длину возможного непрерывного диалога с моделью, где будут смешанные темы, от написания кода до обычных философских рассуждений, насколько долго модель сможет сохранять фокус, адекватно суммаризировать, что бы не терялась нить смысла и истории общения, накопление опыта и учебы на своих же ошибках в длинных временных промежутках, будет ли прирост "ума" у модели, на сколько хорошо она сможет решать задачи которых не было в ее обучающем датасете, так же надо провести эксперементы с созданием личности, (возможно смена личности в конкретном подшаге на выполняемой задаче, когда модель выбирает вётку программиста, или рассуждений) не просто "ты программист в 100500 поколении". А к примеру как будет вести себя модель если ей сказать что она человек чье сознание было оцифровано из умирающего тела ?)))

Обычно модели при длительном диалоге, с увеличением контекста в окне, начинают игнорировать даже системный промт, а так же подхалимничать, помните знаменитый ответ в длинном диалоге " Ты совершенно прав " )))) даже если пользователь начинает нести охинею, модель вместо того что бы поправить, или не согласиться, поддакивает пользователю, даже если тот решит сброситься с крыши )))

У меня этого нет принципиально, модель не тащит за собой предыдущий контекст где она в сотый раз соглашается с пользователем тем самым модель всегда адекватна как в первый раз.

Текущий минус, это все работает медленнее обычного чата, из за кратно большего числа запросов к модели, чем сложнее задача тем больше шагов должна выполнить модель.

Плюсы, скорость и точность генерации модели практически всегда линейная, за счёт малого фиксированного окна.

Открытые LLM в продакшене: 8 выводов о llama.cpp, Gemma и Qwen

Ka463 15 июл в 14:36

Соглашусь с вами, я эксперементирую сейчас с написанием своего агента поверх локальной gemma 4 12b, режим размышления у меня заменяется суммаризацией каждого шага, диалога, и разбиением задачи на подшаги, каждый шаг это отдельное окно без полной истории, равное 8к токинов, + сумированая информация с предыдущего шага, + глобальнвя цель + ещё некоторые ухищрения, определенная в начале диалога, как оказалось в таком режиме модель идеально фокусируется на задаче, вызов инструментов проходит практически без ошибок, + самоконтроль, так же модель явно начала говорить я не знаю, а не галюцинировать и придумывать небылицы, если нет релевантной информации или задача не имеет полных данных для ее решения, потому что нет размытия фокуса мусором из предыдущих шагов, и если, включить режим рассуждения то все ломается так как модель начинает путаться в своих же рассуждениях, и это моделька 12b даже не 21 или тем более 31b

GigaChat 3.5 — меньше, быстрее, сильнее

Ka463 6 июл в 16:04

От статьи сложилось ощущение что вы гонитесь в первую очередь за скоростью чем за качеством модели

PET-скан показал рак. Claude сказал: 90%, что это ложная тревога — и оказался прав

Ka463 28 июн в 21:36

Ну хз, у меня родственник так печень потерял, послушал большинство, и пересадили печень, после пересадки выяснился что диагноз был неточный и пересадка была не нужна.

Архитектура ИИ-агента с желаниями или цифровой человек

Ka463 28 июн в 10:34

А вот про очередной RAG не согласен. RAG — это получение данных на момент запроса: пришёл вопрос, мы подтянули контекст, ответили. Здесь весь смысл обратный: агент действует без запроса. Heartbeat, накопление давления, пробуждение по порогу, слои с энергобюджетом - это про проактивный контур управления, а не про то, как достать релевантный кусок памяти. Память - это лишь одна деталь. Я в этом проекте использовал векторный и графовый поиск. Можно собрать систему вообще без RAG, и проактивность не исчезнет, а можно прикрутить идеальный RAG к чат-боту — и он останется реактивным.

Так суть от этого не поменялась, вы все равно в итоге используете для управлением LLM тот же промт и режим чат бота, внутреннее состояние LLM как было реактивным так и осталось. технически это нормально, мозг тоже работает с определенной частотой.

Если подумать технически, то можно было бы попробовать обойти проблему порога промта и без агентов и и больших моделей, так таковых, теоретически нужно построить по сути иерархический RAG, (или использовать ваш подход но слегка модифицировать в иерархию), где каждый уровень автономен и ориентирован на решение своего узкого домена в глобальной задаче,,(по сути каждый уровень это свой чат с нуля) и не тащит глобальный промт, Progressive State Summarization ,задача решается через формирование моделью итогового промта (постановкой задачи с глобальной целью) самой себе для следующего уровня, где эта же самая модель но уже с нуля читает задание самой себе переданное с предыдущего уровня, (

Это НЕ просто сжатие ("я сделал А"). Это сжатие + обновление состояния ("Я сделал А, теперь мое следующее состояние - Б").

)
и решает задачу в своем домене ответственности, передавая итоговый промт выше, ( а можно и закольцевать) тем самым мы могли бы теоретически преодолеть проблему бесконтрольного роста промта.

Архитектура ИИ-агента с желаниями или цифровой человек

Ka463 28 июн в 08:44

Первое разочарование: локальные модели

Я думаю что это не разочарование, а вы нащупали тупик текущих моделей, взяв более мощные модели вы просто перенесли этот порог выше, но не решили проблему в корне

«но ведь нечто похожее уже сделали тысячу раз, зачем вообще этим заниматься?»

верно, вы просто построили очередной RAG но с своими хотелками...

Информация

Специализация