Обновить

Комментарии 6

Забавно. Выучиваемые операторы. Объединяя с VSA/Gumbel-Softmax, и как-то выполняя композицию операторов, можно перенести сами операторы к данным на семантический граф, или наоборот попробовать разложить готовую модель. А ещё делать операторы над операторами в формате реализации абстрактной математики. Но масштабировать непросто. Для условных операторов можно делать по аналогии с маскированием TabNet, учить дифференцируемое дерево решений. Может в формате КС-грамматики композицию можно описать? Начинает напоминать выучиваемый Wolfram language или детерминированный Neural Program Synthesis

Да, напрашивается движение в эту сторону. Но мне интересна генерализация инвариантов, а вот тут пока непонятно как подступиться, только гипотезы.

Код через Qwen прогоняли? Он любит вставлять эмодзи в print...

Думаю, проще и надёжнее - научить сеть находить места, где нужно посчитать и заставить писать скрипт на питоне и выдавать результат. Если усложнять, вероятность ошибок растёт.

Можно и так. Но принципиальная разница в том, что это сделано на микросети, а не триллионной LLM. Ну и ещё несколько категорических отличий в этом подходе

Код делали Клод и Гемини. Да оба любят эмодзи. А я уже после трёхсотой итерации корректировки гипотезы и кода на это забил.

Linear -> ReLU -> Linear -> Linear

надеюсь, это просто опечатка

Неточность, да. Стандартный MLP (3 слоя, 2 ReLU, выход — сырые logits)

Последний слой без ReLu - конструктивная особенность.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации