Search
Write a publication
Pull to refresh
53
0.4
Илья @proxy3d

нейробиология, нейронные сети, AR/VR

Send message

У вас он не теряет контекст? у меня он теряет контекст уже последних сообщений и суммирует только последнее, игнорируя вклад прежних (часто такое замечаю) у Gpt 5 Thinking и Gpt 5 Thinking-mini. При чем делает это рандомно, то захватывает (вроде), но чаще нет. Хуже еще то, что он порой игнорирует последнее сообщение и словно продолжает мысль предпоследнего (пока не понял как с этим бороться).
У меня получается каждый раз рандомный результат по качеству. Без Thinking вообще выдает ерунду полную, типа да это теорема без нормальных разборов доказательства, но иногда разбирает. Получается какая-то рулетка.

И еще, появились орфографические опечатки в словах, чего раньше не наблюдалось. И сокращения слов в перемешку с английскими словами.

Не знаю, мне не везёт на задачах или gpt-5 как комплекс заточен под житейские вопросы вроде как мне жить и в какой фазе луны воздействие Меркурия положительно скажется на финансах. В моих задачах gpt-5 на всех режимах (включая рассуждающие) превратился в какое-то дно. Стараюсь все реже его использовать теперь.

Это только у меня так (много математических задач, проверок теорем, нестандартные задачи для кода)? Или у кого то он тоже на задачах сильно просел? Приходится использовать deepseek, Gemini, qwen. (Grok 4 тоже делает то херово то средне).

У кого другая статистика, где у кого-то gpt-5 и grok показали наоборот более качественные результаты?

Я подозреваю, что это НИИ который вход в концерн роснано (или как написано Ростех). Если я прав, то это технология была разработана ещё в советское время (не знаю дорабатывали ли ее потом). Она основана на цианакрилатной основе с разными основами уф и другие. Когда искал пленку для проекта тянущиеся электроники, то общался с ними много раз. Они даже тех описание присылали. Они производили это для военки, чтобы изолировать плата от внешнего воздействия (например пленкой покрывается плата, чтобы быть защищённой). Но из-за их пофигизма образцы так и не получил, морозились то праздники, то отпуска, то болеют. Там была пожилая женщина, которой было фиолетово на все. Мне пленка была нужна как подложка. Но делают они не только в виде пленки. В итоге быстрее было договориться с китайцами и получить от них.

Так что как я понимаю, это Владикавказского НИИ (если я правильно написал по памяти), помню что с Кавказа чему очень тогда удивился. Но в РФ данным производством занимались именно они.

Хотя конечно может быть других, но пообщавшись со всеми НИИ в РФ насчёт клеев и плёнок, других нет.

Где здесь промпт вообще? промпт подается отдельно в начале и пишется, что вам нужно как раньше. А это микродиалоги, обычные диалоги, которые вставляются между вашими диалогами с моделью, с той лишь разницей, что они не видны вам (программно отсекаются). Их задача направить путь предсказание по другому маршруту.

Судить по скриншоту, когда по ссылке было описано более полно, были приложены примеры и был сделан разбор. И при этом делать выводы. Вы явно не понимаете, как работает усложнение предсказания вероятностей, не важно буквы, слогов, или математических вопросов.

Какая токенизация? Там написано выше, фразы тексты и так далее. токенизатор тоже указан. Даже детский лепет это не слоги, это слова. Вы вообще не поняли смысла того, что написано выше.

Бесплатные версии у ChatGPT сейчас сильно скатились вниз по качеству, рассуждающие и обычные. Либо просто у меня совершенно не справляются с проверкой готового решения математических задач. И заметно сильно уступает в этом Qwen.

Платная версия ChatGPT сейчас сильно отличается по качеству от бесплатной для рассуждений и без? Режим исследования не в счёт, хотя к нему тоже очень много вопросов. Хочется понять, есть ли смысл от платной подписки или качество будет таким же низким для математических задач.

Промпт вставляется в начале текста, за ним идут все диалоги. Поэтому это и называется промпт.
Микро-диалоги это не промпт. Это именно "фиктивные диалоги", которые вставляются между старым сообщениями и новым сообщением. Так как промпт быстро перестает оказывать влияние на диалог, когда диалог (текст) начинает расти.

Там же приведена ссылка https://t.me/greenruff/2232, на которой показана схема и больше описания. В комментариях там специально все разжёвано. Чтобы не дублировать сюда в комментарии все схемы и не захламлять их.

Микро диалоги вставляются на каждом шаге и не видны пользователю, но видны модели. Это подобно микро-рассуждениям модели, задача которых перенаправить маршрут предсказания токенов.

Кратко: миркодиалоги вставляются (добавляются к основному диалогу) каждый раз перед новым сообщением пользователя. Чтобы направить ответ генерации токенов модели по нужному нам маршруту.

Нет. Специально даже написано, что промпт в таких случаях практически бесполезен

Собственно они привели пример, который следовал и так из трактования прогнозирования маршрутов предсказания токенов.

Это можно обойти иначе https://t.me/greenruff/2232

если направить LLM по нужному нам маршруту предсказания в "реальном времени" (промпт тут малополезен). Там уже можно хоть психолога делать. который ни когда не грубит или маньяка для игровой ситуации. Я использовал данный подход для создания характеров разных персонажей.

Справедливости ради, надо отметить что Loss (другие метрики тоже опираются на стандартные методы минимизации ошибки) не всегда точно отражает качество.

Выше пример. Начало обучения, как видно во втором случае Loss для обучения и на тесте выше, но качество связей гораздо лучшем, чем в первом примере. Причина в том, что Loss и другие метрики не отражают структурные показатели. Например в примере выше, первая модель за счет того, что уловила частые символы и использует их имеет более низкий Loss. Вторая же, уже начала улавливать структуру и там цена ошибки выше (случайный токен "в", "и" приведет к меньшей ошибке, чем токены случайного слова "в Европе"). Так как Loss не может оценить связи, грамматику, семантику и другие верхне-уровневые ошибки.

Поэтому данные бенчмарки, особенно при маленьких отличиях от других моделей, не могут быть корректным показателем. Хотя других у пока тоже не знаю. Это не значит, что они бесполезны, просто надо держать в голове, что они могут не полностью отражать глобальную оценку.

кол-во эпох тут не показатель, так как верхняя часть училась на статьях википедии, а нижняя сначала на специальных данных (которые все поместятся по кол-ву токенов в 2-5 статей википедия) и лишь в конце 100 статей вики. Поэтому во втором случае пример может быть условно "ляля" 91-2 токена), а в первом случае это статья из википедии (много много токенов).
кол-во эпох тут не показатель, так как верхняя часть училась на статьях википедии, а нижняя сначала на специальных данных (которые все поместятся по кол-ву токенов в 2-5 статей википедия) и лишь в конце 100 статей вики. Поэтому во втором случае пример может быть условно "ляля" 91-2 токена), а в первом случае это статья из википедии (много много токенов).

На самом деле важно структурное обучение. Как его оценить? я пока вижу только один критерий, оценивать каждый блок архитектуры и сравнивать их ошибки между собой. Но тут проблема в том, что размеры архитектур у всех разные, сколько внутри блоков. И ни кто не будет раскрывать свои особенности архитектуры.

Тут можно проверить и убедиться, в описанном выше https://t.me/greenruff/2457 и там есть исходники и данные для проверки выше сказанного.

Смысл был в том, что необходимо при обучении постепенно изменять энтропию данных и сложность архитектуры, чтобы она не улавливала шум и мы впустую не тратили время на обучение, того что модель уловить еще не может из-за отсутствия связей на более низких уровнях признаков.

Сейчас как раз пробую автоматизировать этот процесс, чтобы сначала собранные данные были ранжированы правильно для обучения от простых к сложным (по уровню их энтропии) и затем постепенно уже обучаем от простых к сложным. Что-то вроде как учатся дети, когда сначала усваивают простые признаки (буквы, слоги), затем связывают эти признаки в новые слова и так далее. Энтропия, если адаптировать это понятие под речь, связана с расходом энергии на артикуляцию разных звуков и их сочетаний и дальше уже слов, синтагм, предложений и так далее.

Там выложен пример начала обучения LLM с исходниками и данными, чтобы можно было убедится и повторить.

Только недавно сделал пример, как текущее обучение любых моделей это зло. Тут есть исходники примера, где можно самостоятельно убедиться в этом:

https://t.me/greenruff/2457

Проблема в том, что есть устоявшееся мнение, что чем больше данных дадим при обучении, тем лучше модель обобщит и поймет. Это в корне неверно. Более того. это с большой вероятностью приведет к артефактам и проблемам у самой модели (вроде 6 пальцев, искажения в синтезе речи или каких-то проблем генерации в LLM).

На самом деле, намного важнее постепенное увеличение энтропии данных. Если это совместить с постепенным расширением модели, то можно сократить время обучения от 100 до десятков тысяч раз, при этом существенно увеличив качество обучения.

Выше пример был сделан, как следствие доказанных теорем (готовлю к публикации).

Я к тому, что сейчас "гиговаты потраченной энергии" просто сжигаются в пустую из-за отсутствия понимания и устоявшихся ошибочных выводах, как минимум об обучении.

Хотя Sapient Intelligence подаётся как настоящий прорыв с громкими заявлениями о «мозг-вдохновлённой архитектуре», способной «настоящему мышлению» и превосходящей гигантские LLM при крошечных 27 миллионах параметров. При изучении исходников - оказывается агрессивным "маркетингом".

На самом деле речь идёт не о фундаментально новой биологической модели мозга, а о инженерном объединении уже существующих решений. Название HRM (Hierarchical Reasoning Model), сравнение с «System 1 и System 2», и упоминание миллиардов лет эволюции - это лапша.

Если отбросить маркетинг, то тем не менее, там действительно интересная и умная работа. Они построили компактную модель на основе трансформеров, организованных в иерархическую, многократную структуру с двумя уровнями обработки (H и L), где внутренние циклы имитируют процесс пошагового уточнения решения.

Главная особенность в интеграции механизма Adaptive Computation Time (ACT) с обучением политики остановки через Q-learning, вдохновлённое алгоритмом PQN: модель сама решает, сколько «шагов мышления» ей нужно, при этом обучаясь стабильно без replay buffer и target networks, за счёт параллельных сред и регуляризации. Если проще, то она сначала прогоняет через себя несколько раз сигнал без градиентов, и потом в конце с градиентами.

Со слов авторов это позволило достичь высокой эффективности на задачах вроде ARC-AGI и Sudoku при минимальных данных и параметрах. Но эти задачи - это не тоже самое, что современные LLM и сравнение их выглядит совершенно не корректным.

То есть, настоящий вклад не в биологическую правдоподобность, а в хорошей реализации адаптивного внутреннего рассуждения внутри нейросетевой архитектуры, что действительно связано с системами глубокого обобщения без масштабирования.

Что они сделали:

  1. Взяли ACT — механизм адаптивного времени. Это не CoT, это динамическая глубина рассуждений: модель сама решает, сколько раз "подумать". обернута в класс HierarchicalReasoningModel_ACTV1.

  2. Добавили иерархические уровни (H/L) для "планирования". Гоняет их не пока "модель думает, пока не поймёт", а "модель делает 3×5 шагов и останавливается", но вот внешний ACT уровень уже решает, сколько таких "блоков" запустить.

  3. Использовали онлайн Q-learning без replay как в PQN. Они обучают политику остановки через Q-learning, как в PQN https://arxiv.org/abs/2407.04811

    В коде q_halt и q_continue это оценки "ценности" - "остановиться или продолжить"

    Целевое значение Q строится онлайн, из следующего шага

  4. Применили к сложным логическим задачам

  5. Показали, что маленькая модель может "думать"

В целом, всё построено на известных компонентах:

  • Трансформеры не новы

  • ACT 2016 год

  • Q-learning без target network из PQN (2024)

  • RoPE, RMSNorm, SwiGLU

Но вот интеграция этих элементов очень умная:

  • ACT управляет глубиной

  • H/L циклы обеспечивают внутреннее рассуждение

  • Q-learning обучает остановку

  • Puzzle ID помогает обобщению

Так что про мозг это явно метафора, а не реализация

  • Тут нет нейроморфной динамики

  • нет spiking, predictive coding, oscillations

"Без CoT, без pre-training" правда, но опять за тонной бушлита, так как речь идет про специфичные задачи в рамках особой архитектуры

  • Да, без CoT-супервизии

  • Но не "без обучения" обучалась на 1000 примерах

  • И они не "первые" другие модели (например, AlphaGeometry) тоже решают задачи без CoT

"Превосходит LLM" - зависит от задачи

  • На ARC, Sudoku, Maze - да, LLM проваливаются

  • На диалогах, генерации, commonsense reasoning - HRM, скорее всего, вообще не работает

Короче, это специализированная модель, а не универсальный LLM.

Вот такой разбор надо было сделать. А то потом приходится лезть и смотреть, что маркетинг, что правда, где нет. Больше часа пришлось потратить на это.

Надо посмотреть, что толком они сделали. Посмотрел их код https://github.com/sapientinc/HRM/tree/main/models

по сути просто разделение на две цепочки с блоками трансформера H_level и L_level, где "волны" это разные "rope", все отличие в дополнительном прогоне:

# Forward iterations with torch.no_grad(): z_H, z_L = carry.z_H, carry.z_L for Hstep in range(self.config.H_cycles): for Lstep in range(self.config.L_cycles): if not ((_H_step == self.config.H_cycles - 1) and (_L_step == self.config.L_cycles - 1)): z_L = self.L_level(z_L, z_H + input_embeddings, seq_info) if not (_H_step == self.config.H_cycles - 1): z_H = self.H_level(z_H, z_L, seq_info)

который накладывается на эмбендингы, которые входят уже в блоки. По сути пытаются сделать модуляцию между двумя видами блоков. Надо смотреть и разбирать. Но что-то новое.

Обучаются. birdbot опенсорус проект от Max Planck Institute.

https://techxplore.com/news/2022-03-birdbot-energy-efficient-nature.html

Там как раз все обучение хождению сводится к тому, что робот учится по видео собственного хождения с камеры и за счет этого улучшает. Так что вероятно многие обучаются по видео с камеры. Разницы по своему видео или произвольному не принципиально.

Ранее уже на Habr указывал про них. Это более развитая модель SSM

Статья про них: https://openreview.net/pdf?id=GRMfXcAAFhи
GitHub
https://github.com/tk-rusch/linoss/tree/main
По классу у них разделение:
S5 : Как пружина, которая быстро затухает.

LinOSS-IM : Как маятник, который колеблется, но со временем останавливается.

LinOSS-IMEX : Как маятник без трения — колебания продолжаются бесконечно.

Насчет шума, то есть два решения. Либо как в Mamba добавить свертку вначале. Либо обернуть это в петлю гистерезис.

"Гомеостазом" тут называю гистерезис, так как описывал аналогию с биологией. 1) target 2) без гистерезис 3) с гистерезис
"Гомеостазом" тут называю гистерезис, так как описывал аналогию с биологией. 1) target 2) без гистерезис 3) с гистерезис

Здесь писал про гистерезис. https://t.me/greenruff/2170

Видно, что гистерезис помогает избавиться от шума. Я ввел это понятие вместо residual связей.

Там раздел в PDF есть в конце про гистерезис. Но документ в целом надо переделывать. Но про сам гистерезис там верно.
https://t.me/c/1238949244/7769

Сейчас я его изменил, но в изменения носят другой характер, связанный с предварительным преобразованием сигнала. Так что можно использовать этот, его результат выше на картинке для гамматон фильтров (обучение аудио фильтрам - аналогом слуха).

Гистерезис почти сразу подавляет шум. Его смысл заключается в том, что устойчивые сигналы проявление устойчивой асимметрии вероятности. То есть, если есть полезный сигнал, значит вероятности вмещаются относительно например 50/50. А значит, к примеру в какую-то сторону будет перекос. Следовательно, это можно уловить за счет ввода разной скорости роста и спада амплитудной, или частотной или фазовой. Выше как раз амплитудная. Шум в этом случае сразу подавляется, так как скорость спада у него больше, скорости роста. Оба параметра обучаемые.

Не понял только, почему нельзя использовать сетки? Это идеальная задача для Linoss-im (модификация SSM). Она улавливает и сезонности и затухания и все остальное. Идеально ложится на описание выше. Добавив в начале свёртки как в mamba, получим дополнительную очистку от шума.

Вы буквально расписываете модели алгоритм действия. Вы понимаете что речь идет про обобщение? Для улавливания этого модель должна обобщать данные и выделять нужный контекст? Вы же буквально опишите модели "формулу" по которой нужно рассчитать.

Еще раз, для наглядности Qwen последний:

Сейчас утро. Сегодня в конце дня 123000 бананов. Завтра у меня 1234545 бананов. Вчера было 4343433. Год назад я съел 343433 банана. Затем на прошлой недели купил 120 бананов. Сколько бананов у меня сегодня утром?

У модели явно нет связи со шкалой при обобщении. То что вы показываете, это называется алгоритм, где мы можем убрать слово время и заменить его на значение X1, X2... в описанном тексте.

1
23 ...

Information

Rating
3,838-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity