- "Идеальная монета" — симметричный диск, без воздействия внешних факторов.
- Вероятность выпадения каждой из сторон:
P(орёл) = P(решка) = 0.5
- Здесь нет асимметрии: наблюдатель не может выделить закономерность — это чистый шум.
Теперь вносим "изменение":
- Одна сторона утяжелена.
- Вероятности становятся:
P(орёл) = 0.55, P(решка) = 0.45
Появляется "асимметрия вероятностей". Это признак: наблюдатель фиксирует устойчивое отклонение.
Интерпретация: сигнал (подбросы) стал содержать информацию о свойствах объекта (монеты).
Можно продолжить иерархию признаков:
- Признак: "одна сторона тяжелее".
- Следующий уровень: "форма деформирована" или "материал различен".
Таким образом, чистый шум — это симметрия вероятностей. Признак — статистически устойчивая асимметрия.
Мы можем анализировать любой сигнал, даже неизвестной природы, с точки зрения выделения признаков.
Признаки можно организовывать в иерархию.
Аналогично зрению: от линий → к фигурам → к объектам.
Космический сигнал может содержать признаки галактик, излучения, событий и т. д.
Это форма спектроскопии, но не по частотам, а по признаковым паттернам.
Как итог:
Признаки возникают как статистически устойчивые асимметрии.
Шум — отсутствие различий.
Иерархия позволяет формировать всё более сложные абстракции.
Модель применима к любой системе, в которой можно зафиксировать сигнал и определить вероятности состояний.
По крайне мере, этот подход рабочий. Испробовал его в нейронных сетях при обучении, добавив функции нахождения асимметрии сигнала волны по амплитуде, частоте и фазе.
10 шагов обучения
Выше с учётом ассиметрии вероятности признаков.
10 шагов трансформеры
Тут нет учёта асимметрии вероятности признаков.
Так что, описанное выше не плод моего больного воображения.
Да я сделал функции и сейчас тестирую. Скоро выложу их вместе с моделью (урезанной немного) шестислойной модели неокортекса (области из которых состоят зоны мозга), как замена трансформерам.
Выше для примера внутри так же изменённая математика SSM, с учётом гистерезиса. Что позволило SSM блокам быстро обучаться.
Трансформер 10 шагов
А выше аналогично трансформер с теми же параметрами на 10 шагах (и то немного подкатил у него residual связь на выходе, иначе ещё уже результат).
Так что выложу, там и новые функции гистерезис, их можно использовать отдельно и функции активации (чтобы модель не переобучалась) и так далее.
Трансформер без правки residual в конце
Но можно считать этот вариант классического трансформера плохим примером. Так как выше правка была в нем незначительная, на выходе был учтён ещё один residual просто. А тут трансформер на 5000 шагах обучения.
Суть гистерезиса в том, что это определение вероятности асимметрии сигнала по амплитуде, частоте и фазе. Он улавливает эти асимметрии в процессе обучения (или начальной настройке), и работает как разные нейронные клетки. Когда один тип клеток специализируется на амплитуде для выделения признаков, другой улавливает частоту для ритмов (слуховые области например), третьи фазу чтобы синхронизировать тета ритмы к примеру.
При этом нам не нужно вводить дополнительно время , как в спайках. Вероятности асимметрии в сигнале и так улавливают эти аномалии в сигнале в волне.
Выше пример обучения гамматон фильтру. Сейчас доделываю примеры для выделения речи из аудио и простой LLM на базе модели. После этого опубликую. Мне главное, чтобы человек смог понять , откуда это взялось. Не очень хочется, чтобы люди бездумно использовали модель, не понимая на чем она была построена
Речь идёт про то какие области и что делают, как делают, какие клетки за что отвечают. Как и куда идёт сигнал, в чем его роль.
В общем случае да, изучен. На конкретном примере той же саморефлексии. Вопрос в деталях, как другие области влияют, что вносят, как их функции оказывают воздействие на итоговый сигнал. Например, какой точно вносит свой вклад теменная область, или как энториальная кора , моторная и лимбическая оказывает влияние на построение грамматики предложения (в разных культурах синтагма строится по разному, так как разные зоны имеют разный приоритет при свое развитии). Но вот детали, конкретные взаимодействия и так далее будут изучаться и постоянно находить что то новое для описания процесса.
Речь идёт про общий подход. Он изучен. Как копируется информация по время сна, как происходит саморефлексия, как формируется глобальная цель через базальные ганглии и множество всего. Каждая часть очень неплохо изучена.
Я не говорю, что ясно как работает весь мозг и все детали. Речь про общие механизмы. Их на сегодня очень хорошо изучили. Это как сказать физика в целом явления движения планет понятна. Но это не значит что она полностью изучена и все ясно. Речь про базовые механизмы.
Я не просто так выше привел ссылку на схему рефлексии. Вы можете взять и проверить каждое мое слово, прежде чем делать нападки. Я специально указал на фрагмент механизма, а не весь. Этот механизм обеспечивает круговорот "мысли" (сигналов). И рассмотрен только на коротком участке для текста(слуха) и не целиком. Но по нему уже понятно в целом, как происходит формирование контекста, связь с новым сигналом и так далее, круговорот сигнала через петли и так далее.
Это не случайность. Я даже специально описывал как вызвать и управлять таким поведением специально. Думаю если посмотрите причину по ссылке, то увидите что направили прогнозирование модели по другому пути предсказания.
Там как раз важный момент, что они оценивают не только сам ответ, но объяснение своего ответа. Чтобы не было так, что дала верный абстрактный ответ.
Это снизило галлюцинации и позволило вытаскивать ответы, которые до этого было сложно вытащить из слабых LLM моделей.
Минус такого подхода, что жрет это много ресурсов. А для 10 LLM (арбитров) время одного ответа 15-30 минут. Можно конечно оставить штуки 3 разных LLM, тогда быстрее.
Я сейчас как переписал код, чтобы можно было использовать известные LLM через их вам через данный механизм. Чтобы собрать датасет для обучения архитектуры саморефлексии. Где как раз важна оценка ответа. Позже, как буду обучать, выложу его код наверное. Так как это идеальный метод обучения языковых моделей на предмет рассуждений (не важно саморефлексии или как сейчас рассуждающих).
Так что пока вручную как вы описали использую подход объяснить свое решение и указать слабые места и описать свою интерпретацию. Тогда проще увидеть, где у нее ошибки в рассуждениях.
Это пример с текстом (слухом) при саморефлексии. Сложность пока составить полную картину. Например слух и зрение изучен хорошо, что как и куда идёт и за что отвечает. Сложности пока в обобщение других зон, теменная, моторная. При этом лимбическая изучена, но сложность с воспроизведением, так как неокортекс проще изучить он на поверхности, а лимбическую поковырять сложнее (она под множеством других зон). Поэтому электроды туда сложнее вживить не повредив другие зоны.
Вы можете найти много исследований на тему рефлексии мозга, которая и формулирует мысли и петли приводящие к рассуждениям.
Пока что все эти модели тупы, когда дело касается разработки нового, а не повтора того что уже было.
Недавно делал новую модель функции гистерезиса для нейронок, чтобы при обучении они могли выделять амплитудные , фазовые и частотные признаки в сигнале (не важно, текст, картинки, классификаторы и так далее). Так все модели несли чушь. Всегда соглашается и нормально делают, только если распишешь все.
То есть серьезный код так и не могут написать. Но вот выполнить рутину, когда описал формулы, логику - да могут сконвертировать в код. И то, без понимания что это, так как допускают ошибки даже в этом случае.
Так что производительность это хорошо, но для меня главная проблема пока при их использовании это их тупость, когда решение раньше не встречалось. Несут бред полный.
Именно, последнее время от приходили и обращались три разных HR. Особенно убило: "Сходил к старшему рекрутеру, она сказала, что позиция еще формируется и будут обсуждать задачи уже на финале). Но в любом случае это не единственный проект связанный с AI, на финалах можно будет рассмотреть 3-5 команд".
Я обычно на такое перечисляю свои исследования в ML. Затем указываю, что мне предлагают пройти стандартную процедуру собеседования с задачками и далее «на месте разобраться, куда пристроить». Это может быть оправдано для джунов или разработчиков на прод, но не для исследователя с опытом R&D.
Обязательно добавляя, что не вижу у Яндекса по-настоящему фундаментальных направлений в области ИИ. Всё, что я наблюдаю — это доработка готовых решений, пусть и с отличной инженерной реализацией.
А уже вариант «пристроим в одну из команд», вообще расцениваю как оскорбление.
Яндекс не компания с нужными мозгами, а алгоритмические задачи - это не тот фильтр, который позволит ей хотя бы не отставать от современных исследований.
Вот вообще железо и бюджет не играют роли для фундаментальных исследования. Вы думаете, что DeepMind тратит миллиарды долларов на свою команду и они требуют мощного железа? Это не так. Проблема подхода. Сбер и Яндекс, как и другие крупные рос компании построены на другой методологии и модели. Я работал в крупных - это когда каждое подразделение отдельный бизнес, KPI, сроки продукта, различные скрамы Agile Kanbana. Подход найма с собеседованиями, где в итоге ты ничего не будешь использовать по тому что собеседовали (алгоритмические задачи будут иметь 0 отношения , к тому что будешь подготавливать какую нибудь разметку текстовых файлов и править JSON). Каждое подразделение считает свох расходы, конкурирует с другим за время, ресурсы, показатели, оценку. Могут одну и туже задачу реализовать по кругу, когда одна команда сделала, затем другая делает иначе - так как сверху решили, что подход устарел или надо изменить все или передали в другое подразделение или ... причин 1000.
Как вы думаете, при данном подходе есть место реальным R&D? у R&D нет сроков, нет KPI, нет сторипоинтов, более того ты даже не знаешь точно какой результат получишь и возможно он будет совсем в другой части. Поэтому ни у Яндекса, ни у Сбера, ни у МТС, ни у Mail (VK) нет на данный момент ни каких шансов. 0 шансов на фундаментальные разработки.
Деньги сжигаются там нормально. У меня не было денег, но я сумер выстроить синтез управляемой эмоциональной речи на физиологической модели вдох-выдоха https://t.me/greenruff/1819
В то время пока Сбер просрал взял и дообучал модель распознавания эмоций, я им раскладывал почему это не работает и как правильно, тоже проводят исследования: https://t.me/greenruff/1855
Каким то образом у меня нашлись ресурсы для исследования речи с нуля, что позволило найти и сравнить фазовые пространства речи разных живых организмов https://t.me/greenruff/2008 и ввести новый инструмент анализа на основе градиентов. Который показал, как речь на каждом свое уровне стремиться к минимизации энергии, что помогло в дальнейшем. Хотя мне в том же сбере и так от ML разработчиков часто слышал, биология и сетки разные вещи и зачем вообще совмещать.
Или может нужно миллионы долларов, чтобы последовательно исследовать и выстроить классическую шести слойную модель неокортекса и ее архитектуру? Что в итоге показала результат гораздо лучше чем у трансформеров https://t.me/greenruff/2180 и более того, показало что сами трансформеры являются очень упрощенным вариантов этой модели для ассоциативных зон.
Или может нужны деньги, чтобы разработать новый подход обучения вместо метода обратного распространения? https://habr.com/ru/articles/900186/comments/#comment_28165598 Который показал результаты лучше чем классический метод обратного распространения, потому что построен на нейробиологии. Я ни чего не изобрел там в плане механизмов работы мозга, а после долгих исследования сумел перенести и совместить методы обучения градиентов на основе сразу локальной и глобальной ошибки.
Сейчас я делаю модель саморефликсии и модель гистерезиса (тоже большое и важное исследование об асимметрии вероятности сигнала волны по фазе, амплитуде и частоте, которые и приводят к выделению признаков) которую даже частично описывал для амплитуды. https://t.me/greenruff/2170 Тогда еще без понимания, ее физического смысла. И этот подход даже для учета асимметрии вероятности амплитуды в сигнале, значительно улучшил обучение сетки, так как позволил быстро находить устойчивые признаки в сигнале. Я что изобрел гистерезис и мне надо было миллионы долларов на это? Или надо исследовать и постараться перенести гомеостаз и гистерезис сигнала нейронов на сетки?
Поэтому ответ нет. Это такое нелепое оправдание, фигурировать бюджетом и железом.
А включением своих мозгов тоже заблокировали санкциями и к ним сейчас усложнился доступ на территории России?
Я не верю, что OpenAi разрабатывает архитектуры сам, а не адаптирует другие. Уверен инженеры у них отличные, которые могут хорошо оптимизировать новые архитектуры, и имеют доступ к множеству данных для обучения.
Но по пока что, я не нашел ни каких данных о том как именно работает их мульти модальность. Что лично для меня наводит на мысли, что раскрытие в общем ключе такой информации может поставить под сомнение их модель развития для инвесторов, так как окажется, что инноваций нет.
DeepMind плохо умеют воплощать на основе своих исследований продукты. Я не думаю, что их вообще волнует шумиха вокруг всего это. Они как занимались исследованиями, так и занимаются. Проверяя при этом на живых клетках, пересадках и совмещении работы искусственных сетей и реальных клеток. Поэтому их не особо волнует обучение на огромных массивах, реализация продуктовых решений. В этом плане безусловно они отстают. Вопрос только в том, что если завтра компании перестанут делиться решениями и исследованиями, то что будет делать OpenAI и множество других компания. И возможен ли такой сценарий.
Если такое возникнет, то Яндекс и Сбер сразу отстанут. Сбер сейчас использует DeepSeek https://huggingface.co/ai-sage/GigaChat-20B-A3B-base/blob/main/modelling_deepseek.py , Яндекс тоже не сам писал архитектуры. Поэтому я с этой позиции смотрю на лидерство в этой области. Ни как продукта, а как наработок фундаментальных исследований, которые позволяют компании развивать нейронные сети в правильном направлении.
Преимущества этих новых трендов и технологий - в новых возможностях, инструментах.
Когда например я хотел расширить возможности на нейронках, чтобы добавить их в свою линейку RVMedia - то писать с нуля или переносить логику уже готовых решений с python был не готов. А тем более работа с CUDA.
Другой момент кроссплатформерность. Я тогда много намучился с этим. Они поздно ее отладили, когда она уже есть у всех. А мне очень не хватало этого. чтобы перенести компоненты на Android, iOS, Mac, Linux для полноценного создания мультимедийных компонентов под разные ОС. Чтобы пользователь мог быстро сделать чат или аналог TeamViewer не только под Win и Lin, но и Apple технику и мобильники.
Далее куча разных вещей вроде обращений к Redis, Kafka и другим. Они появились - но с большим опозданием. Когда компании уже во всю использовали данные технологии в Delphi их еще не было, или они были глюченные. При этом упор был на то, чтобы наплодить кучу компонентов, которые просто глючили. А под капотом был дикий ужас, заглушки, циклы вывода отрисовки без оптимизаций и так далее.
С моменту ухода из DeepMind прошло много времени, и они далеко продвинулись в том, в чем другие даже не работали. Трансформеры сами по себе это лишь небольшой кирпичик, которого не достаточно. Я не говорю про руководство, речь про команду. Если посмотреть на руководство OpenAi, Antrophic стартапов то кроме их "руководства" они больше ни чем не отличились. Их стартапы и компании больше не выдают каких-то фундаментальных изменений. (Antrophic пытается копать в эту сторону - через латентное пространство матриц внимания).
Мне кажется вы плохо понимаете, что такое модультимодальные модели на уровне нейробиологии. Синтез и речь в OpenAi не мультимодальные. То есть там в основе все та же LLM, в которую распознается речь и подается текст и синтезируется обратно - это не мультимодальность. Это что-то вроде агентов. Можно конечно в рамках PR маркетинга назвать это мультимодальностью, но и курицу можно назвать страусов. Это не изменит ничего.
и вот
мультимодальность двух зон. Посмотрите разницу https://t.me/greenruff/2146 между мультимодальностью и привычным многим агентским системам.
Совсем другой принцип и связи. И это выше работы DeepMind. Так же как и их работы по разработке модели таламуса, гиппокампа (специальные модели трансформеров), ячеек места энторинальной коры. Проверенных на мышах. Эта компания сильна не руководством, а научной командой которую мы не видим. Я могу перечислить много фундаментально важных работ, которые они проделали. Именно они реализовали мультимодальные модели, и их новые модели явно ушли далеко.
Ни чего подобного нет ни у одной компании, кроме PR, расширения датасета, измерения очков бенчмарки и функционала продукта. Это все прекрасно. Но это как Яндекс или Сбера но в более крупном масштабе, которые делают отличный продуктовый продукт.
Тот же Илья Суцкевер не выдал ничего нового, он отличный инженер, но не нейробиолог в сочетании с инженером. Те же представители совета директоров OpenAi которые были - были связаны с AI очень условно, весь их треп был вокруг "безопасности ИИ и возможных последствий". Потому что больше они ничего родить не могли, так как не являются специалистами в этой теме. Хорошие инженеры и руководители? Да, вполне. Хорошие исследователи, способные фундаментально развить модель? Нет.
Чего конкретно потребовать и как легко общается? Я говорил о двух вещах - саморефлексии и про разные контексты пользователей. На низком уровне работы LLM это происходит так. Вы отправляете текст. SYSTEM_PROMPOT: текст USER: текст ASSISTENT: текст USER: текст ... если вы сделаете USER1: текст USER2: текст ASSISTENT: текст USER2: текст ни одна LLM не может справиться.
если же вы говорите о том. что описали текстов в сообщении. Вася сказал то то, Коля сказал то то, что сказал Вася? Просто как сообщение. Это не диалог, вы просто скормили один контекст - задачу. И как только модель выделит более важный контекст - этот будет менее значимым и не будет учитываться.
Поэтому уточните, что вы имеете ввиду. Выше я многократно тестировал - сетки не справляются и быстро теряют. Иногда уже на первом сообщении, когда добавляешь трех пользователей. Когда все друг с другом здороваются.
Не может. Я в другом комментарии описывал механизм саморефлексии в мозге на примере одного типа сигнала (част деталей упустил). Это как устроена нейробиологии этого процесса в мозге (все описанное легко можно проверить , исследования и все описанное доступно и изучено). И ассоциативная память (LLM как один из видов сигнала) занимает только одну часть. Но даже LLM ещё нормально не реализованы, ни удержания нескольких контекстов, ни коррекции ошибок, ни модуляции сигнала на обобщающие участки в трансформерах, отсутствие у трансформера блока (аналога слоя 6 неокортекса), который исправляет локальные ошибки и тесно связан с рефлексией. И ещё много всего.
И это кратко описано, чтобы обеспечить минимум цепочку реализующую петли. Мозг это реализует крайне эффективно, так как механизм позволяет удержать множество контекстов, накопить временную информацию, смешивать внешние сигналы и внутренние, абстрагировать и объединять конечные сигналы от разных зон (от разных сенсорных источников сигнала) в обобщающий абстрактный, чтобы повторно запустить петлю. И ему для удержания контекста, не нужно расширять окно на миллион токенов, которые надо прогонять повторно.
Без реализации этих механизмов, ни какой саморефлексии там не будет . Хоть через агентов миллион раз гоняйте по кругу тексты.
Самый простой пример. Вы не сможете через LLM, организовать мульти диалог, когда она одновременно общается с Васей и Колей. Так как не способна удержать контекст это Вася сказал, а это Коля. Пытался раньше на LLM добиться подобного, но они это не позволяют реализовать. А человек легко, помнит и что сказал Вася и что Коля пару сообщений назад.
Delphi был хорош многообразием готовых компонентов под любую задачу как бесплатных так и платных.
Я в свое время разработал комплекте ScaleRichView и RVMedia и продавал их по миру, долго меня кормило. Но потом вышел из проекта и оставил его партнеру. Он до сих пор живёт на них, продавая со своими.
trichview.com
На них в свое время были the bat, первый Skype. Это где выводился текст. Даже служба внешней разведки Украины их покупала в 2014-2015 году (для камер видео наблюдения). Среди клиентов были и Боинг и даже администрация штата Трансильвании по-моему. Основные продажи были из Европы, затем южная Америка, реже Китай и США. СНГ не рассматриваю, так как для них была низкая цена и они почти не давали прибыль при том что стоял на втором месте по покупкам.
Но в какой то момент Delphi сильно отстал от современных трендов и технологий.
Мышление и саморефлексия в мозге на примере текста/слуха
Если хотите понять как это происходит в мозге, обращайтесь к нейробиологи.
Это обобщенная схема саморефлексии и вообще мыслительного процесса. LLM тут обозначены ассоциативные области. Трансформеры не подходят, у них не реализован слой 6 неокортекса и на вход должно подаваться два сигнала. Один внешний как сейчас, а второй внутренний от петли.
Таламус тут состоит из трёх ядер (это условное обозначение, в реальности там 40-60 ядер), но сути не меняет. В рамках только слуха /текста мы можем считать как три ядра. Одно принимает внешние сигналы (сенсорные ядра), другое внутренние (ассоциативные ядра) и одно объединяет их сигналы.
Формально: текст идёт в таламус, затем в ассоциативные области (LLM), затем в PFC которая выделяет общие признаки (в реальности туда прийдёт и от зрения и от слуха в итоге и других). Тут происходит абстрактный поиск общих признаков. Затем в зону MPFC, это обобщение этих признаков, она и отвечает за саморефлексию. От нее сигнал идёт а ACC (,это по сути predict coding но для конечных сигналов), ACC так же приходит сигнал от LLM чтобы найти конфликты и ошибки.
Затем от ACC сигнал идёт в таламус для модуляции выходного сигнала из него и подавления ошибок.
Из MPFC сигнал идёт в гиппокамп (через энториальную кору которая преобразует сигнал в нужную форму как на входе в гиппокамп и на выходе из него)
Из гиппокампа через энториальную кору сигнал повторно идёт в ассоциативные зоны (в ллм). В ллм приходят два сигнала (два входа) один от таламус и один от гиппокампа.
Ллм снова прогоняет сигнал и каждая ее область через слой 6 (в каждой области, является локальным predict Coding) сигнал идёт в ассоциативные ядро таламуса, чтобы повторно податься на вход.
Так формируется петля при мышлении.
Во время сна к примеру, ACC и сенсорное ядро таламуса подавляется и остаётся только саморефлексия. Она позволяет перенести информацию из гиппокампа в ассоциативные зоны. Бред сновидений вызван тем, что ACC подавлен и не контролирует конфликты/ошибки контекста.
Этот прекрасный механизм мозга позволяет
1) держать множество контекстов в памяти гиппокампа.
2) делать полноценную саморефлексию на каждом шаге уменьшая конфликт/ошибку в рассуждениях через ACC
3) смешивать входной сигнал и прежний контекст череп ядра и память гиппокампа.
Это только схема для слуха/текста от таламуса до петли. Подобная есть у зрения, моторной зоны и так далее. Все они ведут у PFC области и одновременно связаны со всеми блоками на каждом участке. Поэтому я показал схему только на примере текста, опустив некоторые детали для упрощения понимания.
Все остальное, не имеет ни какого отношения к нейробиологи и является абстрактными домыслами.
DeepMind явно лидер. Мне не важно что показывают бенчмарки. На них можно обучить модель, поэтому опираться на них для оценки очень субъективно. Дело в фундаментальных исследованиях, и они именно у DeepMind, а не у openai.
Я вижу как DeepMind идёт по следам нейробиологии, так как у них сильные нейробиологи, а не только инженеры. Многие ли знают про исследования по разработке аналога гиппокамп от DeepMind и сравнению обученной модели на исследованиях на крысах или те же клетки карты энторинальной коры. Даже таламус пробовали модулировать.
Их мультимодальная модель это не просто инженерное решение. Это последовательное развитие их видения нейробиологи. Они точечно развивают определенные детали в модели, именно так как это делает мозг.
Это фундаментальные исследования. А что может дать openai? Даже их отдельные голосовые и генерации картинок и текста, это разные по сути модели. Это не та мультимодальность, которая есть у DeepMind.
Поэтому не вижу смысла смотреть на цифры бенчмарки, к ним 0 доверия. Это не значит что они плохие и ничего не показывают. Они демонстрируют сложности модели. Но лично для меня лидером является фундаментальное развитие, а не попытка выехать на очках за правильный ответ, которому можно дообучить модель.
Яндекс не занимался исследованиями, когда возникает необходимость в шёпоте? Банальное, говорить тише как триггер - так себе условие.
Я когда изучал этот момент, то он достаточно сложный. Для этого у модели должно быть внутренне состояние, чего в Алисе нет.
Надо распознавать тревожность и другие моменты. Я не нашел нормальных исследований о биологической интерпретации состояния, приводящего к шёпоту. Физиологически частично есть ряд факторов связанных с гормональным уровнем и смысловым , но точного понимания нет. Так как только тревожность не ведёт к шёпоту, страх тоже не обязательно ведёт к шёпоту. Есть осознанное включение этой реакции через смысловой контекст, и неосознанное через внутренние механизмы.
Я был бы благодарен, за любые ссылки на исследования, которые раскрывают или пытаются трактовать этот механизм. Например при шёпоте энергия речи выше, чем при нормальной речи. Хотя звук тише. Так как это требует контроля голосовых связок, что отражается на оценке формант речи и тона. Что отражается на речи. Но что было триггером? Какой из набор.
Куда копать, не ясно. Что в данном случае происходит на уровне лимбической системы и неокортексе?
С плачем и смехом проще, там даже анализ показывает схожие уровни колебания и природа возникновения более изучена.
Я бы предложил вам под другим углом посмотреть на эти вероятности, как принцип выделения признаков через вероятностную асимметрию, иерархию сигналов.
Пусть у нас есть два состояния сигнала: рост и спад.
Вероятность роста: p_1, спада: p_2, при этом p_1 + p_2 = 1.
В случае симметрии (шум): p_1 = p_2 = 0.5.
В случае асимметрии: p_1<> p_2, и это статистическое отклонение трактуется как признак.
Иерархия признаков
- На каждом уровне иерархии выделяются устойчивые паттерны.
- Признак нижнего уровня зависит от природы сигнала (например, фотон, звук, гравитационная волна).
- На более высоких уровнях формируются признаки, объединяющие сигналы разных природ.
- Выделение признаков идёт от более простых (напр. линии в зрении) к более сложным (напр. лицо).
Пример. Рассмотрим простую систему: подбрасывание монеты.
- "Идеальная монета" — симметричный диск, без воздействия внешних факторов.
- Вероятность выпадения каждой из сторон:
P(орёл) = P(решка) = 0.5
- Здесь нет асимметрии: наблюдатель не может выделить закономерность — это чистый шум.
Теперь вносим "изменение":
- Одна сторона утяжелена.
- Вероятности становятся:
P(орёл) = 0.55, P(решка) = 0.45
Появляется "асимметрия вероятностей". Это признак: наблюдатель фиксирует устойчивое отклонение.
Интерпретация: сигнал (подбросы) стал содержать информацию о свойствах объекта (монеты).
Можно продолжить иерархию признаков:
- Признак: "одна сторона тяжелее".
- Следующий уровень: "форма деформирована" или "материал различен".
Таким образом, чистый шум — это симметрия вероятностей. Признак — статистически устойчивая асимметрия.
Мы можем анализировать любой сигнал, даже неизвестной природы, с точки зрения выделения признаков.
Признаки можно организовывать в иерархию.
Аналогично зрению: от линий → к фигурам → к объектам.
Космический сигнал может содержать признаки галактик, излучения, событий и т. д.
Это форма спектроскопии, но не по частотам, а по признаковым паттернам.
Как итог:
Признаки возникают как статистически устойчивые асимметрии.
Шум — отсутствие различий.
Иерархия позволяет формировать всё более сложные абстракции.
Модель применима к любой системе, в которой можно зафиксировать сигнал и определить вероятности состояний.
По крайне мере, этот подход рабочий. Испробовал его в нейронных сетях при обучении, добавив функции нахождения асимметрии сигнала волны по амплитуде, частоте и фазе.
Выше с учётом ассиметрии вероятности признаков.
Тут нет учёта асимметрии вероятности признаков.
Так что, описанное выше не плод моего больного воображения.
Да я сделал функции и сейчас тестирую. Скоро выложу их вместе с моделью (урезанной немного) шестислойной модели неокортекса (области из которых состоят зоны мозга), как замена трансформерам.
Выше для примера внутри так же изменённая математика SSM, с учётом гистерезиса. Что позволило SSM блокам быстро обучаться.
А выше аналогично трансформер с теми же параметрами на 10 шагах (и то немного подкатил у него residual связь на выходе, иначе ещё уже результат).
Так что выложу, там и новые функции гистерезис, их можно использовать отдельно и функции активации (чтобы модель не переобучалась) и так далее.
Но можно считать этот вариант классического трансформера плохим примером. Так как выше правка была в нем незначительная, на выходе был учтён ещё один residual просто. А тут трансформер на 5000 шагах обучения.
Суть гистерезиса в том, что это определение вероятности асимметрии сигнала по амплитуде, частоте и фазе. Он улавливает эти асимметрии в процессе обучения (или начальной настройке), и работает как разные нейронные клетки. Когда один тип клеток специализируется на амплитуде для выделения признаков, другой улавливает частоту для ритмов (слуховые области например), третьи фазу чтобы синхронизировать тета ритмы к примеру.
При этом нам не нужно вводить дополнительно время , как в спайках. Вероятности асимметрии в сигнале и так улавливают эти аномалии в сигнале в волне.
Выше пример обучения гамматон фильтру. Сейчас доделываю примеры для выделения речи из аудио и простой LLM на базе модели. После этого опубликую. Мне главное, чтобы человек смог понять , откуда это взялось. Не очень хочется, чтобы люди бездумно использовали модель, не понимая на чем она была построена
Речь идёт про то какие области и что делают, как делают, какие клетки за что отвечают. Как и куда идёт сигнал, в чем его роль.
В общем случае да, изучен. На конкретном примере той же саморефлексии. Вопрос в деталях, как другие области влияют, что вносят, как их функции оказывают воздействие на итоговый сигнал. Например, какой точно вносит свой вклад теменная область, или как энториальная кора , моторная и лимбическая оказывает влияние на построение грамматики предложения (в разных культурах синтагма строится по разному, так как разные зоны имеют разный приоритет при свое развитии). Но вот детали, конкретные взаимодействия и так далее будут изучаться и постоянно находить что то новое для описания процесса.
Речь идёт про общий подход. Он изучен. Как копируется информация по время сна, как происходит саморефлексия, как формируется глобальная цель через базальные ганглии и множество всего. Каждая часть очень неплохо изучена.
Я не говорю, что ясно как работает весь мозг и все детали. Речь про общие механизмы. Их на сегодня очень хорошо изучили. Это как сказать физика в целом явления движения планет понятна. Но это не значит что она полностью изучена и все ясно. Речь про базовые механизмы.
Я не просто так выше привел ссылку на схему рефлексии. Вы можете взять и проверить каждое мое слово, прежде чем делать нападки. Я специально указал на фрагмент механизма, а не весь. Этот механизм обеспечивает круговорот "мысли" (сигналов). И рассмотрен только на коротком участке для текста(слуха) и не целиком. Но по нему уже понятно в целом, как происходит формирование контекста, связь с новым сигналом и так далее, круговорот сигнала через петли и так далее.
https://t.me/greenruff/2240?single
Это не случайность. Я даже специально описывал как вызвать и управлять таким поведением специально. Думаю если посмотрите причину по ссылке, то увидите что направили прогнозирование модели по другому пути предсказания.
Я на эту тему как раз делал механизм, когда несколько разных LLM сами выступают арбитрами друг друга.
https://t.me/greenruff/1757?single
Там как раз важный момент, что они оценивают не только сам ответ, но объяснение своего ответа. Чтобы не было так, что дала верный абстрактный ответ.
Это снизило галлюцинации и позволило вытаскивать ответы, которые до этого было сложно вытащить из слабых LLM моделей.
Минус такого подхода, что жрет это много ресурсов. А для 10 LLM (арбитров) время одного ответа 15-30 минут. Можно конечно оставить штуки 3 разных LLM, тогда быстрее.
Я сейчас как переписал код, чтобы можно было использовать известные LLM через их вам через данный механизм. Чтобы собрать датасет для обучения архитектуры саморефлексии. Где как раз важна оценка ответа. Позже, как буду обучать, выложу его код наверное. Так как это идеальный метод обучения языковых моделей на предмет рассуждений (не важно саморефлексии или как сейчас рассуждающих).
Так что пока вручную как вы описали использую подход объяснить свое решение и указать слабые места и описать свою интерпретацию. Тогда проще увидеть, где у нее ошибки в рассуждениях.
Кто вам сказал, что мы не знаем как человек думает? Нейробиология изучила каждый шаг.
https://habr.com/ru/articles/901086/comments/#comment_28199078
Это пример с текстом (слухом) при саморефлексии. Сложность пока составить полную картину. Например слух и зрение изучен хорошо, что как и куда идёт и за что отвечает. Сложности пока в обобщение других зон, теменная, моторная. При этом лимбическая изучена, но сложность с воспроизведением, так как неокортекс проще изучить он на поверхности, а лимбическую поковырять сложнее (она под множеством других зон). Поэтому электроды туда сложнее вживить не повредив другие зоны.
Вы можете найти много исследований на тему рефлексии мозга, которая и формулирует мысли и петли приводящие к рассуждениям.
Пока что все эти модели тупы, когда дело касается разработки нового, а не повтора того что уже было.
Недавно делал новую модель функции гистерезиса для нейронок, чтобы при обучении они могли выделять амплитудные , фазовые и частотные признаки в сигнале (не важно, текст, картинки, классификаторы и так далее). Так все модели несли чушь. Всегда соглашается и нормально делают, только если распишешь все.
То есть серьезный код так и не могут написать. Но вот выполнить рутину, когда описал формулы, логику - да могут сконвертировать в код. И то, без понимания что это, так как допускают ошибки даже в этом случае.
Так что производительность это хорошо, но для меня главная проблема пока при их использовании это их тупость, когда решение раньше не встречалось. Несут бред полный.
Именно, последнее время от приходили и обращались три разных HR. Особенно убило: "Сходил к старшему рекрутеру, она сказала, что позиция еще формируется и будут обсуждать задачи уже на финале). Но в любом случае это не единственный проект связанный с AI, на финалах можно будет рассмотреть 3-5 команд".
Я обычно на такое перечисляю свои исследования в ML. Затем указываю, что мне предлагают пройти стандартную процедуру собеседования с задачками и далее «на месте разобраться, куда пристроить». Это может быть оправдано для джунов или разработчиков на прод, но не для исследователя с опытом R&D.
Обязательно добавляя, что не вижу у Яндекса по-настоящему фундаментальных направлений в области ИИ. Всё, что я наблюдаю — это доработка готовых решений, пусть и с отличной инженерной реализацией.
А уже вариант «пристроим в одну из команд», вообще расцениваю как оскорбление.
Яндекс не компания с нужными мозгами, а алгоритмические задачи - это не тот фильтр, который позволит ей хотя бы не отставать от современных исследований.
Вот вообще железо и бюджет не играют роли для фундаментальных исследования. Вы думаете, что DeepMind тратит миллиарды долларов на свою команду и они требуют мощного железа? Это не так. Проблема подхода. Сбер и Яндекс, как и другие крупные рос компании построены на другой методологии и модели. Я работал в крупных - это когда каждое подразделение отдельный бизнес, KPI, сроки продукта, различные скрамы Agile Kanbana. Подход найма с собеседованиями, где в итоге ты ничего не будешь использовать по тому что собеседовали (алгоритмические задачи будут иметь 0 отношения , к тому что будешь подготавливать какую нибудь разметку текстовых файлов и править JSON). Каждое подразделение считает свох расходы, конкурирует с другим за время, ресурсы, показатели, оценку. Могут одну и туже задачу реализовать по кругу, когда одна команда сделала, затем другая делает иначе - так как сверху решили, что подход устарел или надо изменить все или передали в другое подразделение или ... причин 1000.
Как вы думаете, при данном подходе есть место реальным R&D? у R&D нет сроков, нет KPI, нет сторипоинтов, более того ты даже не знаешь точно какой результат получишь и возможно он будет совсем в другой части. Поэтому ни у Яндекса, ни у Сбера, ни у МТС, ни у Mail (VK) нет на данный момент ни каких шансов. 0 шансов на фундаментальные разработки.
Деньги сжигаются там нормально. У меня не было денег, но я сумер выстроить синтез управляемой эмоциональной речи на физиологической модели вдох-выдоха https://t.me/greenruff/1819
В то время пока Сбер
просралвзял и дообучал модель распознавания эмоций, я им раскладывал почему это не работает и как правильно, тоже проводят исследования: https://t.me/greenruff/1855Каким то образом у меня нашлись ресурсы для исследования речи с нуля, что позволило найти и сравнить фазовые пространства речи разных живых организмов https://t.me/greenruff/2008 и ввести новый инструмент анализа на основе градиентов. Который показал, как речь на каждом свое уровне стремиться к минимизации энергии, что помогло в дальнейшем. Хотя мне в том же сбере и так от ML разработчиков часто слышал, биология и сетки разные вещи и зачем вообще совмещать.
Или может нужно миллионы долларов, чтобы последовательно исследовать и выстроить классическую шести слойную модель неокортекса и ее архитектуру? Что в итоге показала результат гораздо лучше чем у трансформеров https://t.me/greenruff/2180 и более того, показало что сами трансформеры являются очень упрощенным вариантов этой модели для ассоциативных зон.
Или может нужны деньги, чтобы разработать новый подход обучения вместо метода обратного распространения? https://habr.com/ru/articles/900186/comments/#comment_28165598 Который показал результаты лучше чем классический метод обратного распространения, потому что построен на нейробиологии. Я ни чего не изобрел там в плане механизмов работы мозга, а после долгих исследования сумел перенести и совместить методы обучения градиентов на основе сразу локальной и глобальной ошибки.
Сейчас я делаю модель саморефликсии и модель гистерезиса (тоже большое и важное исследование об асимметрии вероятности сигнала волны по фазе, амплитуде и частоте, которые и приводят к выделению признаков) которую даже частично описывал для амплитуды. https://t.me/greenruff/2170 Тогда еще без понимания, ее физического смысла. И этот подход даже для учета асимметрии вероятности амплитуды в сигнале, значительно улучшил обучение сетки, так как позволил быстро находить устойчивые признаки в сигнале. Я что изобрел гистерезис и мне надо было миллионы долларов на это? Или надо исследовать и постараться перенести гомеостаз и гистерезис сигнала нейронов на сетки?
Поэтому ответ нет. Это такое нелепое оправдание, фигурировать бюджетом и железом.
А включением своих мозгов тоже заблокировали санкциями и к ним сейчас усложнился доступ на территории России?
Да вы правы, прочитал и вижу что GPT‑4o действительно обучили как мультимодальную модель. Здесь предполагается что она построена на базе Flamingo от DeepMind (https://medium.com/@amol-wagh/whats-new-in-gpt-4-an-overview-of-the-gpt-4-architecture-and-capabilities-of-next-generation-ai-900c445d5ffe). Но утверждать не буду, так как openAi не описывает свою внутреннюю архитектуру.
Но другие говорят, что у них ближе к Chameleon: Mixed-Modal Early-Fusion Foundation Models. https://huggingface.co/papers/2405.09818
Ее описание тут: https://arxiv.org/pdf/2405.09818.pdf
Я не верю, что OpenAi разрабатывает архитектуры сам, а не адаптирует другие. Уверен инженеры у них отличные, которые могут хорошо оптимизировать новые архитектуры, и имеют доступ к множеству данных для обучения.
Но по пока что, я не нашел ни каких данных о том как именно работает их мульти модальность. Что лично для меня наводит на мысли, что раскрытие в общем ключе такой информации может поставить под сомнение их модель развития для инвесторов, так как окажется, что инноваций нет.
DeepMind плохо умеют воплощать на основе своих исследований продукты. Я не думаю, что их вообще волнует шумиха вокруг всего это. Они как занимались исследованиями, так и занимаются. Проверяя при этом на живых клетках, пересадках и совмещении работы искусственных сетей и реальных клеток. Поэтому их не особо волнует обучение на огромных массивах, реализация продуктовых решений. В этом плане безусловно они отстают. Вопрос только в том, что если завтра компании перестанут делиться решениями и исследованиями, то что будет делать OpenAI и множество других компания. И возможен ли такой сценарий.
Если такое возникнет, то Яндекс и Сбер сразу отстанут. Сбер сейчас использует DeepSeek https://huggingface.co/ai-sage/GigaChat-20B-A3B-base/blob/main/modelling_deepseek.py , Яндекс тоже не сам писал архитектуры. Поэтому я с этой позиции смотрю на лидерство в этой области. Ни как продукта, а как наработок фундаментальных исследований, которые позволяют компании развивать нейронные сети в правильном направлении.
Преимущества этих новых трендов и технологий - в новых возможностях, инструментах.
Когда например я хотел расширить возможности на нейронках, чтобы добавить их в свою линейку RVMedia - то писать с нуля или переносить логику уже готовых решений с python был не готов. А тем более работа с CUDA.
Другой момент кроссплатформерность. Я тогда много намучился с этим. Они поздно ее отладили, когда она уже есть у всех. А мне очень не хватало этого. чтобы перенести компоненты на Android, iOS, Mac, Linux для полноценного создания мультимедийных компонентов под разные ОС. Чтобы пользователь мог быстро сделать чат или аналог TeamViewer не только под Win и Lin, но и Apple технику и мобильники.
Далее куча разных вещей вроде обращений к Redis, Kafka и другим. Они появились - но с большим опозданием. Когда компании уже во всю использовали данные технологии в Delphi их еще не было, или они были глюченные. При этом упор был на то, чтобы наплодить кучу компонентов, которые просто глючили. А под капотом был дикий ужас, заглушки, циклы вывода отрисовки без оптимизаций и так далее.
С моменту ухода из DeepMind прошло много времени, и они далеко продвинулись в том, в чем другие даже не работали. Трансформеры сами по себе это лишь небольшой кирпичик, которого не достаточно. Я не говорю про руководство, речь про команду. Если посмотреть на руководство OpenAi, Antrophic стартапов то кроме их "руководства" они больше ни чем не отличились. Их стартапы и компании больше не выдают каких-то фундаментальных изменений. (Antrophic пытается копать в эту сторону - через латентное пространство матриц внимания).
Мне кажется вы плохо понимаете, что такое модультимодальные модели на уровне нейробиологии. Синтез и речь в OpenAi не мультимодальные. То есть там в основе все та же LLM, в которую распознается речь и подается текст и синтезируется обратно - это не мультимодальность. Это что-то вроде агентов. Можно конечно в рамках PR маркетинга назвать это мультимодальностью, но и курицу можно назвать страусов. Это не изменит ничего.
и вот
мультимодальность двух зон. Посмотрите разницу https://t.me/greenruff/2146 между мультимодальностью и привычным многим агентским системам.
Совсем другой принцип и связи. И это выше работы DeepMind. Так же как и их работы по разработке модели таламуса, гиппокампа (специальные модели трансформеров), ячеек места энторинальной коры. Проверенных на мышах. Эта компания сильна не руководством, а научной командой которую мы не видим. Я могу перечислить много фундаментально важных работ, которые они проделали. Именно они реализовали мультимодальные модели, и их новые модели явно ушли далеко.
Ни чего подобного нет ни у одной компании, кроме PR, расширения датасета, измерения очков бенчмарки и функционала продукта. Это все прекрасно. Но это как Яндекс или Сбера но в более крупном масштабе, которые делают отличный продуктовый продукт.
Тот же Илья Суцкевер не выдал ничего нового, он отличный инженер, но не нейробиолог в сочетании с инженером. Те же представители совета директоров OpenAi которые были - были связаны с AI очень условно, весь их треп был вокруг "безопасности ИИ и возможных последствий". Потому что больше они ничего родить не могли, так как не являются специалистами в этой теме. Хорошие инженеры и руководители? Да, вполне. Хорошие исследователи, способные фундаментально развить модель? Нет.
Чего конкретно потребовать и как легко общается?
Я говорил о двух вещах - саморефлексии и про разные контексты пользователей.
На низком уровне работы LLM это происходит так. Вы отправляете текст.
SYSTEM_PROMPOT: текст
USER: текст
ASSISTENT: текст
USER: текст
...
если вы сделаете
USER1: текст
USER2: текст
ASSISTENT: текст
USER2: текст
ни одна LLM не может справиться.
если же вы говорите о том. что описали текстов в сообщении. Вася сказал то то, Коля сказал то то, что сказал Вася? Просто как сообщение. Это не диалог, вы просто скормили один контекст - задачу. И как только модель выделит более важный контекст - этот будет менее значимым и не будет учитываться.
Поэтому уточните, что вы имеете ввиду. Выше я многократно тестировал - сетки не справляются и быстро теряют. Иногда уже на первом сообщении, когда добавляешь трех пользователей. Когда все друг с другом здороваются.
https://habr.com/ru/articles/901086/comments/#comment_28199078
Не может. Я в другом комментарии описывал механизм саморефлексии в мозге на примере одного типа сигнала (част деталей упустил). Это как устроена нейробиологии этого процесса в мозге (все описанное легко можно проверить , исследования и все описанное доступно и изучено). И ассоциативная память (LLM как один из видов сигнала) занимает только одну часть. Но даже LLM ещё нормально не реализованы, ни удержания нескольких контекстов, ни коррекции ошибок, ни модуляции сигнала на обобщающие участки в трансформерах, отсутствие у трансформера блока (аналога слоя 6 неокортекса), который исправляет локальные ошибки и тесно связан с рефлексией. И ещё много всего.
И это кратко описано, чтобы обеспечить минимум цепочку реализующую петли. Мозг это реализует крайне эффективно, так как механизм позволяет удержать множество контекстов, накопить временную информацию, смешивать внешние сигналы и внутренние, абстрагировать и объединять конечные сигналы от разных зон (от разных сенсорных источников сигнала) в обобщающий абстрактный, чтобы повторно запустить петлю. И ему для удержания контекста, не нужно расширять окно на миллион токенов, которые надо прогонять повторно.
Без реализации этих механизмов, ни какой саморефлексии там не будет . Хоть через агентов миллион раз гоняйте по кругу тексты.
Самый простой пример. Вы не сможете через LLM, организовать мульти диалог, когда она одновременно общается с Васей и Колей. Так как не способна удержать контекст это Вася сказал, а это Коля. Пытался раньше на LLM добиться подобного, но они это не позволяют реализовать. А человек легко, помнит и что сказал Вася и что Коля пару сообщений назад.
Delphi был хорош многообразием готовых компонентов под любую задачу как бесплатных так и платных.
Я в свое время разработал комплекте ScaleRichView и RVMedia и продавал их по миру, долго меня кормило. Но потом вышел из проекта и оставил его партнеру. Он до сих пор живёт на них, продавая со своими.
trichview.com
На них в свое время были the bat, первый Skype. Это где выводился текст. Даже служба внешней разведки Украины их покупала в 2014-2015 году (для камер видео наблюдения). Среди клиентов были и Боинг и даже администрация штата Трансильвании по-моему. Основные продажи были из Европы, затем южная Америка, реже Китай и США. СНГ не рассматриваю, так как для них была низкая цена и они почти не давали прибыль при том что стоял на втором месте по покупкам.
Но в какой то момент Delphi сильно отстал от современных трендов и технологий.
Если хотите понять как это происходит в мозге, обращайтесь к нейробиологи.
Это обобщенная схема саморефлексии и вообще мыслительного процесса. LLM тут обозначены ассоциативные области. Трансформеры не подходят, у них не реализован слой 6 неокортекса и на вход должно подаваться два сигнала. Один внешний как сейчас, а второй внутренний от петли.
Таламус тут состоит из трёх ядер (это условное обозначение, в реальности там 40-60 ядер), но сути не меняет. В рамках только слуха /текста мы можем считать как три ядра. Одно принимает внешние сигналы (сенсорные ядра), другое внутренние (ассоциативные ядра) и одно объединяет их сигналы.
Формально: текст идёт в таламус, затем в ассоциативные области (LLM), затем в PFC которая выделяет общие признаки (в реальности туда прийдёт и от зрения и от слуха в итоге и других). Тут происходит абстрактный поиск общих признаков. Затем в зону MPFC, это обобщение этих признаков, она и отвечает за саморефлексию. От нее сигнал идёт а ACC (,это по сути predict coding но для конечных сигналов), ACC так же приходит сигнал от LLM чтобы найти конфликты и ошибки.
Затем от ACC сигнал идёт в таламус для модуляции выходного сигнала из него и подавления ошибок.
Из MPFC сигнал идёт в гиппокамп (через энториальную кору которая преобразует сигнал в нужную форму как на входе в гиппокамп и на выходе из него)
Из гиппокампа через энториальную кору сигнал повторно идёт в ассоциативные зоны (в ллм). В ллм приходят два сигнала (два входа) один от таламус и один от гиппокампа.
Ллм снова прогоняет сигнал и каждая ее область через слой 6 (в каждой области, является локальным predict Coding) сигнал идёт в ассоциативные ядро таламуса, чтобы повторно податься на вход.
Так формируется петля при мышлении.
Во время сна к примеру, ACC и сенсорное ядро таламуса подавляется и остаётся только саморефлексия. Она позволяет перенести информацию из гиппокампа в ассоциативные зоны. Бред сновидений вызван тем, что ACC подавлен и не контролирует конфликты/ошибки контекста.
Этот прекрасный механизм мозга позволяет
1) держать множество контекстов в памяти гиппокампа.
2) делать полноценную саморефлексию на каждом шаге уменьшая конфликт/ошибку в рассуждениях через ACC
3) смешивать входной сигнал и прежний контекст череп ядра и память гиппокампа.
Это только схема для слуха/текста от таламуса до петли. Подобная есть у зрения, моторной зоны и так далее. Все они ведут у PFC области и одновременно связаны со всеми блоками на каждом участке. Поэтому я показал схему только на примере текста, опустив некоторые детали для упрощения понимания.
Все остальное, не имеет ни какого отношения к нейробиологи и является абстрактными домыслами.
И да, это называется Реэнтрантные петли
DeepMind явно лидер. Мне не важно что показывают бенчмарки. На них можно обучить модель, поэтому опираться на них для оценки очень субъективно. Дело в фундаментальных исследованиях, и они именно у DeepMind, а не у openai.
Я вижу как DeepMind идёт по следам нейробиологии, так как у них сильные нейробиологи, а не только инженеры. Многие ли знают про исследования по разработке аналога гиппокамп от DeepMind и сравнению обученной модели на исследованиях на крысах или те же клетки карты энторинальной коры. Даже таламус пробовали модулировать.
Их мультимодальная модель это не просто инженерное решение. Это последовательное развитие их видения нейробиологи. Они точечно развивают определенные детали в модели, именно так как это делает мозг.
Это фундаментальные исследования. А что может дать openai? Даже их отдельные голосовые и генерации картинок и текста, это разные по сути модели. Это не та мультимодальность, которая есть у DeepMind.
Поэтому не вижу смысла смотреть на цифры бенчмарки, к ним 0 доверия. Это не значит что они плохие и ничего не показывают. Они демонстрируют сложности модели. Но лично для меня лидером является фундаментальное развитие, а не попытка выехать на очках за правильный ответ, которому можно дообучить модель.
Яндекс не занимался исследованиями, когда возникает необходимость в шёпоте? Банальное, говорить тише как триггер - так себе условие.
Я когда изучал этот момент, то он достаточно сложный. Для этого у модели должно быть внутренне состояние, чего в Алисе нет.
Надо распознавать тревожность и другие моменты. Я не нашел нормальных исследований о биологической интерпретации состояния, приводящего к шёпоту. Физиологически частично есть ряд факторов связанных с гормональным уровнем и смысловым , но точного понимания нет. Так как только тревожность не ведёт к шёпоту, страх тоже не обязательно ведёт к шёпоту. Есть осознанное включение этой реакции через смысловой контекст, и неосознанное через внутренние механизмы.
Я был бы благодарен, за любые ссылки на исследования, которые раскрывают или пытаются трактовать этот механизм. Например при шёпоте энергия речи выше, чем при нормальной речи. Хотя звук тише. Так как это требует контроля голосовых связок, что отражается на оценке формант речи и тона. Что отражается на речи. Но что было триггером? Какой из набор.
Куда копать, не ясно. Что в данном случае происходит на уровне лимбической системы и неокортексе?
С плачем и смехом проще, там даже анализ показывает схожие уровни колебания и природа возникновения более изучена.
Интеллектуальные можно убрать из заголовка. Как было ранее в GigaChat низкое качество ответов, так и осталось в версии Max 2.
как не справлялась раньше с данным вопросом, так и сейчас не справляется.
Далее показываем ей, что не правильно.
Далее она выдает опять кучу выводы и говорит, что да вот так правильно.
Она выдает почти такой же ответ на GigaChat Max 2, какой был на GigaChat раньше. Только тогда не было кучи мусорных рассуждений.
Пока что у вас очень слабая модель. Какого то прогресса, кроме добавления мусорных рассуждений я пока не увидел.
Прошу прощение, увлекся. Саморефлексия она такая 😁. Забываешь, что это не блокнот, а Хабр.