Pull to refresh
53
0.2
Илья @proxy3d

нейробиология, нейронные сети, AR/VR

Send message

Тут все равно есть проблема, в том что в используется температурах.

В трансформерах температура и стохастический выбор частично заменяют top-down модуляцию слоя 5, но не эквивалентны ей.

Приведем пример, где в биологической модели разные зоны (зрение, моторика, слух) модулируют сигнал слоя 5. В трансформере же только температурный порог и случайность влияют на выход, что приближённо, но не точно отражает такой процесс.

FFN в трансформерах обобщает признаки, как слой 5. Но в слое 5 есть модуляция top-down. В трансформере ее нет. Формально, температура задаёт диапазон вероятных признаков из FFN из которых модель может выбрать. Случайная компонента выбирает один из признаков, который попал в этот диапазон. Это не прямой эквивалент top-down модуляции, а скорее его альтернатива, где из наиболее вероятных обобщенных признаков выбирается один.

Для понимания, представим, что на слой 5 с разным весом на сигнал влияли бы зрение, моторика, слух. В итоге мы отбросили часть менее вероятных, которые оказали меньшее влияние. Например, зрение оказало влияние 0.5, моторика 0.3, слух 0.1. Мы задали диапазон (аналогично температуре на уровне 0.2) и откинули слух. А затем случайно выбрали модуляцию между зрением или моторикой (хотя моторика оказывает меньшее влияние на сигнал). И теперь на выходе у нас признак не с усилением зрения, а моторики. И вместо выбора слова "вижу", мы выбираем слово "иду". Это косвенная связь, чтобы провести аналогию с искусственным инженерным решением при отсутствии top-down модуляции слоя 5. Хотя механизмы безусловно разные. Поэтому выбор не учитывает контекста.

Этим легко управлять. Я использовал данный подход как часть эмоциональной модели. Со статическим характером.

https://t.me/greenruff/2240?single

Это небольшая часть. Полностью, там ещё небольшая сеть (упрощённый прототип амигдалы), которая учитывает ещё

  • Голос ответа пользователя

  • Контекст пользователя (текст)

  • Контекст ответа модели (текст)

  • Заданный статический характер

В дополнение делал регулировку архитектуры на уровне сигнал/шум. Аналог норадреналина - уменьшает разницу отношения, серотонина - изменяет контрастность сигнала. Это лучше, чем просто случайно полагаться на температуру, так как создаёт понимание поведения модели и ответов.

Вы по-моему смешали три понятия:

  • Галлюцинации

  • Бред

  • Проблемы конфликтов блоков, из за того что при обучении не учитывает разница влияния глобальной ошибки при классическом методе обратного распространения

Все три пункта по разному проявляются , хоть могут быть схожи. Но будет интересно почитать, в чем вы видите причину.

Одна из главных проблем галлюцинаций , как была температура, так и осталась. Но она не единственная причина конечно. Их несколько, и люди часто путают, считая все три проявление галлюцинациями и одним и тем же.

https://t.me/greenruff/2230?single

На примере неокортекса, в тех же ассоциативных зонах, возникают такие же проблемы.

Например, отсутствие обратной связи внутри блока (аналог 6 слоя неокортекса), а так же отсутствие полноценной модуляции слоя 5 (в трансформерах эту роль играет FFN), который должен выбирать итоговое усиление сигнала (внимание) исходя из внешнего контекста (зрение, моторные зоны и другие) приводят к галлюцинации.

Нехватка связей в FFN, аналог нехватка связей в своей 5 неокортекса (малая плотность нейронов, например деменция или не сформировались у ребенка ещё) приводит к бреду или словесной окрошке.

Отсутствие чувствительности блоков у глобальной ошибке и отсутствие учёта локальной ошибки приводит к конфликту блоков. Когда в целом глобальная ошибка выдала уменьшение, но в реальности блок 1 наоборот хуже справил, а остальные верно. Это приводит к тому, что в блоке 1 ошибка будет нарастать и это приводит к накоплению противоречий. Локальная ошибка, как раз корректирует эту проблему. А так же разделение обучения не классическим методом обратного распространения, а обучения глобальной ошибке индивидуально каждого блока. При правильном механизме, эта проблема исчезает. https://t.me/greenruff/2257

Тут выкладывал примеры backward, там новый метод обучения с правильным учётом глобальной ошибки и учётом локальной ошибки. Они превосходят классический метод обратного распространения ошибки.

Через промпт, вы можете лишь перенаправить предсказание токенов по другому маршруту. Связанному с определенным паттерном.

https://t.me/greenruff/2240?single

Но, интересно почитать, что вы получили. И как трактуете. Возможно, я не правильно вас понял, поэтому с удовольствием почитаю вашу статью.

Вот про SSM не понял. В статье написано, что они плохо обучаются - это так. Но выше это та же SSM, только измененная немного.  LinOSS так и расшифровывается Linear Oscillatory State-Space models.

Вообще хорошо бы прилагать ссылку на саму работы https://openreview.net/pdf?id=GRMfXcAAFh
и на GitHub чтобы не искать: https://github.com/tk-rusch/linoss/tree/main

Если я правильно понимаю, то в оригинальной SSM матрица состояния инициализируется методов типа HiPPO. Где ее значения вещественные и отрицательные.

А вот у Oscillatory SSM матрица состояния A — это комплексные числа с ненулевой мнимой частью. Это позволяет модели генерировать осцилляции (например, синусоиды). Амплитуда осцилляций контролируется вещественной частью, а частота — мнимой частью.

В частности приводится пример, на задаче PPG-DaLiA (предсказание пульса по данным с датчиков) LinOSS-IM показал MSE = 6.4×10⁻² , что в 2 раза лучше Mamba и LRU. Это связано с тем, что пульс человека — периодический сигнал , который LinOSS эффективно моделирует.

Собственно у них там 3-и доработки (модели):

S5 : Как пружина, которая быстро затухает.

LinOSS-IM : Как маятник, который колеблется, но со временем останавливается.

LinOSS-IMEX : Как маятник без трения — колебания продолжаются бесконечно.

Вот на LLM было бы интересно проверить, так как у текста тоже должна быть периодичность (на основе дыхательных циклов).

управление поведением модели
управление поведением модели

Показывал и писал об этом

https://t.me/greenruff/2240?single

Разработал данный подход, где то 1,5-2 года назад. Но только недавно подробно объяснил, что за ним стоит.

Видимо тоже надо написать статью, а то ещё долго будут доходить до этого. Видимо без публикации на площадках, это так и останется локальным исследованием.

По-сути рассуждения, направления ответов и другие механизмы, перенаправляют прогнозирование модели на каждом шаге. Так как рассуждения так же построена на дополнениях ответов, с учётом накопленных данных. Формально их можно считать микродиалогами

С каких пор машинное обучение стало называться ИИ? И чем так плоха формулировка ML? То что перечислено, это именно машинное обучение, где модель учиться по входным данным находить/выделять признаки.

Просто вы написали, что ML инженер, но при этом называете это ИИ. Плохо вяжется это.

Вы серьезно это написали про промпт? Вы понимаете, как вообще промпт оказывает влияние на предсказание токенов и что, чем дальше текст от начала (текста промпта), тем меньше влияния он будет оказывать? А так же, если мы вы распишите в нем 100 деталей, то он возьмет самые "весомые" и будет искать связи с ними.

Garbage in, garbage out - вы серьезно? Что вы черт возьми такое пишете? В жизни вы будете смотреть код, где будет множество таких комментариев. И если вы не смотрите логику кода, то вы точно занимаетесь программированием?

Возможно дело в задачах. Я вполне допускаю, что у вас очень простые задачи. Сетки хорошо справляются накидать структуру, построить график, всякие простые обработчики в том же JS или накидать первичный код.

Когда я говорю про "тупость", то речь идет про разрыв между хвалебными опусами в статьях и реальностью. Поэтому мне всегда интересно, что за примитивный код должен писать разработчик, хвалебных статьей и комментариев.

Я всегда говорил, что LLM это инструмент, но очень ограниченный, хотя и очень полезный. Он может сделать простые рутинные вещи. Но разработка это прежде всего решение задач, а не написание кода.

https://t.me/greenruff/1872

Нельзя, тут к примеру тревожность. Вот это мы можем определить по аудио паттерну https://t.me/greenruff/1895

Вы можете определить базовое восприятие, которое ближе к рефлексам https://t.me/greenruff/1851 и связано с биологией строения слухового аппарата. Но ни о каком страхе, радости и так далее нет. Доминирование? Да, но это не является когнитивной эмоцией. Тревожность? Да. Волнение/активность/возбуждение? Да.. но это не являет когнитивной эмоцией, а своего рода прото-эмоцией. Базовые восприятия, которые помогали и помогают выживать. Которые построены на биологических особенностях (размеры тела, приводящие к размеру голосового тракта и следовательно к возникновению механизма реагирования на низкие звуки при оценке размеров особи для выживания).

https://t.me/greenruff/1847

Здесь я делал исследование, на анализ аудио паттернов речи. Множество эмоций имеет одинаковые. Более того, некоторые имеют разные паттерны в разных контекстах. Поэтому привычные нам когнитивные эмоции так распознать нельзя.

https://t.me/greenruff/1855

https://t.me/greenruff/1852

Я не просто так показал, на примере самого же Сбера что это не работает. С таким же успехом можно бросать монетку. Это просто работает иначе.

https://t.me/greenruff/1924

Выше к примеру описано как звуковые паттерны влияют на когнитивное восприятие эмоций.

https://t.me/greenruff/2059

Тут исследование пауз речи, которое объясняет почему нельзя распознать по звуковых паттернам когнитивные эмоции, которые зависят от смысла

У них вообще беда с моделями. Они продают сервис оценки эмоций (4е эмоции) обученные на данных Душа (по-моему так назывался). Но это не работает, потому что там совсем не то, что должно быть. Нельзя только по звуку определить те эмоции. Так как они зависят от смыслового контекста + аудио паттернов, а не только от звука (аудио речи).

Я им в бывшем комьюнити сбера об этом писал и разбирал и показывал на их же синтезе как пример.

https://t.me/greenruff/1857?single

Я взял синтезировал два их аудио. Выровнял их тон и форманты обрезал (звонкие звуки). Затем наложил одинаковые шаблоны на речь. Затем поместил их в разные контексты (реальную речь и внешние звуки). У речи одинаковый шаблон наложен звуковой, разный только смысл (контекст). Так вот мозг сам достраивает соответствие контексту, где в одном случае один и тот же шаблон речи будет восприниматься либо как страх в голосе либо как радость.

Я впервые столкнулся с этим, когда анализировал эмоции в речи. И оказалось что многие противоположенных эмоции в плане звуковых шаблонов одинаковые. Для меня это было откровением и неожиданностью. Тесты показали, что мозг опирается на смысловой контекст + базовые прото-эмоции в звуке. Прото-эмоции это не страх, радость и другие - это тревожность, волнение и другие базовые. И при анализе мозг уже выстраивает общую картину об эмоции на основе этих двух факторов: базы в звуке и смысла в контексте. Но только по голосу ни какого страха определить нельзя. Достаточно взять речь на неизвестном языке (например я не знаю итальянский) и нельзя точно понять ругаются там или с каким то волнением рассказывают новость.

И Сбер это продает как сервис для коллцентров для оценки звонков клиента. И пофиг, что им на примере показали что это не работает, и что можно определить реально.

Так что gigachat с их бенчмарками не вызывает ни какого доверия.

Мы же говорили о GPU. О каких конкретно разных задачах идёт речь?

В ray serve можно запускать готовые LLM. Загрузив их через 20-30 строчек кода и получив при этом возможность автоматически распараллелить и видеть логи llm через мониторинг.

Или вы имеете ввиду не совсем LLM, а обертки вроде Gradio? Если так, то gradio ближе к обычным cpu серверам, а gpu лучше выносить отдельно. Если конечно один gpu сервер, то разницы нет. Но тогда и k8s избыточный.

Хочется понять, когда k8s оправдан с gpu, против ray serve. Не могу придумать ни одного сценария. Какие сценарии вы видите, в которых k8s с нейронками даёт преимущества или делает то, что не позволяет делать ray serve? И при этом k8s не избыточен.

Надо смотреть сколько стоит такая сборка. А то я до этого собирал их ноги birdbot. Так там один серво стоит 70 тыс руб, а их надо 4 шт. Вот этого https://youtu.be/PXXdaqseHis

Только одного почти дособирал, осталось пара моторов, а тут беркли уже нового. Но по сравнению с их прошлой моделью birdbot - текущая не очень впечатляет как ходит.

Проблема этих opensource проектов пока в том, что все они при сборке очень дорогие. Тут только печать занимает несколько месяцев, и не считая затрат на все остальное. Пока соберешь, оказывается что там куча недостатков и на видео все красивей.

Все они требуют множества дорогих моторов. Пробовал печатать разные разновидности моторов, но их надо потом встраивать и значит переделывать корпус и механику.

Но все равно классно, что появляется множество таких открытых проектов. Жаль что в наших вузах, таких не делают. Китайцы быстро собирают на базе opensource и потом продают на алике/алибабе за 0,45-1,5 млн руб. Хотя сборки робособак так на разный вкус от 10 тыс руб до 200 тыс руб. на основе тоже opensource.

Какие преимущества у разворачивания в k8s моделей перед ray serve?

Надеюсь что гугл сделает такое

https://habr.com/ru/articles/905454/comments/#comment_28239034

Я не потянул такое содержать, чтобы развернуть публично. Слишком дорого обходится сервера, а в платных подписчиков веры как то у меня нет. Надеюсь гугл доведет свое до ума.

У Сбера вообще gigachat max 2 как был тупым у lite, так и остался тупым в новой. Только воды больше льет. Не понимаю, что они постоянно в статьях бенчмарками хвалятся и сравнивают. После этого пропадает доверие ко всем этим бенчмаркам. Так как по факту модель осталась очень глупой.

У Яндекс получше с этим. Но тоже слабо.

Это ладно. Она легко ломает уже рабочий код. Недавно решил задокументировать его, попросив написать к нему комментарии, описать параметры, что делает класс. Потом смотрю, класс перестал работать. Потратил кучу времени, на то, чтобы сопоставить что она сделала. Оказалось, что она внесла в код небольшие изменения сама (просил только комментарии) и все перестало работать, логика сломалась. А ещё может переименовывать переменные и объединить что то и все, ищи потом ошибку.

Это касается сложного кода. Хотя даже из простого может выкинуть что то, упростив код.

Плюс, заметил, что сетки не вникают в код, если рядом комментарий. Пофиг, что он старый и уже не отражает логику. Например, есть тензор [batch, num, hidden_dim, seq_len]. В коде в прежней строке мы к нему приводим. Но остался старый комментарий, что тут # [batch, dim, seq_len]. И сетке пофиг на логику, она считает что информация из комментария важнее и строит логику на этом.

Поэтому с ними надо аккуратнее. Пока они очень тупые. И не могут держать разные контексты (логика кода и комментарии например) и переключаться между ними.

Я выложил полностью новый механизм обучения.

Вы можете посмотреть его в папке backward

https://t.me/greenruff/2257

Он применим к любой архитектуре. Там есть все, от примера выше до реализации обучения по блокам глобальной ошибке с учётом обучения локальной ошибке

Граф памяти и слои = нейронные сети мозга:

В реальном мозге нет разделения на графы памяти в виде чётких слоёв. Ассоциативные зоны не являются базовым слоем памяти. Память распределена сложнее: участвуют кора, гиппокамп, миндалины и многие другие структуры. И связь между ними — это не просто "слоистый граф", а динамическая сеть с параллельными и перекрёстными путями, обратной связью. модуляциями.

Один нейрон = один элемент памяти ("нейрон бабушки")

Концепция «нейрона бабушки» — это уже давно опровергнутая гипотеза. рекомендую посмотреть лекции Роберта Сапольского, где где то с 15-23 лекцию рассказывается об истории бабушкиного нейрона. Память распределённая, иначе потеря одного нейрона стирала бы целую память.

Перемещение активности по графу

Вы упростили это понятие до примитивизации. Передача сигнала включают обратные связи, модуляцию, торможение и нейромодуляторы, ритмы.

Вы ввели КУ1, КУ2 — время воздействия/пропускная способность

В реальности время передачи между нейронами фиксировано и зависит от типа нейрона, а не от "суммарного времени воздействия".

Типы элементов — типы нейронов

Да, в ассоциативных зонах есть разные типы нейронов, но их классификация сложнее — интенсификаторы, модуляторы, тормозные клетки и так далее.

Про пирамидальные нейроны - это всего лишь один тип нейронов, и во многих областях их может не быть совсем или очень мало. Их задача связать соседние колонки или дальние колонки (другие области). В тех же ассоциативных областях есть звездчатые нейроны. А кроме ассоциативных областей, есть другие, которые так же обобщают сигналы и там могут преобладать другие типы клеток.

Миндалина = распознавание паттернов

Миндалевидное тело не занимается распознаванием паттернов в общем смысле. Оно участвует в оценке стимулов. Распознавание паттернов происходит в сенсорных и ассоциативных корковых зонах. А амигдала делает оценку этого распознанного стимула (от начальных рефлексов, до более сложных).

Инстинкты-паттерны, передача возбуждения

Нет такого понятия как "инстинкт-паттерн" в нейробиологии. К реальной модели мозга отношения не имеет.

Паттерновое привыкание как стабилизация синапса

Стабилизация синапса действительно происходит при долговременном потенцировании (LTP), но вы делаете из этого прямолинейные выводы о "выключении" из инстинктов, чего нейробиология не подтверждает.

Подкрепления = нейроны мезокортикального пути

Мезокортикальный путь, например дофаминергические нейроны, участвуют в обучении через подкрепление. Но "подкрепления появляются в результате срабатывания обучающих инстинктов" — вы путаете причины и следствия. На самом деле речь идёт о системах оценки вознаграждения (VTA, nucleus accumbens, PFC).

Дофаминовая яма

Депрессия включает множество факторов, не только дофамин. Посмотрите лекции Роберта Сапольского, там целые лекции посвящены этой теме

Как итог, вы используете термины нейробиологии, но смешивает их так, как вам удобно для построения своей модели, без соблюдения реальных функциональных связей. Делаете необоснованные аналогии типа "миндалина = распознавание паттернов", "один нейрон = один элемент памяти", "пропускная способность синапса" и т.д. Местами цепляетесь за реальные факты (пирамидальные нейроны, клетки места, дофамин), но выводите из них неправильные следствия.

Так сократите. Я вам просто описал, как работает нейрон. Посмотрите спайковые и другие модели. Они прекрасно описывают его работу. Разные типы нейронов просто отслеживают разные свойства сигнала - это и было описано выше.

Про PFC/MPFC/ACC я просто попытался кратко изложить то, что вы можете прочитать в научных исследованиях. Видимо мне не удалось упростить этот процесс для объяснения.

Сократите вашу модель до одного слайда, чтобы ее можно было понять. Сейчас я пока вижу набор множества противоречий.

Есть предпосылки, что развитие все равно приводит к одному и тому же сценарию. Может в разных формах.

Например, когда я исследовал градиенты речи (движение артикуляторов) у разных животных, птиц, пчел. То оказалось, что не смотря на то, что у них у всех разные формы издания звука (артикуляторы: язык, жужальце, мешочки дельфинов и так далее), фазовое пространство движения артикуляторов у всех одинаковое. Что наводит на мысль, что не смотря на разную форму и природу артикуляторов, закон сохранения энергии приводит их движения к одному и тому же фазовому пространству (разного масштаба и расположенного в на разных частотах).

Млекопитающие
Млекопитающие

Что заставляет задуматься, это из за земных условий (но дельфины в воде), или это следствие закона сохранения энергии.

Формально, у млекопитающих и птиц разная слуховая кора. Но фактически она одинаковая. В том плане, что отдельные слои хоть и называются по разному и в деталях могут немного отличаться, но фактически реализуют тебе функции. И что важно, реализуют и не по разному, а одинаково. На эту тему есть исследования слуховой коры зоны А1. Там разница минимальная.

У птиц нейроны очень плотно расположены. В плане многих зон, есть одна разница. У млекопитающих они более универсальные. У птиц, если я правильно помню, даже на уровне ДНК меньше мусорных, так как их ДНК оптимизированы. А у млекопитающих (человек к примеру), хранятся на все случаи жизни (старые редуцированные). Вроде как объяснение было (не помню доказанное или предположение), что это связано с их весом и полетом. Так как для полета, надо желательно как можно меньше вес.

Information

Rating
3,139-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity