Обновить
58
0.5
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

Отправить сообщение

Какая конкретно была задача на входе? Так как оценивать надо по задаче. Так как от постоянного переписывания модели теряют детали прошлые и часто выкидывают важное или упрощают. Постоянно такое происходит, от LLM не зависело. Пробовал гонять между двумя тремя крупными LLM, аналогичным образом. Вроде на выходе идеально и правдоподобно и аргументировано по каждому пункту, но как начнешь разбирать, там чушь полная оказывается. Поэтому хочется понять, какие задачи подходят, а какие нет.

Система всегда пытается минимизировать затраты энергии. Не важно живая она или нет. То что кажется лишним - часть этого баланса. Выкинете это и посыплется другое. Может ли она развиваться так же, если что-то убрать? Это уже теория хаоса, вы по сути приводит к бифуркации системы, когда нарушен баланс и система пытается перестроиться. Это может привести к тому, что система будет полностью разрушена либо найдет новую устойчивую точку. Мы заранее не знаем, потому что не можем учесть все факторы.

Внешние условия играют огромную роль. Выше говориться, что многие организмы не эволюционируют. У них нет для этого условий. Простой пример, помню была научная работа по Чернобылю. Там оказалось что у червей произошла дифференциация пола. Черви бесполые, но внешняя среда заставила их развиться. Так как радиоактивный фон приводит к повреждению ДНК, и нужен какой-то механизм, который позволяет сохранять прежнюю копию и быстро находить более приспособленную. Иначе одна неверная мутация и черви вымрут, если это распространиться. Нужен отбор мутаций. Это не значит что там было разделение на мужской и женский пол, но это значит что произошло разделение, где одна особь сохраняет накопленные полезные мутации и обирает полезные по каким то критериям, а другая приобретает их.

DeepMind от Гугла больше всех у меня вызывает уважение. Они не просто создают новые подходы, они проводят исследования и на живых клетках и сравнивают результаты своих работ и реальное поведение клеток. Их архитектуры flamingo и другие были созданы не как полная интернерпретация. У них есть работы по гиппокампу, таламусу, расширению мультмодальных моделей.

Deepseek сделал исследования по оптимизации, доказав математически как это можно сделать. И ещё ряд нововведений.

Когда был в чате сбер комьюнити по нейронкам, мне вечно писали что зачем нужно изучать мозг, проводить аналогии, пытаться перенести механизмы. Как итог, Сбер использует чуть изменённую косметически модель deepseek (была статья с репозиторием на Хабре). То же касается группы по синтезу речи, гоняют VITs пробуя методом тыка разные параметры, токенизаторы. Ни кто фундаментально ничего не пытается сделать.

Без фундаментальных исследований как у DeepMind это всегда работы, как дети в песочнице с новыми игрушками. Крик души, так как обидно что Яндекс и Сбер не проводят таких фундаментальных исследований, хотя и возможности есть и деньги и ресурсы. Для этого не нужно 1000 видеокарт.

Можно пример? Не абстрактный на основе галлюцинаций, а с доказательством. Так как плодить сущности без строгих доказательств люди могут и так. На Хабре куча статьей каждый день, где народ через сетки генерирует свои вольные интерпретации. Которые не имеют отношения к реальности.

Например, мне надо было сделать растворимый промежуточный слой. Была идея использовать изморозь, когда вода тонким слоем покрывает подложку и затем растворяется. Сетка не может предложить такое, так как у нее нет абстрактной связи, что изморозь может образовываться равномерно, а мы каждую зиму такое встречаем на окнах, перилах. Потому что нет у них абстрактного мышления, нет связи с реальным миром.

Все что она мне генерировала, была чушь собачья с точки зрения физики. Поэтому приведите пример. Пример, химией не уместен, там специализированные сетки обученные именно на химических соединениях затем подбирали наиболее вероятные в плане устойчивости и к LLM ни какого отношения не имеющие.

Возьмите реальную задачу. Вот сейчас решаю. Есть гистерезис сигнала по частоте и амплитуде. По амплитуде написал, отлично работает. А вот учесть частоту проблематично на уровне традиционных сетей для гистерезис, не понятно. Вывел формулы, они совпали с SSM. Но вот встроить гистерезис частот бы и амплитуды в SSM, со строгим математическим доказательством не получается пока что.

LLM все только пишут вольную интерпретацию, как можно это сделать. То есть математически доказать они не могут. Вольные интерпретации я и сам могу насочинять.

То есть LLM не могут мне сделать сами математическое доказательства и вывести формулы и логическую цепочку, в строго доказательной форме. Так как ранее у них нет таких примеров. Они лишь приводят примеры существующих работ, как другие пробовали.

Вот реальная сложная задача. А все остальное это трудоёмкая задача. Не нужно путать трудоемкость и сложность. Свести множество формул, это трудоёмкая задача. Сложная задача, это найти математическое доказательство, которого до этого не было.

Для построения карты как это происходит у человека, была работа DeepMind. Они реализовали специфичный трансформер и модель и сравнили результаты подключив электроды к мыши и обучаемой модели. Результат показал аналогию, создания моделью клеток места.

Может стоит не только YOLO мучить, но так же учесть опыт DeepMind? Работа по-моему 2016-2018 года. У человека есть разные уровни клеток пространства одного масштаба.

А вы пробовали гонять по кругу сетки, чтобы она написала код? Например, я помню пример сдвига формант речи. Функция небольшая, но главное это ее логика реализации. Да, llm в итоге ее написали и она стала выполняться без ошибок. Только делала она совсем не то.

Как данный подход позволяет решить такие задачи? То есть исполняемый код они таким образом сделают. Но он часто будет мусором.

То же самое было с написанием сложных SQL процедур на postgres для отчётов. SQL выполняется, результат нулевой. Ок, у нас на выходе будет результат идеальный для сравнен, он подгонят, а на других данных работать не будет. И хуже всего, когда его занесло не туда, дальше только хуже. Он не может пересмотреть весь подход и начать все сначала.

То что вы видите, это не сознание. Вы просто задаете прогнозирование.

Я так в свое время создавал характеры, тут часть описано как делать. Направляя прогноз модели в нужное эмоциональное русло

https://t.me/greenruff/2232?single

В реальности было ещё сложнее, так как учитывал речь собеседника, состояние модели "эмоциональное" через дополнительную сеть, которая была примитивным прообразом лимбической системы

Почему обязательно продолжит развиваться? Развивает его пока человек по тем же правилам, что развивался сам, на тех же данных. Со всеми его косяками, как вы описали. И если человек вдруг тупиковая ветка развития, то почему нейронка обученная на том же, должна развиваться.

И главное как развиваться? У человека глобальная ошибка это баланс гомеостаза. У нейронки глобальная ошибка, это наша интерпретация результата на основе наших сенсоров, нашего мозга. Мы ей задаём глобальную ошибку. Что вы предлагаете задавать в качестве глобальной цели сетки самостоятельно? Размножение, страх самосохранения, охота за энергией? Тогда получаете человека в итоге.

Как вы себе это представляете?

И да и нет. С одной стороны действительно новые слои мешают старым слоям мозга и не дают им расшириться. Но это компромисс. С другой стороны, у тех же птиц это удалось обойти большей плотностью нейронов. Хоть мозг меньше, но плотность гораздо больше. А тех же муравьев, больше упор на коллективную адаптацию и разделение функций мозга среди разнообразия внутри вида.

По хорошему мозг сам по себе не нужен. Это сложная система для обеспечения физиологического баланса нормального гомеостаза. Напал кто-то.. гомеостаз нарушен, мозг пытается предсказать оптимальное решение, чтобы вернуть его в нормальное состояние. Встретил самку, нарушился гомеостаз, мозг пытается предсказать оптимальное решение для возврата. И так далее. С этой стороны да, он строго заточен под ряд задач, которые формируют глобальную ошибку. Базальные ганглии анализируя множество сигналов, на основе обобщенной глобальной ошибки запускают процесс выработки дофамин или его уменьшения. Я к тому, что есть глобальная ошибка. Сейчас мы обучаем сетки глобальной ошибке на конкретных примерах.

Вопрос был про мозг, у человека так же проблемы с управлением пальцами, так как остался архаичный механизм управления.

Тут не надо все смешивать мозг и физиологию. Мозг развивался слой за слоем при решении задача. Его главная цель, это поддержание нормального гомеостаза организма. То есть вернуть гомеостаз в нормальное состояние. Он предсказывает, как это можно сделать.

Но насчет гортанный нерв согласен. Если с такой стороны смотреть, то да, не оптимальные решения действительно есть и они вызваны изначальными условиями. И система находит компромисс.

Если брать мозг, то действительно внутренние зоны не могут полноценно продолжать развиваться, так как на ними уже новые. Например, у людей которых гиппокамп крупнее - соседние зоны будут меньше.

Развитие идет не быстро, так как это оптимально. Любое развитие мы можем рассматривать как "мутации", и если их сразу принять, то они могут привести к вымиранию. Поэтому нужно много времени.

Кто вам такую чушь сказал? что старый функционал мешает там новому? Конкретно можно хотя бы один пример? Сколько разбирал зоны, области.. там нет ни одной, которая была бы не нужной или лишней. Более того, трансформеры и реализуют в примитивной форме области неокортекса. В примитивной, потому что не все. Из-за чего сильно страдают и имеют ряд проблем.

Вот как вы сделали такой вывод, что там лишнее или редуктивное? Там точно так же лишнее становится редуктивным. Например, есть классическая шестислойная модель неокортекса. Так вот в ассоциативных зона слой 4 редуцирован, так как нет необходимости объединять сигналы и фильтровать. А например кохлеарное ядро там есть две области VCN и DCN, которые распознают два разных диапазона частот. VCN проще и быстрее - это диапазон до 2000 Гц, она развита у человека. А DCN сложнее, в том плане что нейронов и разных участков больше, она за звуки от 1800 Гц и выше и более затратная по ресурсам. Вот у нас DCN не развита, так как нафиг не нужна, а вот VCN отлично. А у летучих мышей DCN и VCN обе развиты, особенно DCN что позволяет им использовать эхолокацию.

Нет в мозге ничего лишнего и старого. Как только что то становиться не нужно, это редуцируется и исчезает. И если вы решите написать что-то с нуля для взаимодействия с реальным миром, все равно придете к тем же областям. Только энергоэффективность этого будет гораздо хуже.

Что там были за математические задачи? Мне пока все модели OpenAi, Claude, Qwen, DesspSeek в разных режимах (рассуждающих. исследования и так далее) пока не смогли решить ни одной сложной математической задачи требующей мышления. Но при этом, они хорошо помогают развить идею, так как позволяют быстро вспомнить какие-то разделы формулы, получить список многих теорем на заданную тему.

При этом, они просто не могут проанализировать сами кучу разделов. Например, сейчас я решал математическую задачу связанную с энтропией. Да супер, они все сразу приводят формулы Шеннона, но все остальное надо указывать самостоятельно. Чтобы провести сравнение с энтропией Чебышева и другими, нужно указать на это или неявно попросить об этом. Они гоняют по кругу самое популярное, повторяя одно и тоже. И не дай бог их занесет ни туда.

Каждый раз приходиться возвращаться к какой-то части цепочки, чтобы перенаправить модель по другому предсказанию.

Что там за мат задачи были? Из пункта А в пункт В выехал поезд, и когда они встреться? Почему мне модели не могут ни нормально хим. рецепты писать (когда я пытаюсь улучшить, что то в растворах) или самостоятельно решить мат задачу, которую до этого не решали? Да блин, даже голограмму не могут толком нормально рассчитать, приходится за ними править расчеты. Они супер рассчитают то, что уже и так 1000 раз решали множество раз. Так и я могу один раз написать программу, которую сделает расчеты такой задач и это будет работать быстрее и точнее LLM и превзойдет в этой задаче человека. Давайте Photoshop сравнивать с рисованием, а CAD с черчением от руки. Речь же про сложные задачи, а не трудоемкие. Сложные - это когда до этого решения не было. А не когда ты потратил 10 часов на то, чтобы все расписать.

А что считается за критерием оценки? Если сравнение с результатом, который мы хотим получить, то в чем эволюция развития таких агентов?

Если же это абстрактные критерии оценки, то какие? У человека это выживание голод жажда размножение. То есть оценка не конкретно распознать уши кролика, а распознать еду. Условно конечно.

Это как раз важный критерий глобальной ошибки. У нас, этим критерием является CO2, так как он играет важную роль для кислотности и расщепления глюкозы C6H12O6 + 6O2 ~ 6CO2 + 6H2O. Отсюда же и глобальный критерий оценки для поиска глюкозы и других элементов для выживания. Ну и куча других.

В случае агентов и их эволюции, я так и не понял, к чему они должны стремиться? К решению который мы указали сами? Пока что я вижу только поиск оптимального решения задачи данным методом.

На Хабре таких много, от статей до комментаторов, верящих в сознание LLM. Они видят сознания, задавая сеткам тупые вопросы (недавно посмотрел, что другие обсуждают с ChatGPT - "построй натальную карту по анализам"). И когда LLM им выдает херню, люди считают ее умной, ведь она смогла "осознать" их бред.

Пользователь верит, что ChatGPT — бог, а сам он — мессия: Rolling Stone собрал истории «психоза» после долгого общения с ботом 

https://vc.ru/chatgpt/1968188-psikhoz-ot-chatgpt-razrushayushchikh-otnosheniya

И мое любимое:

ChatGPT пытается свести меня с ума. Это массовое явление

https://dtf.ru/life/3626060-chatgpt-pytaetsya-svesti-menya-s-uma-eto-massovoe-yavlenie

Когда люди не понимают как это работает и что на самом деле они получают, для них это магия. Им что ChatGPT, что шаман с бубном. Кто то бекапы их ведёт для "сознания", кто то промптом "сознание" активирует, кто то через свою шизофрению.

1) тут тоже самое. Причина одна и та же

2) Закон Ципфа это эмпирический не точный закон. Вы по моему упустили самое главное, а то, что формула выведена не из пустоты а имеет доказательную базу. Изначально она была выведена из Ципфа (ее упрощенная версия https://t.me/greenruff/2346). Была показана, как это работает и ведет себя.

при правильных beta и N они практически одинаковые
при правильных beta и N они практически одинаковые

3) при определённых значений N и beta она подобна закону Ципфа. Речь про поведение на ограниченном участке N (а Ципфа имеет сильные отклонения при увеличении N от наблюдаемых эмпирических данных)

А при чем тут галлюцинации? По-моему вы путаете два понятия. Галлюцинации так же возникают из за случайного выбора, в статье данный подход их не решает.

Вы описали агентскую систему. Ок, классно. Она улучшает работу системы в целом, но к заголовку ни как не относится. Проблему галлюцинаций она не решает, а решает проблему специализации обучения конкретным данным, и решения части задач выходящих за рамки LLM.

Не понимаю, зачем кликабельный заголовок делать. Затем писать тонну воды. Почему сразу было не сделать фокус на агентской сетки, где вы предложили свой способ (обучения или только рассуждения?) для улучшения качества ответа.

Галлюцинации, это например когда модель вместо слова "соотношение" вставила слово "сношение". Как яркий пример случайного выбора вероятности. И в каких то случаях это не повлияет сильно на ответ, а в каких то наоборот. Или же ответы "вода" (ни о чем), когда модел не можем вместить в себя все детали и начинает обобщать. Что приводит к тому, что она не способна больше уловить детали в данной области и вынуждена обобщать все данные. Это тоже своего рода галлюцинации, хотя не в прямом смысле.

Ваша модель не решает первую задачу. И немного затрагивает вторую задачу.

Столько воды в статье. Без четких доказательств.

Я только сейчас закончил большое исследование, где математически доказал иерархическую модель асимметрии. Человек является лишь одним из уровней этой иерархии. В рамках этой модели, человек тот же конечный автомат асимметрии.

Свободу воли можно рассматривать только в рамках флуктуации. По сути области мозга, так и сам человек представляет один из уровней иерархии. Где сообщество ещё один уровень. Все они имеют свой rank, подобный закону Ципфа (он приблизительный, но не точный. Точный выводится из Лагранжа).

https://t.me/greenruff/2395?single
https://t.me/greenruff/2395?single

То есть если мы абстрагируемся и будем рассматривать человека как частицу, то его действия четко прописаны его ранком, который просто будет влиять на вероятности его действий.

Статья как раз пришлась во время. Я только на этой неделе закончил исследование на эту тему. Сначала через закон Ципфа показал как система сама учиться выделять признаки через обучение числа признаков на каждом уровне и на сколько это важно.

А затем, через метод Лагранжа вывел полную формулу , где Ципфа частный случай.

Суть в том, что любая модель обучаясь на сигналах просто строит иерархию асимметрий на основе Zipf подобного распределения. Где сама иерархия подчиняется этому закону.

На примере трансформеров показал как это происходит (как частный пример). Сейчас у меня построен более полный конечный автомат асимметрии, где изначально в основе лежала шестислойная модель неокортексе. Но в итоге это привело к обобщению и получению модели асимметрии сигнала.

Данная статья замечательно подтверждает это наглядно.

https://t.me/greenruff/2400?single

То что авторы называют голодом , на самом деле доказывается через два параметра N и beta. То есть модель не может бесконечно развиваться, так как тогда теряет способность к деталям и это приводит к обобщению (ухудшается). Это точка бифуркации, когда для развития системы она должна перейти к новому уровня иерархии, где будет снова через новые N и beta улавливать асимметрию нового уровня.

Поэтому то что авторы описывают через вольную интерпретацию имеет теперь твердую математическую и физическую базу.

Распознавание речи — это непросто: сначала нужно «вытащить» текст из звука, а потом расставить временные метки для каждого слова. Процесс был медленным, особенно для длинных видео. Чтобы оптимизировать ресурсы, мы использовали технические уловки:

Тогда зачем вы на собеседованиях на ML и в требованиях к ним пишете полную ерунду не относящуюся к решаемым задачам? Ту задачу, которую вы описали, не сложная ни для больших видео, ни для коротких

Может на собеседованиях стоит не let code и прочую ерунду проверять на уровне терминов? Тогда и сложностей с решением таких задач не будет.

Информация

В рейтинге
1 963-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность