Comments / Profile of proxy3d / Habr

Илья @proxy3d

нейробиология, нейронные сети, AR/VR

ProfileArticles2PostsNewsComments375

Собаки и кошки vs человеческий детеныш: кто умнее

proxy3d Jan 14 at 14:49

На самом дело, у человека умение считать кол-во предметов не врожденное.

По-моему в лекциях Роберта Сапольского как раз были два примера племен которые живут сейчас (точно не помню то ли оба в Африке, то ли одни в Африке а другие в Австралии), которые умеют считать до 3 и 5 или 5 м 7 (точно не вспомню) соответственно. Так как им больше и не нужно. Тл есть больше этого числа у них в языке идет понятие - много, куча. Оно ограничивает их мышление.

Раскладывали две кучи вещей, и пока в двух кучах число вещей не превышало число до которого они умеют считать они могли сказать в какой куче вещей больше. Но когда кол-во вещей в кучах превышало максимальное число, которое есть в их понимании, то эти люди не могли сказать в какой куче больше вещей.

Так что без должного обучения и передачи знаний, боюсь что человек не далеко ушел от животных (если вообще ушел).

0

Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как

proxy3d Jan 14 at 12:32

Я понимаю, слепой энтузиазм и непонимание, как ведут себя различные зоны мозга, позволяет мечтать. Ни сколько не приуменьшаю LLM, так же как интернет, и множество других достижений. Но пока там до AGI далеко. Ведь тогда и поисковик можно в назвать в какой то мере AGI, в нем есть вся информация и он ее выдает по запросу, но в более хаотичном виде.

А так, полный игнор работы мозга, нейробиологии, речи, вокализации, почему именно так работает и тд.

Пересмотрел все лекции ребят Яндекс по сеткам. Не увидел ни одной попытки понять, разобраться почему так работает. Нельзя оторвать тему llm от мозга. Язык и последовательности сформировались так не из вакуума. Они изначально были завязаны на биологии, будь то кол-во слов на паузах, или построение речи.

Возьмём для примера трансформеры:

Механизм внимания, это модулятор работающий подобно лобным долям, который под действием важной информации (например, дофамина, норадреналина) усиливает или ослабевает связи на глобальных и локальных маршрутах. Где кортизол играет роль переключателя между локальными и глобальными маршрутами. Тоже происходит в ллм, только на сегодня очень упрощённо. И подобные механизмы есть на разных участках.

Byte per encoding - коснусоидное и синусоидное кодирование позиции "слова" в ллм, тоже самое делает мозг через Альфа, бета, гамма ритмы после зоны Брока. Схожее делает unigramm, только через закон Ципфа на более абстрактном уровне.

Само подобие - в теорию хаоса, так как нейроны являются странными аттракторами и их производные тоже должны обладать само подобием на верхнем уровне.

И многое другое. Вы можете хоть скормить абсолютно все данные вселенные, но получите на выходе отличный поисковик способный быстро обобщать данные. Вы понимаете, что в текущих архитектурах нет ни локальных глобальных маршрутов на уровне модели, ни реализации архитектуры абстрагирования, ни реализации архитектуры отделения себя от остального (теменная зона), ни ведение хронологических цепочек текущих событий (гиппокамп), ни удержание и связь текущего контекста и общих данных (механизм внимания префронтальная кора), ни связи событий (энторинальная кора).

Да что уж там, где нормальная реализация хотя бы слуховой коры, которая способна слышать в шумной части. Хотя там то изучено все.

+3

Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как

proxy3d Jan 14 at 10:44

Даже близко не аналог кратковременной человеческой. От слова совсем, кратковременная гораздо сложнее чем текущие трансформеры. Так же, как и на долговременную он похож лишь частично. Небольшая часть.

+1

Приключения серотонина в бесконечном цикле боли, или опиатная ломка у неторчка — ч.1

proxy3d Jan 2 at 14:49

Положительные эмоции ни куда не деваются. Но базовые генные паттерны не подразумевают положительных эмоций, они не нужны для выживания особи на начальных этапах, ведь там главное испугаться и тревожиться, а так же усилиться внимание. Все остальное уже идет на более высоком уровне и является цепочкой.

Для примера смех. Из палеонтологии мы знаем, ужас и смех - это близкие последовательности и на уровне мимики и реакции. Когда рядом происходит что-то непонятно, первая реакция это испуг и как-то защититься. Чтобы защититься, хорошо бы в ответ напугать того, кто пугает вас. Чтобы продемонстрировать свою реакцию. Для этого надо разинуть пасть пошире, оскалить клыки, растопырить глаза, поднять шерсть дыбом и громко заорать. Тогда может быть противник не станет нападать. Но в последующем может оказаться, что опасность мнимая и ерунда.

И момент осознания этого, это удивление, когда мы соображаем (амигдала в лимбической системе распознает опасность). В этот момент рот разевается, но так как процесс прерывается, то мы прекращаем этот процесс и он не до конца разевается. Клыки обнажаются чуть чуть, глаза уже немного растопырены, шерсть дыбом, но все по не многу, так как процесс был прерван. И мы удивляемся. А если вдруг оказывается, что то нам показалось опасностью вообще не опасность. То процесс проявления реакции на опасность уже сильный, и поэтому мы перенаправляем эту энергию в другую сторону. Тогда рот открывается не по вертикали, а начинает растягиваться по горизонтали. Клыки при этом не обнажаются, потому что нам не нужно никого пугать. Глаза начинают прищуриваться обратно. И поэтому звук, который мы начали уже издавать из себя становится прерывистым, так как поток воздуха идет через ротовую щель и мы пытаемся приостановить поток воздуха (чтобы и другие не сочли наши действия что мы агрессивные). Если мы замерим мускулатуру мышц, то обнаружим что одни и те же мышцы начинают работать синхронно в обоих случаях, только отличается продолжение. Особенно характерно, что это видно у маленьких детей и детенышей. И поэтому ребенок пока еще не знает что опасно и что неопасно, он очень быстро переключается между плачем и смехом. Иногда это дает сбой и человек видит что то страшное и ужасное и начинает сильно смеяться, потому что его лимбический аппарат допустил ошибку и распознал опасность как не опасную. Так и наоборот, когда опасности нет, но мозг не разобрался и начинает дико пугаться.

Прерывается не сам процесс работы мышц, а скорее самая эмоция. Так как был страх, обнаружили что опасности нет, и чтобы уже запущенный процесс открытия рта и звука другие не сочли за агрессию, проявление должно быть не походим на агрессию. Из легких уже начинает выходить большой поток воздуха, ведь изначально мы хотели напугать в ответ. Остановиться мгновенно мы это не можем, поэтому нам надо

1) изменить мимику лица, но так чтобы она отличалась от мимики агрессии и другая особь не решила что это агрессия. Но при этом, дать потоку воздуха выйти из легких, выдохнув, поэтому мы должны открыть рот. Раз мы не можем открыть его вертикально (другая особь может перепутать с агрессией), мы делаем это горизонтально (в этом случае перепутать уже нельзя).

2) поток воздуха, мы одновременно либо пытаемся остановить выдавая его порциями. Либо пытаемся сделать его выход максимально не похожим на выдыхание при агрессии. Либо из за голосовых связок, которые вместо планового агрессивного крика перекрывают поток воздуха, который периодически под давлением легких прорывается через них. Что напоминает рывки. Не выпускать воздух мы тоже не можем, так как это наполненная грудь больше похоже на воинственный посыл, но и выпустить сразу весь воздух не издав какой то звук мы тоже не можем чтобы его не перепутали с агрессией, поэтому воздух будет выходить максимально не похожим на другие звуки.

Важно, не обязательно воздух будет выходить таким образом. Так как это крайний случай поздней реакции. Если же неопределенность/опасность была быстро распознана как неопасность, то и реакция будет меньше. Например, только в виде улыбки без выдоха потока воздуха или прищуренных глаз. Или же настройкой голосового аппарата, когда голос будет слегка отличаться.

И это один из примеров нарастания эмоций на основе базовых - это неосознанное избегание агрессии. И данный механизм избегания агрессии происходить автоматически. Иначе любая реакция будет всегда приводить к агрессии. И это будет означать цепную реакцию агрессии в обществе, что в итоге приведет к его вымиранию.

Большинство эмоций это вообще субъективное понятие и они возникают только на высшем уровне, за счет понимания сказанного контекста.
Например, тут я показывал что на речевом уровне многие из них одинаковые.
https://t.me/greenruff/1855
На биологическом за счет перенаправления, прерывания гормональных всплесков (сюда же входят и нейротрансмиттеры), когда организм пытается стабилизировать ситуацию. Все сложнее конечно, так как в той же музыке огромную роль играет на сколько она попадает под "гамматон фильтры" слуха (интервалы) человека, на сколько человек может предсказать дальше мелодию (слишком сильно может - не интересно будет, не может совсем предсказать - жанр не будет нравиться).

Поэтому тут нельзя в двух словах описать. Про боль при слухе и обратное чуть чуть затрагивал тут https://t.me/greenruff/1872
Для пример разбор одного из базовых про-эмоций (я называю их генными, так как они предопределены биологически и прошиты в генах) https://t.me/greenruff/1895

+4

Почему ИИ не заменит программистов: взгляд инженера

proxy3d Jan 1 at 19:31

Напишите кто то статью, где с помощью LLM мигрируете запросы SQL с mssql в postgres со всеми триггерами, процедурами и тд. Я постоянно использую chstgpt, сбер и другие llm, чтобы облегчить себе задачи в разработке.

Простые вещи решает отлично. Но что то сложнее и там полная ж... Будь это конвертация функций с одного фреймворка на другой, или где требуется подумать как можно сделать. И самое ужасное, что они пишут правдоподобно и если не перепроверить то проблема вылезет потом. Сделать функцию по формуле, по описанной блок схеме - да, ок. Прописать настройки, сохранить , загрузить данные из файла, сделать примитивные запросы, выдать инфу из доков.

Люди, которые довольны LLM и считают что они заменят. Напишите статью, я реально хочу понять, какие вы задачи решаете что llm отлично справляется и экономит время.

LLM отличный инструмент для облегчения ряда задач. Но даже при написании игры чуть сложнее арканоида, она уже начинает тупить.

+3

Приключения серотонина в бесконечном цикле боли, или опиатная ломка у неторчка — ч.1

proxy3d Jan 1 at 19:03

С болью все ещё интереснее. У нас весь слух по сути построен на боли. Точнее на воздействии сигнала на волоски. При увеличении частоты звука и более узкий диапазон сигнала (как скрежет металла) и интенсивности, возникает уже боль.

Для примера крик. Там возникают болевые сигналы волосков и параллельно вырабатываются опиоидные гормоны, чтобы не было ощущения боли до какого то момента. И при определенных интерпретациях сигнала мозгом, останется только эффект опиодов. И будет ощущение радости, а в другом боль возьмёт свое. Именно поэтому некоторые мазохисты любят когда на них кричат, так как у них нарушен/обострена реакция на звук и опиодных гормонов выбрасывается очень много.

У нас вообще изначально нет положительных эмоций. Только те что являются сигналом об опасности через тревогу и боль. А все остальные возникли как наслоение на них, чтобы показать обратную реакцию. Так злобный крик превращается в смех. Но в основе, все та же боль. Это универсальный сигнальный механизм у нас для всего, просто пока она не сильная не ощущаем.

+1

Продолжаем про ворон

proxy3d Dec 30 2024 at 11:50

Вы правы, даже не подумал об этом. Теперь стало ещё интересней, мозг у них пошел по пути млекопитающих или же по пути птиц. Не влияет ли размер особи, полеты как катализатор развития иной структуры мозга или их зон. Спасибо, что напомнили про рукокрылых.

+1

Почему число «1/137» встречается в природе повсюду

proxy3d Dec 30 2024 at 02:18

Попробую с учётом данных чисел сопоставить с гамматон фильтрами. Но они логарифмические. Наш слух это логарифмическая шкала. Этот механизм был открыт и описан давно, его биология по-моему тоже. Так что все равно наш слух пляшет вокруг этих логарифмических интервалов. И если звук находится на границе интервалов, то мозг определяет его принадлежность по динамике звука. Поэтому такое звук вызывает диссонанс. Нотная модель лишь пытается подстроится под эти интервалы. И да, интервалы не идеальные. Но надо будет проверить попадание полутонов при таком разбиении.

0

Продолжаем про ворон

proxy3d Dec 29 2024 at 20:14

Под тупостью я имел ввиду их вокализацию "речи". Она очень скудная, на такой "язык" не построишь. Базовые сигналы да, но что то на уровне летучих мышей, нет.

0

Продолжаем про ворон

proxy3d Dec 29 2024 at 19:22

Про ворон.

Была статья на NYTimes где как раз речь была о том, что вороны около 17 лет передают информацию об обиде остальным воронам. То есть они из поколения в поколения передают описание обидчика, чтобы другие на него нападали.

https://www.nytimes.com/2024/10/28/science/crows-grudges-revenge.html?searchResultPosition=1

Само исследование

https://www.researchgate.net/publication/223261147_Lasting_Recognition_of_Threatening_People_by_Wild_American_Crows

+6

Продолжаем про ворон

proxy3d Dec 29 2024 at 19:13

https://www.nature.com/articles/s41467-022-33360-3?fromPaywallRec=false

Ядро-слияние

интересное изучение речи воробьев (они же японские синицы)

О том, различают ли те слияние звуков или каждый по отдельности.

Если проще, то развились ли у них механизм словослияния для образования новых слов. Например НОСОРОГ, это НОС и РОГ. На примере человека, если мы по разному реагируем на НОС и РОГ раздельно сказанные двумя разными особями отличие от слитного НОСОРОГ одной особи - значит словообразование у животного развито

+3

Продолжаем про ворон

proxy3d Dec 29 2024 at 19:12

Там у многих птиц развита речь а разной степени. По-моему первенство сейчас у летучих мышей.

https://www.nature.com/articles/srep39419

+3

Продолжаем про ворон

proxy3d Dec 29 2024 at 18:50

Но все зависит от вида птицы и как она развивалась. Голуби действительно тупые. Когда сделать визуализацию их вокализации , то там вообще примитив на уровне сверчков. Не понятно, почему они не развились даже в плане артикуляции речи.

0

Продолжаем про ворон

proxy3d Dec 29 2024 at 18:48

Попугаи крупные могут использовать в правильном контексте выученные слова и даже частично соединять правильно фразы. На Ютубе было не мало таких видео. Когда попугай отвечал в рамках контекста и спрашивал. Хотя конечно до человека далеко ещё, но уже не мало. Но это наблюдается только у крупных попугаев, забыл породу и при том что с ними занимаются с пелёнок.

+2

Продолжаем про ворон

proxy3d Dec 29 2024 at 18:45

Так же слуховая кора не особо отличается от человеческой у птиц. Те же слои.

https://t.me/greenruff/2004?single

Так что звуки они разделяют по тому же принципу что и мы в отдельные сигналы.

Что касается мозга то нейроны там во много раз плотнее. А вместо неокортексе там свой аналог, с тем же кол-во слоев. И на абстрактном уровне не такие уж огромные различия. Разница в деталях скорее, во вспомогательных зонах (которых у нас много). Например, у нас левое полушарие это цепочки нейронов в одном слое, а правое связи между слоями. У ворон например, там все как правое. Правое у нас как раз связано с абстрагированием, поэтому вороны отлично с этим справляются .

+3

Продолжаем про ворон

proxy3d Dec 29 2024 at 18:38

Например тут я сравнивал степень развитости разных животных по сложности их артикуляции. Кошки оказались на удивление сильно развиты в артикуляции, но слабо развиты в детализации "речи".

https://t.me/greenruff/2009?single

А вот вороны неплохо.ищ минусов, я брал данные всех ворон, а надо брать воронов(чтоб сравнить, они умнее).

Аналогично, с попугаями была ошибка, так как смешал много пород попугаев, а они сильно отличаются. В среднем попугаи не особо , но опять же я брал всех. Надо брать конкретно отдельные виды и сравнивать.

+8

Продолжаем про ворон

proxy3d Dec 29 2024 at 18:33

Я не так давно пробовал изменить диапазон речи под человеческую: тон, форманты, темп речи. Сделал на сколько смог из имеющихся инструментов. В этом случае вместо кар мы уже слышим совсем другие звуки. И там явно более сложнее все.я сейчас так же разбираю степень развитости животных, включая ворон.

https://t.me/greenruff/1932?single

+5

Почему число «1/137» встречается в природе повсюду

proxy3d Dec 29 2024 at 14:10

Насчёт музыки, разбирал музыкальные теории формирования разных тональных структур с распределением нот, звуков, кол-во тонов и тд. Классическая просто использовала немного устаревший подход, потом ввели другую модель.

В реальности же, когда я проанализировал речь, то она тесно связанна с уровнями слуха. Их математическим аналогом являются гамматон фильтры. И там логарифмическая шкала получается.

Диссонанс получается тогда, когда звук оказывается на границе фильтра. Мозг в этом случае напрягается, так как непонятно к какому уровню относиться звук.

Пока не понял, как сюда вписывается описание выше. Хотелось бы побольше точных исследований и их названий.

+2

Что делает ChatGPT… и почему это работает?

proxy3d Dec 29 2024 at 01:06

Фонемы работают хуже, потому что основа выбрана неверно. Я столкнулся с этим сейчас, когда разбирал на части произвольную вокализацию. До этого как и многие считал что есть разбивка на фонемы и делается это в зоне А2 слуховой коры. Когда же, я разобрал вокализацию по косточкам, то оказалось что наше представлением о фонемах неверное. Точнее отчасти верное, и мы его описали себе как удобно. Но по факту нет. Например, слово молоко. В речи это будет и молоко и молоко и маЛОко. Мало чтого что фонемы летят в топку и усложняют тут, так ещё и на уровне фонем например нет звука ЛО, а разобрав звуки речи я выделяю этот звук при быстрой речи. Фонемы к реальной речи мало сопоставимыми и описывают лишь часть наиболее частых кластеров звуков. Именно поэтому подход с использованием фонем провалился.

При этом, разбиение на части даёт более компактный результат и более качественный. Просто надо изначально понимать что берем, как берем, на что разбиваем, что на каждом участке выделяем и с чем связываем в обратной связи и т.д. В этом случае все прекрасно работает. Яркий пример, использование MEL спектрограмм в аудио распознавании речи на вход и дальше пуста сама. Что в итоге привело к тому, что не одна сетка не умеет работать с шумными данными. А что уж говорить про проблемы ударных слогов, где приходиться обучать доп сетку. И все потому что входные данные не корректны. Поэтому просто сырые данные работают хуже.

Добавим сюда ещё то, что важную роль играют этапы обучения. Если возьмём одни и те же данные и скормим их в разном порядке, то сетка обручиться по разному. Поэтому у человека сначала одна зона обучается, следом развивается другая и тд. Где после их обучения, новые данные уже не обучают эти зоны (отсюда и изучение родного языка до определенного возраста на уровне слуховой коры первых 2ух зон, иначе уже языки будут распознаваться в других частях мозга как дополнительные, вторые языки).

Так что разбиение обязательно. А фонемы, просто неудачный формат абстрагирования звуков человеком, во времена когда не было возможности детально изучать звуки.

0

Зрение и нейронные сети — как мы на самом деле видим мир

proxy3d Dec 28 2024 at 12:42

Да и области колбочек, были бы нагляднее.

0

1 2 ...

16