Да, Whisper с одной стороны уделывает. С другой, когда я смотрю исследования психоакустики, лингвистики и других, я вижу несколько проблем
1) попытка просто в лоб реализоват биологические вещи. Например тот же Синтез речи — Сорокин В.Н, где идет попытка описать работу голосового тракта через поршни и прочие вещи, чтобы воспроизвести вибрации голосовых связок.
2) исследования, которые чаще всего можно выкинуть. Как например исследования влияния формант на эмоции или изучение фонем. Ни кто не полез глубже. Нейробиологам это не так интересно, а те кто изучают уровень абстракции выше не лезут глубже.
Например, не так давно анализировал речь на низком уровне и выяснилось что никаких фонем нет, это неправильное толкование. Точнее звуки есть, но не такие как принято в фонемах. например звук МА, ЛА, как и отдельные М, Л и т.д. В фонемах их нет. А многие в нейронках до сих пор пытаются использовать фонемы, и это зло.
Про эмоции вообще молчу. Там добрую часть научных статей можно смело выкинуть в мусор, так как при проверке оказывается, что описанное в них притянуто за уши.
Но почему важно разбирать на уровне биологии? Потому что тот же Whisper очень паршиво работает в реальных условиях. Он не способен справляться с шумами, качественно следить на конкретным спикеров и т.д. В нем реализована лишь часть биологии. И безусловно ASR можно значительно улучшить, как раз за счет того что мы знаешь о работе слуха. А он на сегодня изучен прекрасно, вплоть до какие типы нейронов (а каждый вид можно сопоставить с топологией сеток) в слоях слуховой коры и в каком слое. Как они связаны. Как изначально происходит обработка звука слухом, как разные зоны помогают уловить все это, убрать шумы и т.д.
И почему то этого я как раз не вижу. Я не вижу, чтобы реально кто то использовал в своих работах эти знания.
Чем больше смотришь исследований, тем больше начинаешь задаваться вопросом. Правильно ли они поставлены? Ведь если взять рандомно человека, и оценить его способности, то можно получить низкий интеллект алкоголика и высокий интеллект какого то профессора. Так как боюсь, что развитие интеллекта у вида имеет что то схожее к нормальному распределению. И кого из этого списка мы взяли не ясно, нужно сотни повторяющихся экспериментов, а не десяток.
Кроме того, как оценивать особь? Допустим человека выкинуть в джунгли, он там помрет через несколько дней. Значит ли это, что интеллект человека низкий, раз он не смог выжить не в своей среде? Или мы оцениваем не интеллект, а уровень знаний? Не стоит ли оценивать интеллект относительно среды обитания, а не сравнивать с человеком. Да и смотря, как многие люди ведутся на мошенников, начинает казаться, что некоторые вороны имеют более крутой интеллект по сравнению с ними, так как способны обманут некоторых людей.
На самом дело, у человека умение считать кол-во предметов не врожденное.
По-моему в лекциях Роберта Сапольского как раз были два примера племен которые живут сейчас (точно не помню то ли оба в Африке, то ли одни в Африке а другие в Австралии), которые умеют считать до 3 и 5 или 5 м 7 (точно не вспомню) соответственно. Так как им больше и не нужно. Тл есть больше этого числа у них в языке идет понятие - много, куча. Оно ограничивает их мышление.
Раскладывали две кучи вещей, и пока в двух кучах число вещей не превышало число до которого они умеют считать они могли сказать в какой куче вещей больше. Но когда кол-во вещей в кучах превышало максимальное число, которое есть в их понимании, то эти люди не могли сказать в какой куче больше вещей.
Так что без должного обучения и передачи знаний, боюсь что человек не далеко ушел от животных (если вообще ушел).
Я понимаю, слепой энтузиазм и непонимание, как ведут себя различные зоны мозга, позволяет мечтать. Ни сколько не приуменьшаю LLM, так же как интернет, и множество других достижений. Но пока там до AGI далеко. Ведь тогда и поисковик можно в назвать в какой то мере AGI, в нем есть вся информация и он ее выдает по запросу, но в более хаотичном виде.
А так, полный игнор работы мозга, нейробиологии, речи, вокализации, почему именно так работает и тд.
Пересмотрел все лекции ребят Яндекс по сеткам. Не увидел ни одной попытки понять, разобраться почему так работает. Нельзя оторвать тему llm от мозга. Язык и последовательности сформировались так не из вакуума. Они изначально были завязаны на биологии, будь то кол-во слов на паузах, или построение речи.
Возьмём для примера трансформеры:
Механизм внимания, это модулятор работающий подобно лобным долям, который под действием важной информации (например, дофамина, норадреналина) усиливает или ослабевает связи на глобальных и локальных маршрутах. Где кортизол играет роль переключателя между локальными и глобальными маршрутами. Тоже происходит в ллм, только на сегодня очень упрощённо. И подобные механизмы есть на разных участках.
Byte per encoding - коснусоидное и синусоидное кодирование позиции "слова" в ллм, тоже самое делает мозг через Альфа, бета, гамма ритмы после зоны Брока. Схожее делает unigramm, только через закон Ципфа на более абстрактном уровне.
Само подобие - в теорию хаоса, так как нейроны являются странными аттракторами и их производные тоже должны обладать само подобием на верхнем уровне.
И многое другое. Вы можете хоть скормить абсолютно все данные вселенные, но получите на выходе отличный поисковик способный быстро обобщать данные. Вы понимаете, что в текущих архитектурах нет ни локальных глобальных маршрутов на уровне модели, ни реализации архитектуры абстрагирования, ни реализации архитектуры отделения себя от остального (теменная зона), ни ведение хронологических цепочек текущих событий (гиппокамп), ни удержание и связь текущего контекста и общих данных (механизм внимания префронтальная кора), ни связи событий (энторинальная кора).
Да что уж там, где нормальная реализация хотя бы слуховой коры, которая способна слышать в шумной части. Хотя там то изучено все.
Даже близко не аналог кратковременной человеческой. От слова совсем, кратковременная гораздо сложнее чем текущие трансформеры. Так же, как и на долговременную он похож лишь частично. Небольшая часть.
Положительные эмоции ни куда не деваются. Но базовые генные паттерны не подразумевают положительных эмоций, они не нужны для выживания особи на начальных этапах, ведь там главное испугаться и тревожиться, а так же усилиться внимание. Все остальное уже идет на более высоком уровне и является цепочкой.
Для примера смех. Из палеонтологии мы знаем, ужас и смех - это близкие последовательности и на уровне мимики и реакции. Когда рядом происходит что-то непонятно, первая реакция это испуг и как-то защититься. Чтобы защититься, хорошо бы в ответ напугать того, кто пугает вас. Чтобы продемонстрировать свою реакцию. Для этого надо разинуть пасть пошире, оскалить клыки, растопырить глаза, поднять шерсть дыбом и громко заорать. Тогда может быть противник не станет нападать. Но в последующем может оказаться, что опасность мнимая и ерунда.
И момент осознания этого, это удивление, когда мы соображаем (амигдала в лимбической системе распознает опасность). В этот момент рот разевается, но так как процесс прерывается, то мы прекращаем этот процесс и он не до конца разевается. Клыки обнажаются чуть чуть, глаза уже немного растопырены, шерсть дыбом, но все по не многу, так как процесс был прерван. И мы удивляемся. А если вдруг оказывается, что то нам показалось опасностью вообще не опасность. То процесс проявления реакции на опасность уже сильный, и поэтому мы перенаправляем эту энергию в другую сторону. Тогда рот открывается не по вертикали, а начинает растягиваться по горизонтали. Клыки при этом не обнажаются, потому что нам не нужно никого пугать. Глаза начинают прищуриваться обратно. И поэтому звук, который мы начали уже издавать из себя становится прерывистым, так как поток воздуха идет через ротовую щель и мы пытаемся приостановить поток воздуха (чтобы и другие не сочли наши действия что мы агрессивные). Если мы замерим мускулатуру мышц, то обнаружим что одни и те же мышцы начинают работать синхронно в обоих случаях, только отличается продолжение. Особенно характерно, что это видно у маленьких детей и детенышей. И поэтому ребенок пока еще не знает что опасно и что неопасно, он очень быстро переключается между плачем и смехом. Иногда это дает сбой и человек видит что то страшное и ужасное и начинает сильно смеяться, потому что его лимбический аппарат допустил ошибку и распознал опасность как не опасную. Так и наоборот, когда опасности нет, но мозг не разобрался и начинает дико пугаться.
Прерывается не сам процесс работы мышц, а скорее самая эмоция. Так как был страх, обнаружили что опасности нет, и чтобы уже запущенный процесс открытия рта и звука другие не сочли за агрессию, проявление должно быть не походим на агрессию. Из легких уже начинает выходить большой поток воздуха, ведь изначально мы хотели напугать в ответ. Остановиться мгновенно мы это не можем, поэтому нам надо
1) изменить мимику лица, но так чтобы она отличалась от мимики агрессии и другая особь не решила что это агрессия. Но при этом, дать потоку воздуха выйти из легких, выдохнув, поэтому мы должны открыть рот. Раз мы не можем открыть его вертикально (другая особь может перепутать с агрессией), мы делаем это горизонтально (в этом случае перепутать уже нельзя).
2) поток воздуха, мы одновременно либо пытаемся остановить выдавая его порциями. Либо пытаемся сделать его выход максимально не похожим на выдыхание при агрессии. Либо из за голосовых связок, которые вместо планового агрессивного крика перекрывают поток воздуха, который периодически под давлением легких прорывается через них. Что напоминает рывки. Не выпускать воздух мы тоже не можем, так как это наполненная грудь больше похоже на воинственный посыл, но и выпустить сразу весь воздух не издав какой то звук мы тоже не можем чтобы его не перепутали с агрессией, поэтому воздух будет выходить максимально не похожим на другие звуки.
Важно, не обязательно воздух будет выходить таким образом. Так как это крайний случай поздней реакции. Если же неопределенность/опасность была быстро распознана как неопасность, то и реакция будет меньше. Например, только в виде улыбки без выдоха потока воздуха или прищуренных глаз. Или же настройкой голосового аппарата, когда голос будет слегка отличаться.
И это один из примеров нарастания эмоций на основе базовых - это неосознанное избегание агрессии. И данный механизм избегания агрессии происходить автоматически. Иначе любая реакция будет всегда приводить к агрессии. И это будет означать цепную реакцию агрессии в обществе, что в итоге приведет к его вымиранию.
Большинство эмоций это вообще субъективное понятие и они возникают только на высшем уровне, за счет понимания сказанного контекста. Например, тут я показывал что на речевом уровне многие из них одинаковые. https://t.me/greenruff/1855 На биологическом за счет перенаправления, прерывания гормональных всплесков (сюда же входят и нейротрансмиттеры), когда организм пытается стабилизировать ситуацию. Все сложнее конечно, так как в той же музыке огромную роль играет на сколько она попадает под "гамматон фильтры" слуха (интервалы) человека, на сколько человек может предсказать дальше мелодию (слишком сильно может - не интересно будет, не может совсем предсказать - жанр не будет нравиться).
Поэтому тут нельзя в двух словах описать. Про боль при слухе и обратное чуть чуть затрагивал тут https://t.me/greenruff/1872 Для пример разбор одного из базовых про-эмоций (я называю их генными, так как они предопределены биологически и прошиты в генах) https://t.me/greenruff/1895
Напишите кто то статью, где с помощью LLM мигрируете запросы SQL с mssql в postgres со всеми триггерами, процедурами и тд. Я постоянно использую chstgpt, сбер и другие llm, чтобы облегчить себе задачи в разработке.
Простые вещи решает отлично. Но что то сложнее и там полная ж... Будь это конвертация функций с одного фреймворка на другой, или где требуется подумать как можно сделать. И самое ужасное, что они пишут правдоподобно и если не перепроверить то проблема вылезет потом. Сделать функцию по формуле, по описанной блок схеме - да, ок. Прописать настройки, сохранить , загрузить данные из файла, сделать примитивные запросы, выдать инфу из доков.
Люди, которые довольны LLM и считают что они заменят. Напишите статью, я реально хочу понять, какие вы задачи решаете что llm отлично справляется и экономит время.
LLM отличный инструмент для облегчения ряда задач. Но даже при написании игры чуть сложнее арканоида, она уже начинает тупить.
С болью все ещё интереснее. У нас весь слух по сути построен на боли. Точнее на воздействии сигнала на волоски. При увеличении частоты звука и более узкий диапазон сигнала (как скрежет металла) и интенсивности, возникает уже боль.
Для примера крик. Там возникают болевые сигналы волосков и параллельно вырабатываются опиоидные гормоны, чтобы не было ощущения боли до какого то момента. И при определенных интерпретациях сигнала мозгом, останется только эффект опиодов. И будет ощущение радости, а в другом боль возьмёт свое. Именно поэтому некоторые мазохисты любят когда на них кричат, так как у них нарушен/обострена реакция на звук и опиодных гормонов выбрасывается очень много.
У нас вообще изначально нет положительных эмоций. Только те что являются сигналом об опасности через тревогу и боль. А все остальные возникли как наслоение на них, чтобы показать обратную реакцию. Так злобный крик превращается в смех. Но в основе, все та же боль. Это универсальный сигнальный механизм у нас для всего, просто пока она не сильная не ощущаем.
Вы правы, даже не подумал об этом. Теперь стало ещё интересней, мозг у них пошел по пути млекопитающих или же по пути птиц. Не влияет ли размер особи, полеты как катализатор развития иной структуры мозга или их зон. Спасибо, что напомнили про рукокрылых.
Попробую с учётом данных чисел сопоставить с гамматон фильтрами. Но они логарифмические. Наш слух это логарифмическая шкала. Этот механизм был открыт и описан давно, его биология по-моему тоже. Так что все равно наш слух пляшет вокруг этих логарифмических интервалов. И если звук находится на границе интервалов, то мозг определяет его принадлежность по динамике звука. Поэтому такое звук вызывает диссонанс. Нотная модель лишь пытается подстроится под эти интервалы. И да, интервалы не идеальные. Но надо будет проверить попадание полутонов при таком разбиении.
Под тупостью я имел ввиду их вокализацию "речи". Она очень скудная, на такой "язык" не построишь. Базовые сигналы да, но что то на уровне летучих мышей, нет.
Была статья на NYTimes где как раз речь была о том, что вороны около 17 лет передают информацию об обиде остальным воронам. То есть они из поколения в поколения передают описание обидчика, чтобы другие на него нападали.
интересное изучение речи воробьев (они же японские синицы)
О том, различают ли те слияние звуков или каждый по отдельности.
Если проще, то развились ли у них механизм словослияния для образования новых слов. Например НОСОРОГ, это НОС и РОГ. На примере человека, если мы по разному реагируем на НОС и РОГ раздельно сказанные двумя разными особями отличие от слитного НОСОРОГ одной особи - значит словообразование у животного развито
Но все зависит от вида птицы и как она развивалась. Голуби действительно тупые. Когда сделать визуализацию их вокализации , то там вообще примитив на уровне сверчков. Не понятно, почему они не развились даже в плане артикуляции речи.
Попугаи крупные могут использовать в правильном контексте выученные слова и даже частично соединять правильно фразы. На Ютубе было не мало таких видео. Когда попугай отвечал в рамках контекста и спрашивал. Хотя конечно до человека далеко ещё, но уже не мало. Но это наблюдается только у крупных попугаев, забыл породу и при том что с ними занимаются с пелёнок.
Так что звуки они разделяют по тому же принципу что и мы в отдельные сигналы.
Что касается мозга то нейроны там во много раз плотнее. А вместо неокортексе там свой аналог, с тем же кол-во слоев. И на абстрактном уровне не такие уж огромные различия. Разница в деталях скорее, во вспомогательных зонах (которых у нас много). Например, у нас левое полушарие это цепочки нейронов в одном слое, а правое связи между слоями. У ворон например, там все как правое. Правое у нас как раз связано с абстрагированием, поэтому вороны отлично с этим справляются .
Например тут я сравнивал степень развитости разных животных по сложности их артикуляции. Кошки оказались на удивление сильно развиты в артикуляции, но слабо развиты в детализации "речи".
А вот вороны неплохо.ищ минусов, я брал данные всех ворон, а надо брать воронов(чтоб сравнить, они умнее).
Аналогично, с попугаями была ошибка, так как смешал много пород попугаев, а они сильно отличаются. В среднем попугаи не особо , но опять же я брал всех. Надо брать конкретно отдельные виды и сравнивать.
Я не так давно пробовал изменить диапазон речи под человеческую: тон, форманты, темп речи. Сделал на сколько смог из имеющихся инструментов. В этом случае вместо кар мы уже слышим совсем другие звуки. И там явно более сложнее все.я сейчас так же разбираю степень развитости животных, включая ворон.
Насчёт музыки, разбирал музыкальные теории формирования разных тональных структур с распределением нот, звуков, кол-во тонов и тд. Классическая просто использовала немного устаревший подход, потом ввели другую модель.
В реальности же, когда я проанализировал речь, то она тесно связанна с уровнями слуха. Их математическим аналогом являются гамматон фильтры. И там логарифмическая шкала получается.
Диссонанс получается тогда, когда звук оказывается на границе фильтра. Мозг в этом случае напрягается, так как непонятно к какому уровню относиться звук.
Пока не понял, как сюда вписывается описание выше. Хотелось бы побольше точных исследований и их названий.
Да, Whisper с одной стороны уделывает. С другой, когда я смотрю исследования психоакустики, лингвистики и других, я вижу несколько проблем
1) попытка просто в лоб реализоват биологические вещи. Например тот же Синтез речи — Сорокин В.Н, где идет попытка описать работу голосового тракта через поршни и прочие вещи, чтобы воспроизвести вибрации голосовых связок.
2) исследования, которые чаще всего можно выкинуть. Как например исследования влияния формант на эмоции или изучение фонем. Ни кто не полез глубже. Нейробиологам это не так интересно, а те кто изучают уровень абстракции выше не лезут глубже.
Например, не так давно анализировал речь на низком уровне и выяснилось что никаких фонем нет, это неправильное толкование. Точнее звуки есть, но не такие как принято в фонемах. например звук МА, ЛА, как и отдельные М, Л и т.д. В фонемах их нет. А многие в нейронках до сих пор пытаются использовать фонемы, и это зло.
Про эмоции вообще молчу. Там добрую часть научных статей можно смело выкинуть в мусор, так как при проверке оказывается, что описанное в них притянуто за уши.
Но почему важно разбирать на уровне биологии? Потому что тот же Whisper очень паршиво работает в реальных условиях. Он не способен справляться с шумами, качественно следить на конкретным спикеров и т.д. В нем реализована лишь часть биологии. И безусловно ASR можно значительно улучшить, как раз за счет того что мы знаешь о работе слуха. А он на сегодня изучен прекрасно, вплоть до какие типы нейронов (а каждый вид можно сопоставить с топологией сеток) в слоях слуховой коры и в каком слое. Как они связаны. Как изначально происходит обработка звука слухом, как разные зоны помогают уловить все это, убрать шумы и т.д.
И почему то этого я как раз не вижу. Я не вижу, чтобы реально кто то использовал в своих работах эти знания.
Чем больше смотришь исследований, тем больше начинаешь задаваться вопросом. Правильно ли они поставлены? Ведь если взять рандомно человека, и оценить его способности, то можно получить низкий интеллект алкоголика и высокий интеллект какого то профессора. Так как боюсь, что развитие интеллекта у вида имеет что то схожее к нормальному распределению. И кого из этого списка мы взяли не ясно, нужно сотни повторяющихся экспериментов, а не десяток.
Кроме того, как оценивать особь? Допустим человека выкинуть в джунгли, он там помрет через несколько дней. Значит ли это, что интеллект человека низкий, раз он не смог выжить не в своей среде? Или мы оцениваем не интеллект, а уровень знаний? Не стоит ли оценивать интеллект относительно среды обитания, а не сравнивать с человеком. Да и смотря, как многие люди ведутся на мошенников, начинает казаться, что некоторые вороны имеют более крутой интеллект по сравнению с ними, так как способны обманут некоторых людей.
На самом дело, у человека умение считать кол-во предметов не врожденное.
По-моему в лекциях Роберта Сапольского как раз были два примера племен которые живут сейчас (точно не помню то ли оба в Африке, то ли одни в Африке а другие в Австралии), которые умеют считать до 3 и 5 или 5 м 7 (точно не вспомню) соответственно. Так как им больше и не нужно. Тл есть больше этого числа у них в языке идет понятие - много, куча. Оно ограничивает их мышление.
Раскладывали две кучи вещей, и пока в двух кучах число вещей не превышало число до которого они умеют считать они могли сказать в какой куче вещей больше. Но когда кол-во вещей в кучах превышало максимальное число, которое есть в их понимании, то эти люди не могли сказать в какой куче больше вещей.
Так что без должного обучения и передачи знаний, боюсь что человек не далеко ушел от животных (если вообще ушел).
Я понимаю, слепой энтузиазм и непонимание, как ведут себя различные зоны мозга, позволяет мечтать. Ни сколько не приуменьшаю LLM, так же как интернет, и множество других достижений. Но пока там до AGI далеко. Ведь тогда и поисковик можно в назвать в какой то мере AGI, в нем есть вся информация и он ее выдает по запросу, но в более хаотичном виде.
А так, полный игнор работы мозга, нейробиологии, речи, вокализации, почему именно так работает и тд.
Пересмотрел все лекции ребят Яндекс по сеткам. Не увидел ни одной попытки понять, разобраться почему так работает. Нельзя оторвать тему llm от мозга. Язык и последовательности сформировались так не из вакуума. Они изначально были завязаны на биологии, будь то кол-во слов на паузах, или построение речи.
Возьмём для примера трансформеры:
Механизм внимания, это модулятор работающий подобно лобным долям, который под действием важной информации (например, дофамина, норадреналина) усиливает или ослабевает связи на глобальных и локальных маршрутах. Где кортизол играет роль переключателя между локальными и глобальными маршрутами. Тоже происходит в ллм, только на сегодня очень упрощённо. И подобные механизмы есть на разных участках.
Byte per encoding - коснусоидное и синусоидное кодирование позиции "слова" в ллм, тоже самое делает мозг через Альфа, бета, гамма ритмы после зоны Брока. Схожее делает unigramm, только через закон Ципфа на более абстрактном уровне.
Само подобие - в теорию хаоса, так как нейроны являются странными аттракторами и их производные тоже должны обладать само подобием на верхнем уровне.
И многое другое. Вы можете хоть скормить абсолютно все данные вселенные, но получите на выходе отличный поисковик способный быстро обобщать данные. Вы понимаете, что в текущих архитектурах нет ни локальных глобальных маршрутов на уровне модели, ни реализации архитектуры абстрагирования, ни реализации архитектуры отделения себя от остального (теменная зона), ни ведение хронологических цепочек текущих событий (гиппокамп), ни удержание и связь текущего контекста и общих данных (механизм внимания префронтальная кора), ни связи событий (энторинальная кора).
Да что уж там, где нормальная реализация хотя бы слуховой коры, которая способна слышать в шумной части. Хотя там то изучено все.
Даже близко не аналог кратковременной человеческой. От слова совсем, кратковременная гораздо сложнее чем текущие трансформеры. Так же, как и на долговременную он похож лишь частично. Небольшая часть.
Положительные эмоции ни куда не деваются. Но базовые генные паттерны не подразумевают положительных эмоций, они не нужны для выживания особи на начальных этапах, ведь там главное испугаться и тревожиться, а так же усилиться внимание. Все остальное уже идет на более высоком уровне и является цепочкой.
Для примера смех. Из палеонтологии мы знаем, ужас и смех - это близкие последовательности и на уровне мимики и реакции. Когда рядом происходит что-то непонятно, первая реакция это испуг и как-то защититься. Чтобы защититься, хорошо бы в ответ напугать того, кто пугает вас. Чтобы продемонстрировать свою реакцию. Для этого надо разинуть пасть пошире, оскалить клыки, растопырить глаза, поднять шерсть дыбом и громко заорать. Тогда может быть противник не станет нападать. Но в последующем может оказаться, что опасность мнимая и ерунда.
И момент осознания этого, это удивление, когда мы соображаем (амигдала в лимбической системе распознает опасность). В этот момент рот разевается, но так как процесс прерывается, то мы прекращаем этот процесс и он не до конца разевается. Клыки обнажаются чуть чуть, глаза уже немного растопырены, шерсть дыбом, но все по не многу, так как процесс был прерван. И мы удивляемся. А если вдруг оказывается, что то нам показалось опасностью вообще не опасность. То процесс проявления реакции на опасность уже сильный, и поэтому мы перенаправляем эту энергию в другую сторону. Тогда рот открывается не по вертикали, а начинает растягиваться по горизонтали. Клыки при этом не обнажаются, потому что нам не нужно никого пугать. Глаза начинают прищуриваться обратно. И поэтому звук, который мы начали уже издавать из себя становится прерывистым, так как поток воздуха идет через ротовую щель и мы пытаемся приостановить поток воздуха (чтобы и другие не сочли наши действия что мы агрессивные). Если мы замерим мускулатуру мышц, то обнаружим что одни и те же мышцы начинают работать синхронно в обоих случаях, только отличается продолжение. Особенно характерно, что это видно у маленьких детей и детенышей. И поэтому ребенок пока еще не знает что опасно и что неопасно, он очень быстро переключается между плачем и смехом. Иногда это дает сбой и человек видит что то страшное и ужасное и начинает сильно смеяться, потому что его лимбический аппарат допустил ошибку и распознал опасность как не опасную. Так и наоборот, когда опасности нет, но мозг не разобрался и начинает дико пугаться.
Прерывается не сам процесс работы мышц, а скорее самая эмоция. Так как был страх, обнаружили что опасности нет, и чтобы уже запущенный процесс открытия рта и звука другие не сочли за агрессию, проявление должно быть не походим на агрессию. Из легких уже начинает выходить большой поток воздуха, ведь изначально мы хотели напугать в ответ. Остановиться мгновенно мы это не можем, поэтому нам надо
1) изменить мимику лица, но так чтобы она отличалась от мимики агрессии и другая особь не решила что это агрессия. Но при этом, дать потоку воздуха выйти из легких, выдохнув, поэтому мы должны открыть рот. Раз мы не можем открыть его вертикально (другая особь может перепутать с агрессией), мы делаем это горизонтально (в этом случае перепутать уже нельзя).
2) поток воздуха, мы одновременно либо пытаемся остановить выдавая его порциями. Либо пытаемся сделать его выход максимально не похожим на выдыхание при агрессии. Либо из за голосовых связок, которые вместо планового агрессивного крика перекрывают поток воздуха, который периодически под давлением легких прорывается через них. Что напоминает рывки. Не выпускать воздух мы тоже не можем, так как это наполненная грудь больше похоже на воинственный посыл, но и выпустить сразу весь воздух не издав какой то звук мы тоже не можем чтобы его не перепутали с агрессией, поэтому воздух будет выходить максимально не похожим на другие звуки.
Важно, не обязательно воздух будет выходить таким образом. Так как это крайний случай поздней реакции. Если же неопределенность/опасность была быстро распознана как неопасность, то и реакция будет меньше. Например, только в виде улыбки без выдоха потока воздуха или прищуренных глаз. Или же настройкой голосового аппарата, когда голос будет слегка отличаться.
И это один из примеров нарастания эмоций на основе базовых - это неосознанное избегание агрессии. И данный механизм избегания агрессии происходить автоматически. Иначе любая реакция будет всегда приводить к агрессии. И это будет означать цепную реакцию агрессии в обществе, что в итоге приведет к его вымиранию.
Большинство эмоций это вообще субъективное понятие и они возникают только на высшем уровне, за счет понимания сказанного контекста.
Например, тут я показывал что на речевом уровне многие из них одинаковые.
https://t.me/greenruff/1855
На биологическом за счет перенаправления, прерывания гормональных всплесков (сюда же входят и нейротрансмиттеры), когда организм пытается стабилизировать ситуацию. Все сложнее конечно, так как в той же музыке огромную роль играет на сколько она попадает под "гамматон фильтры" слуха (интервалы) человека, на сколько человек может предсказать дальше мелодию (слишком сильно может - не интересно будет, не может совсем предсказать - жанр не будет нравиться).
Поэтому тут нельзя в двух словах описать. Про боль при слухе и обратное чуть чуть затрагивал тут https://t.me/greenruff/1872
Для пример разбор одного из базовых про-эмоций (я называю их генными, так как они предопределены биологически и прошиты в генах) https://t.me/greenruff/1895
Напишите кто то статью, где с помощью LLM мигрируете запросы SQL с mssql в postgres со всеми триггерами, процедурами и тд. Я постоянно использую chstgpt, сбер и другие llm, чтобы облегчить себе задачи в разработке.
Простые вещи решает отлично. Но что то сложнее и там полная ж... Будь это конвертация функций с одного фреймворка на другой, или где требуется подумать как можно сделать. И самое ужасное, что они пишут правдоподобно и если не перепроверить то проблема вылезет потом. Сделать функцию по формуле, по описанной блок схеме - да, ок. Прописать настройки, сохранить , загрузить данные из файла, сделать примитивные запросы, выдать инфу из доков.
Люди, которые довольны LLM и считают что они заменят. Напишите статью, я реально хочу понять, какие вы задачи решаете что llm отлично справляется и экономит время.
LLM отличный инструмент для облегчения ряда задач. Но даже при написании игры чуть сложнее арканоида, она уже начинает тупить.
С болью все ещё интереснее. У нас весь слух по сути построен на боли. Точнее на воздействии сигнала на волоски. При увеличении частоты звука и более узкий диапазон сигнала (как скрежет металла) и интенсивности, возникает уже боль.
Для примера крик. Там возникают болевые сигналы волосков и параллельно вырабатываются опиоидные гормоны, чтобы не было ощущения боли до какого то момента. И при определенных интерпретациях сигнала мозгом, останется только эффект опиодов. И будет ощущение радости, а в другом боль возьмёт свое. Именно поэтому некоторые мазохисты любят когда на них кричат, так как у них нарушен/обострена реакция на звук и опиодных гормонов выбрасывается очень много.
У нас вообще изначально нет положительных эмоций. Только те что являются сигналом об опасности через тревогу и боль. А все остальные возникли как наслоение на них, чтобы показать обратную реакцию. Так злобный крик превращается в смех. Но в основе, все та же боль. Это универсальный сигнальный механизм у нас для всего, просто пока она не сильная не ощущаем.
Вы правы, даже не подумал об этом. Теперь стало ещё интересней, мозг у них пошел по пути млекопитающих или же по пути птиц. Не влияет ли размер особи, полеты как катализатор развития иной структуры мозга или их зон. Спасибо, что напомнили про рукокрылых.
Попробую с учётом данных чисел сопоставить с гамматон фильтрами. Но они логарифмические. Наш слух это логарифмическая шкала. Этот механизм был открыт и описан давно, его биология по-моему тоже. Так что все равно наш слух пляшет вокруг этих логарифмических интервалов. И если звук находится на границе интервалов, то мозг определяет его принадлежность по динамике звука. Поэтому такое звук вызывает диссонанс. Нотная модель лишь пытается подстроится под эти интервалы. И да, интервалы не идеальные. Но надо будет проверить попадание полутонов при таком разбиении.
Под тупостью я имел ввиду их вокализацию "речи". Она очень скудная, на такой "язык" не построишь. Базовые сигналы да, но что то на уровне летучих мышей, нет.
Про ворон.
Была статья на NYTimes где как раз речь была о том, что вороны около 17 лет передают информацию об обиде остальным воронам. То есть они из поколения в поколения передают описание обидчика, чтобы другие на него нападали.
https://www.nytimes.com/2024/10/28/science/crows-grudges-revenge.html?searchResultPosition=1
Само исследование
https://www.researchgate.net/publication/223261147_Lasting_Recognition_of_Threatening_People_by_Wild_American_Crows
https://www.nature.com/articles/s41467-022-33360-3?fromPaywallRec=false
Ядро-слияние
интересное изучение речи воробьев (они же японские синицы)
О том, различают ли те слияние звуков или каждый по отдельности.
Если проще, то развились ли у них механизм словослияния для образования новых слов. Например НОСОРОГ, это НОС и РОГ. На примере человека, если мы по разному реагируем на НОС и РОГ раздельно сказанные двумя разными особями отличие от слитного НОСОРОГ одной особи - значит словообразование у животного развито
Там у многих птиц развита речь а разной степени. По-моему первенство сейчас у летучих мышей.
https://www.nature.com/articles/srep39419
Но все зависит от вида птицы и как она развивалась. Голуби действительно тупые. Когда сделать визуализацию их вокализации , то там вообще примитив на уровне сверчков. Не понятно, почему они не развились даже в плане артикуляции речи.
Попугаи крупные могут использовать в правильном контексте выученные слова и даже частично соединять правильно фразы. На Ютубе было не мало таких видео. Когда попугай отвечал в рамках контекста и спрашивал. Хотя конечно до человека далеко ещё, но уже не мало. Но это наблюдается только у крупных попугаев, забыл породу и при том что с ними занимаются с пелёнок.
Так же слуховая кора не особо отличается от человеческой у птиц. Те же слои.
https://t.me/greenruff/2004?single
Так что звуки они разделяют по тому же принципу что и мы в отдельные сигналы.
Что касается мозга то нейроны там во много раз плотнее. А вместо неокортексе там свой аналог, с тем же кол-во слоев. И на абстрактном уровне не такие уж огромные различия. Разница в деталях скорее, во вспомогательных зонах (которых у нас много). Например, у нас левое полушарие это цепочки нейронов в одном слое, а правое связи между слоями. У ворон например, там все как правое. Правое у нас как раз связано с абстрагированием, поэтому вороны отлично с этим справляются .
Например тут я сравнивал степень развитости разных животных по сложности их артикуляции. Кошки оказались на удивление сильно развиты в артикуляции, но слабо развиты в детализации "речи".
https://t.me/greenruff/2009?single
А вот вороны неплохо.ищ минусов, я брал данные всех ворон, а надо брать воронов(чтоб сравнить, они умнее).
Аналогично, с попугаями была ошибка, так как смешал много пород попугаев, а они сильно отличаются. В среднем попугаи не особо , но опять же я брал всех. Надо брать конкретно отдельные виды и сравнивать.
Я не так давно пробовал изменить диапазон речи под человеческую: тон, форманты, темп речи. Сделал на сколько смог из имеющихся инструментов. В этом случае вместо кар мы уже слышим совсем другие звуки. И там явно более сложнее все.я сейчас так же разбираю степень развитости животных, включая ворон.
https://t.me/greenruff/1932?single
Насчёт музыки, разбирал музыкальные теории формирования разных тональных структур с распределением нот, звуков, кол-во тонов и тд. Классическая просто использовала немного устаревший подход, потом ввели другую модель.
В реальности же, когда я проанализировал речь, то она тесно связанна с уровнями слуха. Их математическим аналогом являются гамматон фильтры. И там логарифмическая шкала получается.
Диссонанс получается тогда, когда звук оказывается на границе фильтра. Мозг в этом случае напрягается, так как непонятно к какому уровню относиться звук.
Пока не понял, как сюда вписывается описание выше. Хотелось бы побольше точных исследований и их названий.