Обновить
58
0.5
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

Отправить сообщение

Укажите , как вы подготавливали данные при передаче его в Whisper. Как боролись с краткими фразами. Когда пользователь сказал только одно слово. В этом случае Whisper может тупить. Например, слово стоп, может распознать неправильно.

Как решили проблему с быстрой речью в whisper.

Как решали проблему со спикерами, когда допустим говорит мама и дочка (по очереди или в фоне). Анализ таких аудио у меня показывал, что их тональность схожая. Разделяли ли вы такую речь? Или считали как ошибка.

Как решали проблему ложных срабатываний, когда VAD решит, что данный отрезок речь. Как вы сначала подготавливали такие аудио, перед их распознаванием. Так как если вы выйдите на улицу, где рядом ездят машины, то просто VAD и Whisper не смогут справиться, и будет не мало ложных срабатываний.

Судя по вашему кейсу, вы анализировали звонки. Я когда анализировал звонки в такси, то все описанные выше проблемы были. Интересно как вы их решали.

Вода без конкретики. Например, аудио данные для обучения. Написание фреймворка для работы с аудио, который позволит мне правильно подготовить данные заняло полгода-год. Чтобы он мог выделять только голоса, откидывать шумные, определять громкость речи (крик, шёпот, тихая, громкая речь), определять уровень дикции (равномерно ли распределяет воздух в лёгких говорящий, чтобы не оказалось что в конце он уже заряжается и говорит тише), определение нет ли на записи посторонних голосов, функции правильного выравнивания речи по громкости (простая нормализация не учитывает, что кто то говорит немного громче или тише, микрофон по разному стоит), разбиение по эмоциональным признакам (чтобы оне мешать все в кучу) и так далее. Написание функций и этапов подготовки всех этих данных.

Вот согласно вашему описанию, вы написали , возьмите карандаш и нарисуйте сову. Вот без конкретных деталей, на конкретном примере данных для ллм к примеру, это просто набор текста.

Опишите конкретный пример. Дообучаем ллм, возьмём данные из Википедии или из документов компании и как вы решали эту задачу. Польза статьи сразу значительно вырастет.

Если коротко, то суть сводиться к следующему. Лобная доля запоминает сценарии поведения и сохраняет их. В одних случаях активируются длинные глобальные маршруты - когда сигнал проходит через несколько зон. При стрессе локальные маршруты, когда сигнал проходит через одну зону.

Управляет этим поведением лобная доля (это видно на фото выше, где показана ее активация во время разных сценариев). Мозг обучается этим сценариям, лобная доля модулирует сигнал, и перенаправляет маршрут по разным сценариям поведения: будете вы бросаться с кулаками на собеседника, или прочитаете ему нотацию на его поведение.

Эти сценарии зависят от среды обитания, воспитания, культурных особенностей и так далее. Под действием картизола, лобная доля ослабляет модуляцию и сигнал локальный для быстрой реакции. Но эта реакция построена на выученных сценариях. В случае дофамина, наоборот лобная усиливается и сигнал идёт по глобальными маршрутам и за счёт этого усиливает множество связей. Норадрналин, наоборот усиливает самый яркий сигнал, подавляя соседние, что приводит к самому сильному сценарию на ситуацию, откидывая все остальные (думать некогда)

У кортизола есть ещё одна особенность, по длительном его воздействии связи в лобной доли разрушаются. Это связано с тем, что длительный стресс означает, что данная модель поведения (сценария ) не работает, значит неэффективная и ее надо забыть и записать какую то более полезную.

Например, если раньше разрушить лобную долю (дименция), то человек не может контролировать сценарии. В штатах был такой пример, когда в доме престарелых старик изнасиловал бабушку. У него из за Альцгеймера или дименции (не помню точно) возникли нарушения в лобной доли, и та перестала работать. Человек перестал себя контролировать. Сценарий выбирался мозги на основе базовых инстинктивных, без модуляции поведения выбирающего оптимальный сценарий. Тоже самое наблюдается у многих заключённых, которые совершили не поддающиеся логике преступления (при этом понимая что это плохо, но не в состоянии управлять выбором поведения). Подобное можно наблюдать в преступлениях в состоянии аффекта, когда сильный выброс кортизола и норадреналина парализует лобную долю.

Так что либо исследование слишком старое, либо не понятно, что конкретно оно выявило. В 2020 это точно было уже известно.

Используйте rayserve. Это opensource. Он как раз для этого и создан, чтобы балансировать нагрузку на gpu между машинами . Он сам берет на себя роль балансировщика, где вы можете настроить как распределение ресурсов на вашу модель (если запущены ещё другие), мониторить нагрузку, автоматически расширять нагрузку через создание дополнительных машин (autoscaling).

На эту тему рекомендую книгу по ray serve. Ничего сложного там нет

https://ozon.ru/t/HOq1ZlK

Что они сделали на самом деле.

Использовали комбинацию fMRI и EEG, чтобы восстановить акустические характеристики услышанных звуков.

Анализировали мел-спектрограммы (представление звука, близкое к человеческому восприятию), чтобы сравнить оригинальные и восстановленные аудиосигналы. То есть это исследование об анализе слуха и связи зрительных зон и тех что связаны с восприятием речи.

Что в итоге выявили: что добавление данных из зрительных областей мозга (по fMRI) улучшает качество аудиореконструкции, что подтверждает взаимосвязь между слуховой и зрительной обработкой.

Хотя так же анализировали видео данные для реконструкции.

Но вот точные подробности, не совсем понятные. В плане обучения. Исследование реально интересное, но в нем не хватает деталей. Какие конкретно участки анализировали, как сопоставляли сигналы. Их архитектура раскрыта не полностью, так же мало сведений о том как происходило обучение, какие методы были при восстановлении данных. С их сайта я так понял, что они используют архитектура nerf (название по памяти не помню точно), так которая позволяет по фото восстановить данные об объекте (чтобы потом вращать его к примеру). В репозитории, который они привели только картинки из их исследования.

С одной стороны, работа проделана большая и результаты впечатляют. С другой, слишком мало подробностей. Пока из нее можно только сделать вывод, что учитываете зрительного сигнала, позволяет улучшить качество распознавание слышимой речи. Что логично (зрение модулирует слуховые сигналы), но подтвердили это экспериментом. Видимо зрение, позволяет усилить важные сигналы. ЭЭГ тут выступает в качестве ритмов, которые как раз позволяют синхронизировать данные аудио и видео (ритмы выделяют наиболее важные признаки, через усиление важных сигналов, как например механизм внимания в трансформерах). Это похоже на мультмодальные модели, где через cross -attention происходит интеграция одного типа данных в других.

Меня тут очень смущает, как минимум экстрагирование результата 6 испытуемых на обобщенные результаты. В ЭЭГ исследованиях, за которыми я провел годы разбирая их и пробуя, были проблемы. Там часто встречалось такое, как "провели исследование на 8 иранских женщинах" и результат экстраполировали на всех. Проблем в таких результатах множество: малая выборка, слишком специфичная выборка, культурные особенности, постановка эксперимента исследования и так далее. Например, когда проверяешь, то легко может оказаться , что это реакция не на котиков, а на мерцание определенного цвета на изображении или лампы в помещении и так далее. Должно быть хотя бы 50 испытуемых разного возраста, пола, разных культур, в разных помещениях, с точным описанием протокола самого исследования. Иначе может они научились определять по видео их религиозное отношение и это влияет на предсказание.

Надо будет внимательно прочитать, что именно они сделали и как проверили. Так как раньше, данные по визуализации получали не совсем из всего мозга, а скорее из ее части, которая кодировала сенсорные сигналы в подобие токенов. Зрительные области, где происходило кодирование сигнала. Это аналогично, как подключиться ко входу между штекером USB с камеры и входом USB. Поэтому надо смотреть, что именно китайцы сделали, а что журналисты преувеличили.

неокортекс
неокортекс

Что касается ЭЭГ, то он в лучшем идеальном случае сможем получить информацию из самого верхнего слоя 1, через который проходит модуляция нижних слоев другими участками мозга.

Но ЭЭГ улавливаем по сути ритмы, а не сигналы единичные нейронов. Поэтому может лишь указать, что сейчас внимание на деталях, на объекте и так далее.

Другая проблема, что во время стресса норадреналин к примеру, просто будет снижать уровень воздействия сигнала. А слой 1 играет большую роль через модуляцию сигнала нероймедиаторами. Во время просмотра яркого фильма (который выбрали), явно стресс будет скакать.

Поэтому хорошо бы детально проверить исследование и результаты. Чтобы не вышло так, что его результаты притянуты за уши, вольно интерпретировались, подсогнались или вообще журналисты не правильно поняли.

Тоже самое что и у человека. Но вообще predict coding вроде давно уже используется как в робототехнике , так и в нейробиологии. Или тут что то другое?

https://t.me/greenruff/2163
https://t.me/greenruff/2163

Недавно как раз разбирал это, чтобы показать тот же механизм как в робототехнике, так и в биологии.

Как я понимаю, основная проблема, почему это раньше не использовали - это ограничение расчетов при использовании обучения нейронах сетей и скорости при их использования. Сейчас мощные GPU небольшого размера, по адекватным ценам.

А сейчас разучилась видимо) Посмотрите теорию хаоса, и почему погоду нельзя предсказать больше определенного промежутка. Прогноз погоды на длительные сроки (более 10–14 дней) ограничен из-за чувствительности атмосферы к начальным условиям — это один из ключевых принципов теории хаоса. Это 10-14 дней это при идеальных предсказанных условиях!

Более того, Wolfram Alpha не является нейросетью в современном понимании, это система символьных вычислений, которая агрегирует данные из проверенных источников (например, метеорологических служб). Wolfram Alpha показывала текущую погоду и краткосрочные прогнозы, но не генерировала их самостоятельно. Она использовала данные из внешних источников (National Weather Service).

DeepMind к примеру предсказывает сейчас погоду на 10 дней с точностью, сопоставимой с традиционными методами, но в 1000 раз быстрее. То есть вы не можете преодолеть этот предел.

Это называется оптимальная адаптации .

  • Подушковидная форма — уменьшает теплопотери и защищает от ветра.

  • Мелкие листья с восковым налетом — снижают испарение и отражают УФ-лучи.

  • Корни, растущие горизонтально — цепляются за тонкий слой почвы.

Как результат, неродственные виды из разных семейств независимо развили почти идентичную форму. Это и есть конвергентная эволюция в действии!

Животные имеют более усложненную форму выживания:

  • Мигрировать вниз по склону в более мягкие условия.

  • Активно искать пищу и укрытие (например, птицы летают на большие расстояния, грызуны прячутся в расщелинах).

  • Регулировать температуру тела

  • Разбиться по видам питания: Травоядные, Хищники, Падальщики, Насекомые

  • Разбиться на экологические ниши, чего не могут сделать растения на экстремальных высотах (так как ограничены светом, водой, микроскопическими участками почвы)

Так что еще раз, в каждой среде система находить компромисс для максимальной эффективности. Другим видам не нужно колесо, так как задача системы получить максимальные преимущества сейчас. Ей не нужны знания или возможности про запас. Вы ведь тоже не лезете изучать материал по данным направлениям, а рассуждаете на основе ваших текущих потребностей. Это и есть ответ на вопрос, почему другие крупные особи не используют колесо.

Люди-эксперты конечно присутствуют в ASD, я поэтому и написал что часть проблем там решаема. Просто изначально может показаться, что ASD полностью уберет людей и автоматизирует процесс. Насчет нестандартных задач не знаю, так как это все особенности инструкций. Для этого надо делать тогда еще сложные модель для оценки поставленных задач при их генерации и метрики для этого, а не просто давать это на откуп модели через инструкции.

Там еще есть проблема в том, что если модель состоит всего из двух элементов как в ASD, то тут может возникнуть проблема как и при обучении. Когда модель улавливает закономерность, что за более расплывчатые ответы они получает например не максимум оценку, а среднюю. Но в итоге эта средняя дает больше результат баллов (если Loss связан с этим). То она начинает использовать это, вместо более сложных вопросов и ответов.

В общем проблем там действительно много. Поэтому я решил для себя начать с генерации аналоги вики, так как там сами темы статей являются вопросами. А затем уже смотреть на генерацию самих задач.

Было бы прекрасно, если бы люди сверялись сначала с существующими исследованиями (хотя бы 2012 года). А затем уже, строили выводы.

К примеру очень глубокое обобщение в "Канонические микросхемы для предиктивного кодирования" от Bastos
https://www.cell.com/neuron/fulltext/S0896-6273(12)00959-2
С тех пор прошло 13 лет, но многим людям до сих пор проще строить догадки, чем изучить то, что уже изучено.

Вы путаете причину и следствие. Вырвав из контекста только одну функцию. Если же вы начнете учитывать все условия, то у вас останется все меньше конечных вариантов решения. Это хорошо объясняется в теории конечных автоматов.

Слева (Raoulia eximia - семейство Астровые, Новозеландские Альпы), справа (Azorella compacta  - семейство Зонтичные  в Анды Южная Америка)
Слева (Raoulia eximia - семейство Астровые, Новозеландские Альпы), справа (Azorella compacta - семейство Зонтичные в Анды Южная Америка)

Для примера в биологии тоже самое. Выше два совершенно разных семейства, развивающихся на разных материках, но в одинаковых суровых условиях (на вершинах гор, где не выживают другие растения). В этих условиях, выживает единицы и все эти единицы сходятся к 4-5 видам формы, цветков и другим особенностям (не зависимо от семейства и материка и изначальной их формы).

Поэтому если вы начнете учитывать все важные детали. То получите птицу. Если же вам нужны только 1-3 функции то получите квадрокоптер/самолет. Поэтому в условиях среды обитания птицы эффективней самолета и квадрокоптера, но могут проигрывать в единичных функциях, так как они не дают им преимуществ.

Начните с предсказания погоды. Изучите теорию хаоса, тогда можно будет лучше понять, о чем именно теорема Цыбенко

Например, ознакомиться с научной работой Роберта Сапольского. А так же посмотреть для примера эти две его лекции про Хаос в биологии. Там и про теорию конечных автоматов захватывается и другие важные темы и нейронные сети.

https://youtu.be/MqtnpcdvxaI?si=ASbGKcDHxNz5UJzw

А так же его же лекцию про Эмерджентность и сложность систем.

https://youtu.be/ScKNmdoY2bE?si=bTt-E6tDKD42r2Gc

Заодно начать с его исследования "Редукционизм и изменчивость данных: метаанализ" на эту тему - про средний показатель ошибки в 18% на любом уровне детализации изучаемой системы

https://www.sci-hub.ru/10.1353/pbm.1996.0057?ysclid=m8n0xrlvjq495717602

Из современных https://pmc.ncbi.nlm.nih.gov/articles/PMC8168858/

И уже тогда возвращаться к теореме Цыбенко, чтобы понять, что конкретно она доказывает.

Что касается описанного подхода ASD, то модель "учёный - испытуемый" в том виде, как сейчас имеет ряд серьезных проблем:

1) Слепота к собственным ошибкам:

Модель может некорректно оценивать свои ответы, если ошибка заложена в её внутренних паттернах. Например, если "испытуемый" неправильно выполняет арифметические операции, модель-оценщик (даже такой же версией) может не заметить ошибку из-за "слепых зон".

Тот же GPT-4 иногда ошибается в многошаговых вычислениях и рассуждениях, и если оценка проводится через него же, то ошибка может остаться незамеченной.

2) Предвзятость при генерации задач:

Модель-учёный может часто генерировать задачи, которые соответствуют её сильным данным, игнорируя слабые. Например, если модель хуже справляется с логическими задачами, она будет создавать меньше таких задач, что искажает оценку.

К примеру Claude, обученный на диалогах, будет генерировать больше задач на понимание текста и меньше на математику.

3) Циклическая ошибка:

Если учёный и испытуемый — одна модель, ошибки могут усиливаться. Например, систематическая ошибка в определении контекста будет продолжать воспроизводиться на всех этапах.

4) Проблемы с генерацией архива задач

Пример неудачной задачи: Задача "Назовите цвет неба" легко может быть добавлена в архив, хотя она не раскрывает реальных возможностей модели и по-сути будет мусором.

5) Ограничения метрик

Например задача "Сложите 2 и 3" и "Прибавьте 3 к 2" будут расценены как разные задачи, хотя проверяют один навык.

6) Игнорирование нюансов контекста

В какои то творческом задании модель может дать формально правильный, но бессмысленный ответ, который ACD пометит как "успешный". Тут на Хабре очень любят обсуждение таких ответов и определение верно или нет.

7) Риск переобучения

Если ASD генерирует задачи, похожие на обучающие данные. Это когда модель-учёный генерирует задачи, близкие к тем, что были в датасете испытуемого, оценка может быть завышена.

Для примера если Llama3 обучалась на GitHub-коде, задачи на генерацию кода будут для неё "лёгкими", но это не отразит её реальные способности решать новые проблемы.

То есть часть задач можно решить. Поэтому подход использовать много разных арбитров с разными LLM часть этих проблем решает.

https://t.me/greenruff/1756

Сейчас как раз для себя делаю другую модель, где сетки занимаются оценкой. Давно предложил и проверил ее, так как она уменьшает галлюцинации и позволяет находить более точный ответ. Там прикладывал исходники.

Когда несколько моделей выступают арбитрами и оценивают ответы других и так же дают оценку причинам их ответа. Где в итоге, побеждает та модель, которая набрала больше всего баллов.

То есть в отличие от данной модели "Учёный - испытуемый", в случае когда арбитры, нет конкретного ученого или испытуемого. Каждая является ученым по отношению к другим, и испытуемым для других. Это действительно сильно повышало качество, но требует значительных ресурсов по времени и запросам.

Собственно сейчас тоже ради этого, генерирую "виккипедию" данным образом, чтобы потом получить качественный датасет для обучения. А заодно проверить подход на крупных данных.
Так что для таких вещей, описанный метод очень не плох, но имеет некоторые проблемы собственной самооценкой (если используем только "Учёный - испытуемый").

Мы обсуждаем отсутствие в LLM аналогов биологических процессов (гистерезис, таламическая фильтрация). Если вы утверждаете, что это уже есть — назовите конкретные архитектурные решения или исследования.

Я не готов объяснять, вам то, что вы сами не желаете изучить. Ко мне периодически приходят и пытаются доказать свое субъективное мнение. Поэтому не готов тратить свое время на человека, который не удосужился хотя бы поверхностно изучить, то о чем пишет.

Недавно попытался подобным образом объяснить одному (как вы писал поток сознания), расписать исследования о связи искусственных нейронных сетей и живых нейронов. Но это просто пустая трата времени.

https://t.me/greenruff/2165?comment=7188

Скажите, сколько км может прилететь квадрокоптер на одном заряде? Птицы могут пролететь без остановке до 12000 км несколько суток.

Напомните мне: дальность полета, длительность полета и энергоэффективность квадрокоптера.

Может вы тогда сравните с гидрой по долгожительству? Закрыв глаза на все остальные факторы и влияние среды?

А как квадракоптер справляется в холодное время суток? Неужели перья птиц, кроме аэродинамики выполняют ещё роль терморегуляции? Не может быть, компромисс сочетания нескольких сложных функций, ради достижения максимальной эффективности энтропии.

Когда вы вырываете из контекста одну функцию, и затем сравнивает ее с более универсальный системой - это называется манипуляция.

Тут немного описал это. Так же описывал в комментариях на хабре

https://habr.com/ru/companies/wunderfund/articles/894100/comments/#comment_28086760

То есть это работа механизма нейронов, которая включает в себя

  • повторяет адаптацию нейронов к устойчивым стимулам.

  • подавление шума, случайные флуктуации гасятся быстрее, чем значимые сигналы.

В реальном мозге нейроны обладают инерцией. Их активность не меняется мгновенно, а зависит от истории входных сигналов. Например, длительная стимуляция приводит к адаптации (замедленной реакции), а внезапное исчезновение сигнала даёт быстрое торможение.

Биологический аналог — деполяризация и гиперполяризация

  • При стимуляции порог активации нейрона может меняться (например, в зрительной коре — эффект усталости нейрона).

  • Если стимул долго действует, нейрон теряет чувствительность (адаптация).

  • Если стимул исчезает, он быстро переходит в состояние покоя.

  • Это как раз и есть гистерезис: рост медленный, спад быстрый.

https://t.me/greenruff/2170?single

Но изначально, я опирался на работу глиальных клеток и гомеостаза в них. Но там он происходит более медленно. А вот на уровне нейронов гистерезис работает постоянно и быстро.

Это связано с динамикой ионных каналов, где работает быстрее, другие медленнее. Что приводит к петле гистерезис: когда скорость подъема и падения не симметричная. Данный механизм, позволяет фильтровать шумы хоть на уровне нейронов, хоть на уровне глиальных клеток, хоть на гормональном уровне. Так как присутствует везде, даже в от биологии до электроники.

Этого достаточно для частичной реализации. Но флуктуации в хаотичных системах не имеют нормального распределения, а описаны фазовым пространством системы (теория хаоса).

https://t.me/greenruff/2021

Для пример, анализ речи который я делал, на основе градиентов (колебания пиков и движений артикуляторное во время речи).

Визуально это похоже на нормальное распределение, но в реальности расчеты показывают, что фазовое пространство (в рамках которого мы и получаем эти флуктуации) речи не имеет нормального распределения. В первом приближении ГСПЧ конечно подойдет, но конечно он не даст такого результата, который могут дать квантовые компьютеры, где флуктуации это их основа.

Речь просто пример такой хаотической системы. Точно так же какой являются нейроны, и множество других биологических процессов как на низком уровне, так и на верхнем уровне абстракции (вплоть до предсказания погоды). И тут ГСПЧ бесполезен, так как дает нормальное распределение, в то время как флуктуации хоть и похожи на нормальное распределение, но ими не являются.

Информация

В рейтинге
2 008-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность