Используйте rayserve. Это opensource. Он как раз для этого и создан, чтобы балансировать нагрузку на gpu между машинами . Он сам берет на себя роль балансировщика, где вы можете настроить как распределение ресурсов на вашу модель (если запущены ещё другие), мониторить нагрузку, автоматически расширять нагрузку через создание дополнительных машин (autoscaling).
На эту тему рекомендую книгу по ray serve. Ничего сложного там нет
Использовали комбинацию fMRI и EEG, чтобы восстановить акустические характеристики услышанных звуков.
Анализировали мел-спектрограммы (представление звука, близкое к человеческому восприятию), чтобы сравнить оригинальные и восстановленные аудиосигналы. То есть это исследование об анализе слуха и связи зрительных зон и тех что связаны с восприятием речи.
Что в итоге выявили: что добавление данных из зрительных областей мозга (по fMRI) улучшает качество аудиореконструкции, что подтверждает взаимосвязь между слуховой и зрительной обработкой.
Хотя так же анализировали видео данные для реконструкции.
Но вот точные подробности, не совсем понятные. В плане обучения. Исследование реально интересное, но в нем не хватает деталей. Какие конкретно участки анализировали, как сопоставляли сигналы. Их архитектура раскрыта не полностью, так же мало сведений о том как происходило обучение, какие методы были при восстановлении данных. С их сайта я так понял, что они используют архитектура nerf (название по памяти не помню точно), так которая позволяет по фото восстановить данные об объекте (чтобы потом вращать его к примеру). В репозитории, который они привели только картинки из их исследования.
С одной стороны, работа проделана большая и результаты впечатляют. С другой, слишком мало подробностей. Пока из нее можно только сделать вывод, что учитываете зрительного сигнала, позволяет улучшить качество распознавание слышимой речи. Что логично (зрение модулирует слуховые сигналы), но подтвердили это экспериментом. Видимо зрение, позволяет усилить важные сигналы. ЭЭГ тут выступает в качестве ритмов, которые как раз позволяют синхронизировать данные аудио и видео (ритмы выделяют наиболее важные признаки, через усиление важных сигналов, как например механизм внимания в трансформерах). Это похоже на мультмодальные модели, где через cross -attention происходит интеграция одного типа данных в других.
Меня тут очень смущает, как минимум экстрагирование результата 6 испытуемых на обобщенные результаты. В ЭЭГ исследованиях, за которыми я провел годы разбирая их и пробуя, были проблемы. Там часто встречалось такое, как "провели исследование на 8 иранских женщинах" и результат экстраполировали на всех. Проблем в таких результатах множество: малая выборка, слишком специфичная выборка, культурные особенности, постановка эксперимента исследования и так далее. Например, когда проверяешь, то легко может оказаться , что это реакция не на котиков, а на мерцание определенного цвета на изображении или лампы в помещении и так далее. Должно быть хотя бы 50 испытуемых разного возраста, пола, разных культур, в разных помещениях, с точным описанием протокола самого исследования. Иначе может они научились определять по видео их религиозное отношение и это влияет на предсказание.
Надо будет внимательно прочитать, что именно они сделали и как проверили. Так как раньше, данные по визуализации получали не совсем из всего мозга, а скорее из ее части, которая кодировала сенсорные сигналы в подобие токенов. Зрительные области, где происходило кодирование сигнала. Это аналогично, как подключиться ко входу между штекером USB с камеры и входом USB. Поэтому надо смотреть, что именно китайцы сделали, а что журналисты преувеличили.
неокортекс
Что касается ЭЭГ, то он в лучшем идеальном случае сможем получить информацию из самого верхнего слоя 1, через который проходит модуляция нижних слоев другими участками мозга.
Но ЭЭГ улавливаем по сути ритмы, а не сигналы единичные нейронов. Поэтому может лишь указать, что сейчас внимание на деталях, на объекте и так далее.
Другая проблема, что во время стресса норадреналин к примеру, просто будет снижать уровень воздействия сигнала. А слой 1 играет большую роль через модуляцию сигнала нероймедиаторами. Во время просмотра яркого фильма (который выбрали), явно стресс будет скакать.
Поэтому хорошо бы детально проверить исследование и результаты. Чтобы не вышло так, что его результаты притянуты за уши, вольно интерпретировались, подсогнались или вообще журналисты не правильно поняли.
Тоже самое что и у человека. Но вообще predict coding вроде давно уже используется как в робототехнике , так и в нейробиологии. Или тут что то другое?
https://t.me/greenruff/2163
Недавно как раз разбирал это, чтобы показать тот же механизм как в робототехнике, так и в биологии.
Как я понимаю, основная проблема, почему это раньше не использовали - это ограничение расчетов при использовании обучения нейронах сетей и скорости при их использования. Сейчас мощные GPU небольшого размера, по адекватным ценам.
А сейчас разучилась видимо) Посмотрите теорию хаоса, и почему погоду нельзя предсказать больше определенного промежутка. Прогноз погоды на длительные сроки (более 10–14 дней) ограничен из-за чувствительности атмосферы к начальным условиям — это один из ключевых принципов теории хаоса. Это 10-14 дней это при идеальных предсказанных условиях!
Более того, Wolfram Alpha не является нейросетью в современном понимании, это система символьных вычислений, которая агрегирует данные из проверенных источников (например, метеорологических служб). Wolfram Alpha показывала текущую погоду и краткосрочные прогнозы, но не генерировала их самостоятельно. Она использовала данные из внешних источников (National Weather Service).
DeepMind к примеру предсказывает сейчас погоду на 10 дней с точностью, сопоставимой с традиционными методами, но в 1000 раз быстрее. То есть вы не можете преодолеть этот предел.
Подушковидная форма — уменьшает теплопотери и защищает от ветра.
Мелкие листья с восковым налетом — снижают испарение и отражают УФ-лучи.
Корни, растущие горизонтально — цепляются за тонкий слой почвы.
Как результат, неродственные виды из разных семейств независимо развили почти идентичную форму. Это и есть конвергентная эволюция в действии!
Животные имеют более усложненную форму выживания:
Мигрировать вниз по склону в более мягкие условия.
Активно искать пищу и укрытие (например, птицы летают на большие расстояния, грызуны прячутся в расщелинах).
Регулировать температуру тела
Разбиться по видам питания: Травоядные, Хищники, Падальщики, Насекомые
Разбиться на экологические ниши, чего не могут сделать растения на экстремальных высотах (так как ограничены светом, водой, микроскопическими участками почвы)
Так что еще раз, в каждой среде система находить компромисс для максимальной эффективности. Другим видам не нужно колесо, так как задача системы получить максимальные преимущества сейчас. Ей не нужны знания или возможности про запас. Вы ведь тоже не лезете изучать материал по данным направлениям, а рассуждаете на основе ваших текущих потребностей. Это и есть ответ на вопрос, почему другие крупные особи не используют колесо.
Люди-эксперты конечно присутствуют в ASD, я поэтому и написал что часть проблем там решаема. Просто изначально может показаться, что ASD полностью уберет людей и автоматизирует процесс. Насчет нестандартных задач не знаю, так как это все особенности инструкций. Для этого надо делать тогда еще сложные модель для оценки поставленных задач при их генерации и метрики для этого, а не просто давать это на откуп модели через инструкции.
Там еще есть проблема в том, что если модель состоит всего из двух элементов как в ASD, то тут может возникнуть проблема как и при обучении. Когда модель улавливает закономерность, что за более расплывчатые ответы они получает например не максимум оценку, а среднюю. Но в итоге эта средняя дает больше результат баллов (если Loss связан с этим). То она начинает использовать это, вместо более сложных вопросов и ответов.
В общем проблем там действительно много. Поэтому я решил для себя начать с генерации аналоги вики, так как там сами темы статей являются вопросами. А затем уже смотреть на генерацию самих задач.
Было бы прекрасно, если бы люди сверялись сначала с существующими исследованиями (хотя бы 2012 года). А затем уже, строили выводы.
К примеру очень глубокое обобщение в "Канонические микросхемы для предиктивного кодирования" от Bastos https://www.cell.com/neuron/fulltext/S0896-6273(12)00959-2 С тех пор прошло 13 лет, но многим людям до сих пор проще строить догадки, чем изучить то, что уже изучено.
Вы путаете причину и следствие. Вырвав из контекста только одну функцию. Если же вы начнете учитывать все условия, то у вас останется все меньше конечных вариантов решения. Это хорошо объясняется в теории конечных автоматов.
Слева (Raoulia eximia - семейство Астровые, Новозеландские Альпы), справа (Azorella compacta - семейство Зонтичные в Анды Южная Америка)
Для примера в биологии тоже самое. Выше два совершенно разных семейства, развивающихся на разных материках, но в одинаковых суровых условиях (на вершинах гор, где не выживают другие растения). В этих условиях, выживает единицы и все эти единицы сходятся к 4-5 видам формы, цветков и другим особенностям (не зависимо от семейства и материка и изначальной их формы).
Поэтому если вы начнете учитывать все важные детали. То получите птицу. Если же вам нужны только 1-3 функции то получите квадрокоптер/самолет. Поэтому в условиях среды обитания птицы эффективней самолета и квадрокоптера, но могут проигрывать в единичных функциях, так как они не дают им преимуществ.
Начните с предсказания погоды. Изучите теорию хаоса, тогда можно будет лучше понять, о чем именно теорема Цыбенко
Например, ознакомиться с научной работой Роберта Сапольского. А так же посмотреть для примера эти две его лекции про Хаос в биологии. Там и про теорию конечных автоматов захватывается и другие важные темы и нейронные сети.
Заодно начать с его исследования "Редукционизм и изменчивость данных: метаанализ" на эту тему - про средний показатель ошибки в 18% на любом уровне детализации изучаемой системы
Что касается описанного подхода ASD, то модель "учёный - испытуемый" в том виде, как сейчас имеет ряд серьезных проблем:
1) Слепота к собственным ошибкам:
Модель может некорректно оценивать свои ответы, если ошибка заложена в её внутренних паттернах. Например, если "испытуемый" неправильно выполняет арифметические операции, модель-оценщик (даже такой же версией) может не заметить ошибку из-за "слепых зон".
Тот же GPT-4 иногда ошибается в многошаговых вычислениях и рассуждениях, и если оценка проводится через него же, то ошибка может остаться незамеченной.
2) Предвзятость при генерации задач:
Модель-учёный может часто генерировать задачи, которые соответствуют её сильным данным, игнорируя слабые. Например, если модель хуже справляется с логическими задачами, она будет создавать меньше таких задач, что искажает оценку.
К примеру Claude, обученный на диалогах, будет генерировать больше задач на понимание текста и меньше на математику.
3) Циклическая ошибка:
Если учёный и испытуемый — одна модель, ошибки могут усиливаться. Например, систематическая ошибка в определении контекста будет продолжать воспроизводиться на всех этапах.
4) Проблемы с генерацией архива задач
Пример неудачной задачи: Задача "Назовите цвет неба" легко может быть добавлена в архив, хотя она не раскрывает реальных возможностей модели и по-сути будет мусором.
5) Ограничения метрик
Например задача "Сложите 2 и 3" и "Прибавьте 3 к 2" будут расценены как разные задачи, хотя проверяют один навык.
6) Игнорирование нюансов контекста
В какои то творческом задании модель может дать формально правильный, но бессмысленный ответ, который ACD пометит как "успешный". Тут на Хабре очень любят обсуждение таких ответов и определение верно или нет.
7) Риск переобучения
Если ASD генерирует задачи, похожие на обучающие данные. Это когда модель-учёный генерирует задачи, близкие к тем, что были в датасете испытуемого, оценка может быть завышена.
Для примера если Llama3 обучалась на GitHub-коде, задачи на генерацию кода будут для неё "лёгкими", но это не отразит её реальные способности решать новые проблемы.
То есть часть задач можно решить. Поэтому подход использовать много разных арбитров с разными LLM часть этих проблем решает.
Сейчас как раз для себя делаю другую модель, где сетки занимаются оценкой. Давно предложил и проверил ее, так как она уменьшает галлюцинации и позволяет находить более точный ответ. Там прикладывал исходники.
Когда несколько моделей выступают арбитрами и оценивают ответы других и так же дают оценку причинам их ответа. Где в итоге, побеждает та модель, которая набрала больше всего баллов.
То есть в отличие от данной модели "Учёный - испытуемый", в случае когда арбитры, нет конкретного ученого или испытуемого. Каждая является ученым по отношению к другим, и испытуемым для других. Это действительно сильно повышало качество, но требует значительных ресурсов по времени и запросам.
Собственно сейчас тоже ради этого, генерирую "виккипедию" данным образом, чтобы потом получить качественный датасет для обучения. А заодно проверить подход на крупных данных. Так что для таких вещей, описанный метод очень не плох, но имеет некоторые проблемы собственной самооценкой (если используем только "Учёный - испытуемый").
Мы обсуждаем отсутствие в LLM аналогов биологических процессов (гистерезис, таламическая фильтрация). Если вы утверждаете, что это уже есть — назовите конкретные архитектурные решения или исследования.
Я не готов объяснять, вам то, что вы сами не желаете изучить. Ко мне периодически приходят и пытаются доказать свое субъективное мнение. Поэтому не готов тратить свое время на человека, который не удосужился хотя бы поверхностно изучить, то о чем пишет.
Недавно попытался подобным образом объяснить одному (как вы писал поток сознания), расписать исследования о связи искусственных нейронных сетей и живых нейронов. Но это просто пустая трата времени.
Скажите, сколько км может прилететь квадрокоптер на одном заряде? Птицы могут пролететь без остановке до 12000 км несколько суток.
Напомните мне: дальность полета, длительность полета и энергоэффективность квадрокоптера.
Может вы тогда сравните с гидрой по долгожительству? Закрыв глаза на все остальные факторы и влияние среды?
А как квадракоптер справляется в холодное время суток? Неужели перья птиц, кроме аэродинамики выполняют ещё роль терморегуляции? Не может быть, компромисс сочетания нескольких сложных функций, ради достижения максимальной эффективности энтропии.
Когда вы вырываете из контекста одну функцию, и затем сравнивает ее с более универсальный системой - это называется манипуляция.
То есть это работа механизма нейронов, которая включает в себя
повторяет адаптацию нейронов к устойчивым стимулам.
подавление шума, случайные флуктуации гасятся быстрее, чем значимые сигналы.
В реальном мозге нейроны обладают инерцией. Их активность не меняется мгновенно, а зависит от истории входных сигналов. Например, длительная стимуляция приводит к адаптации (замедленной реакции), а внезапное исчезновение сигнала даёт быстрое торможение.
Биологический аналог — деполяризация и гиперполяризация
При стимуляции порог активации нейрона может меняться (например, в зрительной коре — эффект усталости нейрона).
Если стимул долго действует, нейрон теряет чувствительность (адаптация).
Если стимул исчезает, он быстро переходит в состояние покоя.
Это как раз и есть гистерезис: рост медленный, спад быстрый.
Но изначально, я опирался на работу глиальных клеток и гомеостаза в них. Но там он происходит более медленно. А вот на уровне нейронов гистерезис работает постоянно и быстро.
Это связано с динамикой ионных каналов, где работает быстрее, другие медленнее. Что приводит к петле гистерезис: когда скорость подъема и падения не симметричная. Данный механизм, позволяет фильтровать шумы хоть на уровне нейронов, хоть на уровне глиальных клеток, хоть на гормональном уровне. Так как присутствует везде, даже в от биологии до электроники.
Этого достаточно для частичной реализации. Но флуктуации в хаотичных системах не имеют нормального распределения, а описаны фазовым пространством системы (теория хаоса).
Для пример, анализ речи который я делал, на основе градиентов (колебания пиков и движений артикуляторное во время речи).
Визуально это похоже на нормальное распределение, но в реальности расчеты показывают, что фазовое пространство (в рамках которого мы и получаем эти флуктуации) речи не имеет нормального распределения. В первом приближении ГСПЧ конечно подойдет, но конечно он не даст такого результата, который могут дать квантовые компьютеры, где флуктуации это их основа.
Речь просто пример такой хаотической системы. Точно так же какой являются нейроны, и множество других биологических процессов как на низком уровне, так и на верхнем уровне абстракции (вплоть до предсказания погоды). И тут ГСПЧ бесполезен, так как дает нормальное распределение, в то время как флуктуации хоть и похожи на нормальное распределение, но ими не являются.
Механизмы, о которых я говорил, включая гистерезис, — это не абстрактные идеи, а конкретные биологические процессы. Например, гистерезис в нейронах относится к асимметрии между скоростью активации (медленный рост сигнала) и деактивации (быстрый спад). Это физическое свойство помогает мозгу фильтровать шумы и выделять устойчивые паттерны. В текущих LLM такого механизма нет: обработка токенов не учитывает временную асимметрию сигналов, а предсказания строятся на статической трансформации входных данных.
Вы выражаете субъективные утверждения («специалисты уже не мыслят в категории ошибок», «всё это уже есть»), но не привели ни конкретных примеров, ни ссылок на архитектуры или исследования, которые реализуют упомянутые биологически механизмы.
Как в современных LLM эмулируется роль таламуса в фильтрации сигналов?
Где в трансформерах аналог динамического переноса контекста из кратковременной в долговременную память без перепрогона всей модели?
Какие компоненты LLM отвечают за асимметрию обработки сигналов (гистерезис) или модуляцию выходных данных через лимбическую «эмоциональную» систему?
Конструктивный диалог требует конкретики. Если вы утверждаете, что эти механизмы уже реализованы, было бы полезно услышать:
Ссылки на нейробиологические исследования.
Примеры искусственных сетей, где учтены, например, слои, аналогичные неокортексу (с предсказанием локальных ошибок) или таламусу (с динамической фильтрацией).
Как «самоконтроль» или «самоанализ» в LLM соотносятся с рекуррентной обратной связью мозга, где выход системы постоянно переоценивается на основе новых входных данных.
Поверхностные аналогии (вроде механизма внимания и состязательных сетей) не эквивалентны биологической сложности. Например, внимание в LLM работает с признаками, но не модулирует выходные сигналы через контекст, как это делает мозг. Если у вас есть данные, опровергающие это, давайте обсудим их предметно.
1) Ошибка предсказания нейронов - это основа всех исследований в нейробиологии как на живых клетках, так и искусственных. Тут как фундаментальные исследования, так и локальные. Так же как и разработка влияния аналога дофамина на каждый блок архитектуры. Но для конечного пользователя это проходит мимо, так как там преследуются академические задачи и их не сильно волнует, можно на этом построить LLM или нет. Но много важных работ (но все они от 1950 до 2018 года)
2) Работы над таламус я пока видел разве только у DeepMind и еще тут. Но у них костяк это нейробиологии и уже следом идут инженеры. Собственно один из основателей DeepMind и получил Нобелевскую по нейронкам. Именно они разработали в свое время AlphaGo и AlphaZero (которые победили гроссмейстера в шахматах). Как и сейчас их модели Flamingo и Perceiver IO, которые являются мультимодальными и пожалуй единственными в своем роде.
3) Динамические системы тоже есть, точнее над ними работают. Название по памяти не вспомню, так как там исследуют конкретно динамику моделей без особой привязки к остальному.
4) временные компоненты это спайковые сетки, ordinary differential equation (ODE) как более точные модели нейронов чем спайки используемые зарубежными нейробиологами. Ну и конечно State Space Models (SMM), более новые подходы хранящие временную составляющую в скрытых состояниях (S4D, Mamba, H3 и другие), которые только набирают обороты и получили большой скачек в 2024 году и постепенно идущие на замену трансформерам в качестве гибридов с ними.
И так по всем пунктам. Но подобным ни кто не интересуется, кроме очень редких и узких специалистов (в России я таких не встречал пока что). Так как людям гораздо интересней обсуждать что ответила новая модель, а не их фундаментальные проблемы и их решения.
Я не против бенчмарков. Проблема тут в том, что компании грешат тем, что просто тренируют свои модели на них. Это как обучить модель на датасете, а затем проверить как она с ним справиться. Для этого обычно делается тестовый датасет. Но в данном случае, данные из бенчмарков используются как те же датасеты. И таким образом мы не знаем, модель научилась обобщать эти данные и нашла важные признаки или же просто обучилась этим данным. Так как объем данных в таких бенчмарков не велик, то я сомневаюсь, что модели реально могут научиться обобщать сложные признаки в этих данных. Поэтому я с большим подозрением отношусь к этим оценках и предпочитаю проверять модели под свои задачи самостоятельно не опираясь на оценки, это более надежно.
Используйте rayserve. Это opensource. Он как раз для этого и создан, чтобы балансировать нагрузку на gpu между машинами . Он сам берет на себя роль балансировщика, где вы можете настроить как распределение ресурсов на вашу модель (если запущены ещё другие), мониторить нагрузку, автоматически расширять нагрузку через создание дополнительных машин (autoscaling).
На эту тему рекомендую книгу по ray serve. Ничего сложного там нет
https://ozon.ru/t/HOq1ZlK
Что они сделали на самом деле.
Использовали комбинацию fMRI и EEG, чтобы восстановить акустические характеристики услышанных звуков.
Анализировали мел-спектрограммы (представление звука, близкое к человеческому восприятию), чтобы сравнить оригинальные и восстановленные аудиосигналы. То есть это исследование об анализе слуха и связи зрительных зон и тех что связаны с восприятием речи.
Что в итоге выявили: что добавление данных из зрительных областей мозга (по fMRI) улучшает качество аудиореконструкции, что подтверждает взаимосвязь между слуховой и зрительной обработкой.
Хотя так же анализировали видео данные для реконструкции.
Но вот точные подробности, не совсем понятные. В плане обучения. Исследование реально интересное, но в нем не хватает деталей. Какие конкретно участки анализировали, как сопоставляли сигналы. Их архитектура раскрыта не полностью, так же мало сведений о том как происходило обучение, какие методы были при восстановлении данных. С их сайта я так понял, что они используют архитектура nerf (название по памяти не помню точно), так которая позволяет по фото восстановить данные об объекте (чтобы потом вращать его к примеру). В репозитории, который они привели только картинки из их исследования.
С одной стороны, работа проделана большая и результаты впечатляют. С другой, слишком мало подробностей. Пока из нее можно только сделать вывод, что учитываете зрительного сигнала, позволяет улучшить качество распознавание слышимой речи. Что логично (зрение модулирует слуховые сигналы), но подтвердили это экспериментом. Видимо зрение, позволяет усилить важные сигналы. ЭЭГ тут выступает в качестве ритмов, которые как раз позволяют синхронизировать данные аудио и видео (ритмы выделяют наиболее важные признаки, через усиление важных сигналов, как например механизм внимания в трансформерах). Это похоже на мультмодальные модели, где через cross -attention происходит интеграция одного типа данных в других.
Меня тут очень смущает, как минимум экстрагирование результата 6 испытуемых на обобщенные результаты. В ЭЭГ исследованиях, за которыми я провел годы разбирая их и пробуя, были проблемы. Там часто встречалось такое, как "провели исследование на 8 иранских женщинах" и результат экстраполировали на всех. Проблем в таких результатах множество: малая выборка, слишком специфичная выборка, культурные особенности, постановка эксперимента исследования и так далее. Например, когда проверяешь, то легко может оказаться , что это реакция не на котиков, а на мерцание определенного цвета на изображении или лампы в помещении и так далее. Должно быть хотя бы 50 испытуемых разного возраста, пола, разных культур, в разных помещениях, с точным описанием протокола самого исследования. Иначе может они научились определять по видео их религиозное отношение и это влияет на предсказание.
Надо будет внимательно прочитать, что именно они сделали и как проверили. Так как раньше, данные по визуализации получали не совсем из всего мозга, а скорее из ее части, которая кодировала сенсорные сигналы в подобие токенов. Зрительные области, где происходило кодирование сигнала. Это аналогично, как подключиться ко входу между штекером USB с камеры и входом USB. Поэтому надо смотреть, что именно китайцы сделали, а что журналисты преувеличили.
Что касается ЭЭГ, то он в лучшем идеальном случае сможем получить информацию из самого верхнего слоя 1, через который проходит модуляция нижних слоев другими участками мозга.
Но ЭЭГ улавливаем по сути ритмы, а не сигналы единичные нейронов. Поэтому может лишь указать, что сейчас внимание на деталях, на объекте и так далее.
Другая проблема, что во время стресса норадреналин к примеру, просто будет снижать уровень воздействия сигнала. А слой 1 играет большую роль через модуляцию сигнала нероймедиаторами. Во время просмотра яркого фильма (который выбрали), явно стресс будет скакать.
Поэтому хорошо бы детально проверить исследование и результаты. Чтобы не вышло так, что его результаты притянуты за уши, вольно интерпретировались, подсогнались или вообще журналисты не правильно поняли.
Тоже самое что и у человека. Но вообще predict coding вроде давно уже используется как в робототехнике , так и в нейробиологии. Или тут что то другое?
Недавно как раз разбирал это, чтобы показать тот же механизм как в робототехнике, так и в биологии.
Как я понимаю, основная проблема, почему это раньше не использовали - это ограничение расчетов при использовании обучения нейронах сетей и скорости при их использования. Сейчас мощные GPU небольшого размера, по адекватным ценам.
А сейчас разучилась видимо) Посмотрите теорию хаоса, и почему погоду нельзя предсказать больше определенного промежутка. Прогноз погоды на длительные сроки (более 10–14 дней) ограничен из-за чувствительности атмосферы к начальным условиям — это один из ключевых принципов теории хаоса. Это 10-14 дней это при идеальных предсказанных условиях!
Более того, Wolfram Alpha не является нейросетью в современном понимании, это система символьных вычислений, которая агрегирует данные из проверенных источников (например, метеорологических служб). Wolfram Alpha показывала текущую погоду и краткосрочные прогнозы, но не генерировала их самостоятельно. Она использовала данные из внешних источников (National Weather Service).
DeepMind к примеру предсказывает сейчас погоду на 10 дней с точностью, сопоставимой с традиционными методами, но в 1000 раз быстрее. То есть вы не можете преодолеть этот предел.
Это называется оптимальная адаптации .
Подушковидная форма — уменьшает теплопотери и защищает от ветра.
Мелкие листья с восковым налетом — снижают испарение и отражают УФ-лучи.
Корни, растущие горизонтально — цепляются за тонкий слой почвы.
Как результат, неродственные виды из разных семейств независимо развили почти идентичную форму. Это и есть конвергентная эволюция в действии!
Животные имеют более усложненную форму выживания:
Мигрировать вниз по склону в более мягкие условия.
Активно искать пищу и укрытие (например, птицы летают на большие расстояния, грызуны прячутся в расщелинах).
Регулировать температуру тела
Разбиться по видам питания: Травоядные, Хищники, Падальщики, Насекомые
Разбиться на экологические ниши, чего не могут сделать растения на экстремальных высотах (так как ограничены светом, водой, микроскопическими участками почвы)
Так что еще раз, в каждой среде система находить компромисс для максимальной эффективности. Другим видам не нужно колесо, так как задача системы получить максимальные преимущества сейчас. Ей не нужны знания или возможности про запас. Вы ведь тоже не лезете изучать материал по данным направлениям, а рассуждаете на основе ваших текущих потребностей. Это и есть ответ на вопрос, почему другие крупные особи не используют колесо.
Люди-эксперты конечно присутствуют в ASD, я поэтому и написал что часть проблем там решаема. Просто изначально может показаться, что ASD полностью уберет людей и автоматизирует процесс. Насчет нестандартных задач не знаю, так как это все особенности инструкций. Для этого надо делать тогда еще сложные модель для оценки поставленных задач при их генерации и метрики для этого, а не просто давать это на откуп модели через инструкции.
Там еще есть проблема в том, что если модель состоит всего из двух элементов как в ASD, то тут может возникнуть проблема как и при обучении. Когда модель улавливает закономерность, что за более расплывчатые ответы они получает например не максимум оценку, а среднюю. Но в итоге эта средняя дает больше результат баллов (если Loss связан с этим). То она начинает использовать это, вместо более сложных вопросов и ответов.
В общем проблем там действительно много. Поэтому я решил для себя начать с генерации аналоги вики, так как там сами темы статей являются вопросами. А затем уже смотреть на генерацию самих задач.
Было бы прекрасно, если бы люди сверялись сначала с существующими исследованиями (хотя бы 2012 года). А затем уже, строили выводы.
К примеру очень глубокое обобщение в "Канонические микросхемы для предиктивного кодирования" от Bastos
https://www.cell.com/neuron/fulltext/S0896-6273(12)00959-2
С тех пор прошло 13 лет, но многим людям до сих пор проще строить догадки, чем изучить то, что уже изучено.
Вы путаете причину и следствие. Вырвав из контекста только одну функцию. Если же вы начнете учитывать все условия, то у вас останется все меньше конечных вариантов решения. Это хорошо объясняется в теории конечных автоматов.
Для примера в биологии тоже самое. Выше два совершенно разных семейства, развивающихся на разных материках, но в одинаковых суровых условиях (на вершинах гор, где не выживают другие растения). В этих условиях, выживает единицы и все эти единицы сходятся к 4-5 видам формы, цветков и другим особенностям (не зависимо от семейства и материка и изначальной их формы).
Поэтому если вы начнете учитывать все важные детали. То получите птицу. Если же вам нужны только 1-3 функции то получите квадрокоптер/самолет. Поэтому в условиях среды обитания птицы эффективней самолета и квадрокоптера, но могут проигрывать в единичных функциях, так как они не дают им преимуществ.
Начните с предсказания погоды. Изучите теорию хаоса, тогда можно будет лучше понять, о чем именно теорема Цыбенко
Например, ознакомиться с научной работой Роберта Сапольского. А так же посмотреть для примера эти две его лекции про Хаос в биологии. Там и про теорию конечных автоматов захватывается и другие важные темы и нейронные сети.
https://youtu.be/MqtnpcdvxaI?si=ASbGKcDHxNz5UJzw
А так же его же лекцию про Эмерджентность и сложность систем.
https://youtu.be/ScKNmdoY2bE?si=bTt-E6tDKD42r2Gc
Заодно начать с его исследования "Редукционизм и изменчивость данных: метаанализ" на эту тему - про средний показатель ошибки в 18% на любом уровне детализации изучаемой системы
https://www.sci-hub.ru/10.1353/pbm.1996.0057?ysclid=m8n0xrlvjq495717602
Из современных https://pmc.ncbi.nlm.nih.gov/articles/PMC8168858/
И уже тогда возвращаться к теореме Цыбенко, чтобы понять, что конкретно она доказывает.
Что касается описанного подхода ASD, то модель "учёный - испытуемый" в том виде, как сейчас имеет ряд серьезных проблем:
1) Слепота к собственным ошибкам:
Модель может некорректно оценивать свои ответы, если ошибка заложена в её внутренних паттернах. Например, если "испытуемый" неправильно выполняет арифметические операции, модель-оценщик (даже такой же версией) может не заметить ошибку из-за "слепых зон".
Тот же GPT-4 иногда ошибается в многошаговых вычислениях и рассуждениях, и если оценка проводится через него же, то ошибка может остаться незамеченной.
2) Предвзятость при генерации задач:
Модель-учёный может часто генерировать задачи, которые соответствуют её сильным данным, игнорируя слабые. Например, если модель хуже справляется с логическими задачами, она будет создавать меньше таких задач, что искажает оценку.
К примеру Claude, обученный на диалогах, будет генерировать больше задач на понимание текста и меньше на математику.
3) Циклическая ошибка:
Если учёный и испытуемый — одна модель, ошибки могут усиливаться. Например, систематическая ошибка в определении контекста будет продолжать воспроизводиться на всех этапах.
4) Проблемы с генерацией архива задач
Пример неудачной задачи: Задача "Назовите цвет неба" легко может быть добавлена в архив, хотя она не раскрывает реальных возможностей модели и по-сути будет мусором.
5) Ограничения метрик
Например задача "Сложите 2 и 3" и "Прибавьте 3 к 2" будут расценены как разные задачи, хотя проверяют один навык.
6) Игнорирование нюансов контекста
В какои то творческом задании модель может дать формально правильный, но бессмысленный ответ, который ACD пометит как "успешный". Тут на Хабре очень любят обсуждение таких ответов и определение верно или нет.
7) Риск переобучения
Если ASD генерирует задачи, похожие на обучающие данные. Это когда модель-учёный генерирует задачи, близкие к тем, что были в датасете испытуемого, оценка может быть завышена.
Для примера если Llama3 обучалась на GitHub-коде, задачи на генерацию кода будут для неё "лёгкими", но это не отразит её реальные способности решать новые проблемы.
То есть часть задач можно решить. Поэтому подход использовать много разных арбитров с разными LLM часть этих проблем решает.
Сейчас как раз для себя делаю другую модель, где сетки занимаются оценкой. Давно предложил и проверил ее, так как она уменьшает галлюцинации и позволяет находить более точный ответ. Там прикладывал исходники.
Когда несколько моделей выступают арбитрами и оценивают ответы других и так же дают оценку причинам их ответа. Где в итоге, побеждает та модель, которая набрала больше всего баллов.
То есть в отличие от данной модели "Учёный - испытуемый", в случае когда арбитры, нет конкретного ученого или испытуемого. Каждая является ученым по отношению к другим, и испытуемым для других. Это действительно сильно повышало качество, но требует значительных ресурсов по времени и запросам.
Собственно сейчас тоже ради этого, генерирую "виккипедию" данным образом, чтобы потом получить качественный датасет для обучения. А заодно проверить подход на крупных данных.
Так что для таких вещей, описанный метод очень не плох, но имеет некоторые проблемы собственной самооценкой (если используем только "Учёный - испытуемый").
Мы обсуждаем отсутствие в LLM аналогов биологических процессов (гистерезис, таламическая фильтрация). Если вы утверждаете, что это уже есть — назовите конкретные архитектурные решения или исследования.
Я не готов объяснять, вам то, что вы сами не желаете изучить. Ко мне периодически приходят и пытаются доказать свое субъективное мнение. Поэтому не готов тратить свое время на человека, который не удосужился хотя бы поверхностно изучить, то о чем пишет.
Недавно попытался подобным образом объяснить одному (как вы писал поток сознания), расписать исследования о связи искусственных нейронных сетей и живых нейронов. Но это просто пустая трата времени.
https://t.me/greenruff/2165?comment=7188
Скажите, сколько км может прилететь квадрокоптер на одном заряде? Птицы могут пролететь без остановке до 12000 км несколько суток.
Напомните мне: дальность полета, длительность полета и энергоэффективность квадрокоптера.
Может вы тогда сравните с гидрой по долгожительству? Закрыв глаза на все остальные факторы и влияние среды?
А как квадракоптер справляется в холодное время суток? Неужели перья птиц, кроме аэродинамики выполняют ещё роль терморегуляции? Не может быть, компромисс сочетания нескольких сложных функций, ради достижения максимальной эффективности энтропии.
Когда вы вырываете из контекста одну функцию, и затем сравнивает ее с более универсальный системой - это называется манипуляция.
Тут немного описал это. Так же описывал в комментариях на хабре
https://habr.com/ru/companies/wunderfund/articles/894100/comments/#comment_28086760
То есть это работа механизма нейронов, которая включает в себя
повторяет адаптацию нейронов к устойчивым стимулам.
подавление шума, случайные флуктуации гасятся быстрее, чем значимые сигналы.
В реальном мозге нейроны обладают инерцией. Их активность не меняется мгновенно, а зависит от истории входных сигналов. Например, длительная стимуляция приводит к адаптации (замедленной реакции), а внезапное исчезновение сигнала даёт быстрое торможение.
Биологический аналог — деполяризация и гиперполяризация
При стимуляции порог активации нейрона может меняться (например, в зрительной коре — эффект усталости нейрона).
Если стимул долго действует, нейрон теряет чувствительность (адаптация).
Если стимул исчезает, он быстро переходит в состояние покоя.
Это как раз и есть гистерезис: рост медленный, спад быстрый.
Но изначально, я опирался на работу глиальных клеток и гомеостаза в них. Но там он происходит более медленно. А вот на уровне нейронов гистерезис работает постоянно и быстро.
Это связано с динамикой ионных каналов, где работает быстрее, другие медленнее. Что приводит к петле гистерезис: когда скорость подъема и падения не симметричная. Данный механизм, позволяет фильтровать шумы хоть на уровне нейронов, хоть на уровне глиальных клеток, хоть на гормональном уровне. Так как присутствует везде, даже в от биологии до электроники.
Этого достаточно для частичной реализации. Но флуктуации в хаотичных системах не имеют нормального распределения, а описаны фазовым пространством системы (теория хаоса).
Для пример, анализ речи который я делал, на основе градиентов (колебания пиков и движений артикуляторное во время речи).
Визуально это похоже на нормальное распределение, но в реальности расчеты показывают, что фазовое пространство (в рамках которого мы и получаем эти флуктуации) речи не имеет нормального распределения. В первом приближении ГСПЧ конечно подойдет, но конечно он не даст такого результата, который могут дать квантовые компьютеры, где флуктуации это их основа.
Речь просто пример такой хаотической системы. Точно так же какой являются нейроны, и множество других биологических процессов как на низком уровне, так и на верхнем уровне абстракции (вплоть до предсказания погоды). И тут ГСПЧ бесполезен, так как дает нормальное распределение, в то время как флуктуации хоть и похожи на нормальное распределение, но ими не являются.
Постараюсь прояснить свою позицию:
Механизмы, о которых я говорил, включая гистерезис, — это не абстрактные идеи, а конкретные биологические процессы. Например, гистерезис в нейронах относится к асимметрии между скоростью активации (медленный рост сигнала) и деактивации (быстрый спад). Это физическое свойство помогает мозгу фильтровать шумы и выделять устойчивые паттерны. В текущих LLM такого механизма нет: обработка токенов не учитывает временную асимметрию сигналов, а предсказания строятся на статической трансформации входных данных.
Вы выражаете субъективные утверждения («специалисты уже не мыслят в категории ошибок», «всё это уже есть»), но не привели ни конкретных примеров, ни ссылок на архитектуры или исследования, которые реализуют упомянутые биологически механизмы.
Как в современных LLM эмулируется роль таламуса в фильтрации сигналов?
Где в трансформерах аналог динамического переноса контекста из кратковременной в долговременную память без перепрогона всей модели?
Какие компоненты LLM отвечают за асимметрию обработки сигналов (гистерезис) или модуляцию выходных данных через лимбическую «эмоциональную» систему?
Конструктивный диалог требует конкретики. Если вы утверждаете, что эти механизмы уже реализованы, было бы полезно услышать:
Ссылки на нейробиологические исследования.
Примеры искусственных сетей, где учтены, например, слои, аналогичные неокортексу (с предсказанием локальных ошибок) или таламусу (с динамической фильтрацией).
Как «самоконтроль» или «самоанализ» в LLM соотносятся с рекуррентной обратной связью мозга, где выход системы постоянно переоценивается на основе новых входных данных.
Поверхностные аналогии (вроде механизма внимания и состязательных сетей) не эквивалентны биологической сложности. Например, внимание в LLM работает с признаками, но не модулирует выходные сигналы через контекст, как это делает мозг. Если у вас есть данные, опровергающие это, давайте обсудим их предметно.
Не совсем, просто про них нет громких заявлений.
1) Ошибка предсказания нейронов - это основа всех исследований в нейробиологии как на живых клетках, так и искусственных. Тут как фундаментальные исследования, так и локальные. Так же как и разработка влияния аналога дофамина на каждый блок архитектуры. Но для конечного пользователя это проходит мимо, так как там преследуются академические задачи и их не сильно волнует, можно на этом построить LLM или нет. Но много важных работ (но все они от 1950 до 2018 года)
2) Работы над таламус я пока видел разве только у DeepMind и еще тут. Но у них костяк это нейробиологии и уже следом идут инженеры. Собственно один из основателей DeepMind и получил Нобелевскую по нейронкам. Именно они разработали в свое время AlphaGo и AlphaZero (которые победили гроссмейстера в шахматах). Как и сейчас их модели Flamingo и Perceiver IO, которые являются мультимодальными и пожалуй единственными в своем роде.
3) Динамические системы тоже есть, точнее над ними работают. Название по памяти не вспомню, так как там исследуют конкретно динамику моделей без особой привязки к остальному.
4) временные компоненты это спайковые сетки, ordinary differential equation (ODE) как более точные модели нейронов чем спайки используемые зарубежными нейробиологами. Ну и конечно State Space Models (SMM), более новые подходы хранящие временную составляющую в скрытых состояниях (S4D, Mamba, H3 и другие), которые только набирают обороты и получили большой скачек в 2024 году и постепенно идущие на замену трансформерам в качестве гибридов с ними.
И так по всем пунктам. Но подобным ни кто не интересуется, кроме очень редких и узких специалистов (в России я таких не встречал пока что). Так как людям гораздо интересней обсуждать что ответила новая модель, а не их фундаментальные проблемы и их решения.
Я не против бенчмарков. Проблема тут в том, что компании грешат тем, что просто тренируют свои модели на них. Это как обучить модель на датасете, а затем проверить как она с ним справиться. Для этого обычно делается тестовый датасет. Но в данном случае, данные из бенчмарков используются как те же датасеты. И таким образом мы не знаем, модель научилась обобщать эти данные и нашла важные признаки или же просто обучилась этим данным. Так как объем данных в таких бенчмарков не велик, то я сомневаюсь, что модели реально могут научиться обобщать сложные признаки в этих данных. Поэтому я с большим подозрением отношусь к этим оценках и предпочитаю проверять модели под свои задачи самостоятельно не опираясь на оценки, это более надежно.