Дополню, на самом деле схожий подход уже используется, хотя и более ограниченно.
К примеру:
Модель DenseNet + Self-Attention Aggregator:
Если добавить к DenseNet механизм внимания для объединения выходов слоёв, это будет похоже на данную идею.
Transformer с Cross-Layer Attention:
Например, Universal Transformer рекурренно обрабатывает выходы слоёв, но без явной агрегации в финальный слой.
Deep Averaging Networks (DAN):
В NLP выходы слоёв усредняются, но без учёта их иерархии.
Так то, стоит обратить внимание и попробовать добавить обобщение в конце, прежде чем использовать softmax. Так как таким образом мы сможем учесть разные признаки. А ещё лучше добавить ещё механизм внимания при их обобщении, чтобы мы не просто обобщили важные признаки из всех блоков, но и сфокусировались на наиболее важных из них.
Я бы предложил расширить описанную вами модель. В чем суть вашей. Допусти у нас архитектура состоит из:
Блок 1 -> блок 2 -> блок 3 -> конечный результат
При стандартном подходе мы учитываем в конечном результате только выход блока 3.
В описанном подходе каждый блок передаёт свои данные в конечный результат. Так как в некоторых случаях скрытые блоки могут содержать в себе уже выявленные признаки, которые другие блоки могут проигнорировать.
Данный подход схож с реальной работой мозга, когда отдельные зоны не только могут передать свои данные в следующий блок, но и через блок или блоки. Например, слух , кохлеарное ядро может не только передать свои данные в следующую область, но и напрямую и в слуховые зоны (например в А1).
Это чем то напоминает residual связи внутри блока и другие подходы.
Моё предложение, добавление более расширенного блока вроде FFN или даже с добавлением свёрток, которые смогут обобщить корреляцию между признаками из разных блоков (областей мозга) при учёте конечного результата. Этот подход будет более биологичным и поможет модели найти корреляцию на разных этапах.
Позволяет избежать проблемы, когда глубокие слои перезаписывают важную информацию из ранних слоёв.
Как в мозге (например, слуховые пути с прямыми связями в кору, минуя промежуточные ядра), модель сохраняет "короткие пути" для информации, чтобы избежать потери критически важных низкоуровневых или средних признаков. Это позволяет сохранить признаки, которые могут "затухнуть" при прохождении через последующие слои.
Здесь главным является именно правильное обобщение, которое должно включать в себя не просто выходы из разных блоков, но и поиск корреляций между ними.
Тема очень интересная. Надо попробовать. В 2022 году, я хотел открыть онлайн магазин для продажи нейронных и других клеток для лабораторий. Даже начал тогда закупать и делать часть нужного оборудования. В тот момент это было связано с оборудованием тянущейся электроники, которое позволяло дёшево производить микрофлюидные чипы. Мы тогда вместе с лабораторией НИИ Графит думали объединить усилия под грант, чтобы на базе из EAP материалов изготавливать микро насосы, мешалки, ворота и так далее и встраивать из в чипы. Но потом из за событий все бюджеты урезались.
В тот момент, клетки планировалось получать по старинке из зародышей мышей. Но одна из проблем была нормы утилизации отходов и неоднозначность общества к таким подходам.
Не знаю, как так вышло, что мимо меня прошли описанные вами исследования. Это в корне меняет подход. Надеюсь что в дальнейшем удастся его попробовать, чтобы растить на подложке нейроны подключенные к подложке (ее и хотели выпускать чтоб отбивать затраты). Для изучения поведения нейронов и их взаимодействия в контролируемой среде. И связывать изучение искусственных подходов и живых клеток.
Дико завидую исследовательским лабораториям выше. Это огромный шаг, если с такой высокой эффективностью можно получить нейронные клетки.
1) Я более 10 лет занимаюсь разработкой оптики, поэтому и с Китаем и самостоятельно изготавливали. Поэтому мне дешевле самостоятельно и частично в Китае. Но в целом мне выгоднее было бы полностью изготавливать ее самостоятельно. Почему в РФ не вижу смысла изготавливать другим? Нет смысла, из-за кол-ва ЦА и либо надо очень сильно завышать цены чтобы выжить либо заказывать производство в Китае. Но для собственных продуктов, когда считаешь каждую копейки математика уже другая.
2) По дифракционной, делали решетку для 3D камеры, чтобы потом использовать как модули. Но опять же, просто продукт на 2 Гика или 3 стартапа и пару лабораторий? Нет смысла производить. Нет рынка. А делать на заказ, это надо чтобы у тебя данная часть была поставлена уже на поток. Иначе лишено смысла. Так что либо очень дорого либо должен быть рынок (и ты уже выпускаешь подобное).
3) Что значит дешевле и более продвинутый? Как мы мысленно посчитали это, на чем конкретно снизить цену? Почему ниже смешали в одно VR и AR? Зачем вы привели пример установки простых линз френеля или 30 мм линз и использования телефона вместо экрана? Такое барахло никому не нужно.
Зачем мне ссылки на прототипирование и литье в Китае? Вы что, думаете что я не считал литье в Китае, у меня нет контактов фабрик и личного общения с ними? У меня естественно все это есть, и мы даже с китайцами рассматривали выпуск подобного обучающего набора в китае для образования, и вероятно к этому и идет. Но в этом случае, придется полностью забить на рынок РФ, на методологии обучение на русском, на примеры обучающие на русском и так далее. То есть забыть про русский сегмент.
Вот вам ссылка на литье пластмасс в России. Там вам сделают не дороже, чем в Китае. Но речь только про корпуса.
Разработанную электроники для них я и так произвожу в Китае. Оптику часть в Китае на пресс формах. часть самостоятельно (если покупать готовую оптику в Китае то цена сильно вырастет). Только чертежи для 3Д принтера пройденный вариант. не у всех он есть, а люди сначала хотят просто включить и глянуть. Коробки и поролоновую упаковку дешевле производить в РФ. Я к тому, что если делать в все в Китае, то себестоимость сразу вырастает. Корпус - при изготовлении пресс формы, получается дешево. Вот только денег на пресс-формы для корпуса уже не осталось и приходиться лить самостоятельно, а часть печатать специальными смолами на фотополимерном (место оптики, требующее высокой точности). Так что все что вы описали, уже пройдено. Такой вариант ни кому не нужен на практике (в теории изначально, тоже думали как вы описали).
Речь в первую очередь шла про конструкторы для образования, а не готовые очки. А так, air 2 это оптика для подключения по type-c в корпусе очков, а конструктор несёт иную задачу. Он больше как Лего, где можно заменить камеру, или подключить вместо нее датчик поворота головы или подключить их в малине, сделать другой корпус (исходники корпуса) и так далее. Разные задачи решает.
Чтобы не было проблемы переобучения, помогает переписывание некоторых базовых функций: активации и нормализации. Через добавление в них флуктуации, которая масштабируется относительно сигнала.
В этом случае модель ни когда не сходится к идеальному решению (его не существует), и всегда будет оставаться некоторый шум, что заставляет модель при обучении искать обобщающий результат. Этот подход, позволил избавиться от проблемы переобучения, так как в итоге она будет колебаться вокруг маленького шума, который не даёт скатиться к переобучению.
Флуктуации - это естественный процесс, который опирается на теорию хаоса. При этом результат остаётся стабильным и качество обучения возрастает.
Я бы расширил эту тему разделив подобные предсказания на три группы:
1) базовая -ошибка предсказания на уровне нейронов, это наши веса
2) локальная ошибка предсказания, это как раз одна модель predict coding
3) глобальная ошибка предсказания , это то что описано, тот же RL
Смысл в том, что на каждом уровне считается своя ошибка. Глобальная, корректировки модель и так вниз по иерархии. Это как делает мозг. Химическая коррекция на уровне нейрона, локальная на уровне слоя VI неокортекса в каждой области, и глобальная базальным гаеглиями. Последняя опирается на задачу поддержки гомеостаза организма.
В случае выше, физиологический гомеостаз заменяется на понятие наших целей (что мы хотим получить в качестве результата модели).
Проблема текущих моделей, что они игнорируют локальную ошибку предсказания.
Например у нас архитектура из трёх моделей. Глобальная ошибка корректирует все локальные модели исходя из глобальной ошибки. Но что, если из этих трёх моделей, одна плохо предсказала, но в целом глобальная ошибка снизилась? В этом случае глобальная ошибка, усилит проблему локальной модели, у которой ошибка предсказания увеличилась. В этом случае глобальное подкрепление ее усилит.
Например, условно архитектура из 3ех моделей:
Модель 1: локальная ошибка снизилась -1
Модель 2: локальная ошибка выросла +1
Модель 3: локальная ошибка снизилась -3.
Глобальная допустим показала, что ошибка снизилась. И в целом мы корректируем веса все три модели, с учётом положительной динамики уменьшения ошибки. В этом случае, у модели 2 ошибка вырастет сильнее.
На самом деле, надо учитывать локальные ошибки предсказания так же. Абстрактно:
Err_локальная*Err_глобальная
Чтобы каждая вносила свой вес.
Как это сделать для локальных моделей? Это уже давно изучено : ошибка предсказания predict Coding.
Я сейчас, когда связал эти глобальную и локальную ошибки, это ускорило обучение архитектуры. Так как ошибки разного уровня вносят свой вклад в общую корректирующую ошибку.
Вот так делаешь, создаёшь, падаешь в финансовое дно из за вложенных средств и времени, а в итоге его нет даже в таких списках. Печально... Даже немного обидно, когда более простые конструкторы для образования становятся у всех на слуху, а твое усилия остаются незамеченными.
Что в итоге привело к ряду важных открытий. Что не смотря на разные механизмы артикуляции , сформировавшиеся эволюцией в разной среде, она в итоге стремится к общему виду
Так же это помогло проанализировать паузы речи , что раскрыло в итоге графовую модель речи в виде последовательности с разными уровнями
В свое время общался с ними. Всех больше интересует подобный pr маркетинг. За ним упускается самое главное. Что они сделали на самом деле?
Есть такая теория свободной энергии (FEP)
Согласно теории свободной энергии, предложенной Карлом Фристоном, все живые системы стремятся минимизировать разницу между своими предсказаниями и фактическими входящими сигналами – то, что называют «свободной энергией». Другими словами, организм постоянно корректирует своё внутреннее представление о мире, чтобы сделать поступающую информацию максимально предсказуемой. Когда действия приводят к уменьшению этой неопределённости (то есть к снижению свободной энергии), система «оценивает» их как положительные; если же действие вызывает увеличение ошибки предсказания – оно воспринимается как отрицательное.
Их эксперимент с нейронами, играющими в Pong
Научные работы с так называемым DishBrain демонстрируют, как культуры нейронов, выращенные in vitro, могут обучаться играть в простую аркадную игру Pong. В этих экспериментах нейроны, размещённые на многоэлектродном массиве, получают электрическую обратную связь: при успешном отбитии мяча подается краткий, предсказуемый сигнал, а при промахе – хаотичные стимулы. Благодаря такому механизму сеть самостоятельно перестраивается для снижения непредсказуемости окружающей среды. Проще говоря, нейроны «наказываются» за ошибки и получают «поощрение» за правильные действия, что ведёт к улучшению игровых показателей. Эта адаптация происходит без использования традиционных систем вознаграждения, таких как дофаминовая система, и прекрасно вписывается в рамки FEP, где снижение свободной энергии является движущей силой обучения и саморегуляции.
То есть их главное достижение, это доказательство теории свободной энергии.
Таким образом главный вывод из работы в том, что теория свободной энергии объединяет наблюдения от простейших организмов до сложных нейронных сетей, показывая, что фундаментальным принципом работы живых систем является постоянное стремление к предсказуемости и минимизации внутренней неопределённости.
Именно для этого и была разработана текущая система, которая позволяет массово изучать эти процессы. А не вся эта желтая шелуха.
Более того, они только извлекают признаки из текстов и их связи. По сути частоту распределения связей и признаки связей друг с другом. Они не раздают книги и статьи 1 в 1. Они не могут это сделать. Но могут пересказать суть, как обобщенные данные извлечённые зависимостей и связей. А это совсем другое, чем просто копировать данные.
Проблема openai в том, что они за все время имея бюджеты не привнесли ничего нового в разработку самих нейронных сетей. Не рассмотрели, с чем связаны проблемы обучения, галлюцинаций.
Вообще это проблема всей отрасли. Что у нас Яндекс и Сбер, что у них openai и Claude, все только пытаются решить проблемы данными. Совершенно не развивая внутренние структуры самой основы.
Основной прорыв был с 2000-2020 , когда были предложены и разные LSTM, transformer разные подходы residual и так далее.
На сегодня, прогресс конечно есть, это SSM модели, которые учитывают временную компоненту в скрытых слоях (по сути улавливают ритмы). Но это разработка 2024 года (та же mamba, h3) и пока не завоевали ещё такой популярности.
Проблема ведь не в объемах данных. А в архитектуре самих трансформеров, которая очень примитивно реализует важную часть неокортекса.
В комментарии я привел пример, как понимание проблем трансформера, позволяет существенно улучшить его качество.
И понимание что в реальности они реализуют, позволило существенно улучшить их качество. Ускорило обучение и качество обучения.
Мне очень печально видеть обсуждение проблемы обучаемых данных, но при этом полное игнорирование основ проблемы механизмов, которые они реализуют.
Пока я больше восхищаясь DeepMind, так как у них в команде нейробиологи, которые пытаются расширить хоть не сами трансформеры (что печально), но взаимодействие разных областей мозга (их модель flamingo к примеру).
Мне бы хотелось, чтобы хотя бы наши разработчики учитывали и изучали не только математику, но природу процессов.
Что то не туда его занесло. В целом то верно, про колончатую структуру неокортекса. Ведь первичный посыл Хокинса о важности кортикальных колонок правильная. И ведь изначально в 2016 году он говорил про то что они работают в 3 измерениях тоже верно, но с оговорками. Но вот по этой статье его куда-то совсем не туда понесло. Сначала подумал, что он из DeepMind, но нет он из Numenta.
1) неокортекс это последовательности 6 слойных областей. Например в ассоциативной части некоторые слои могут быть более слабо выражены или вообще остаться развиты на клетчатом уровне. Но в целом можно разделить на слоев. Да все слои кроме молекулярного условно можно назвать колончатыми. Но например слой II это звездчатые нейроны, и поэтому колонки имеют последовательные связи. А тот же слой III имеет связи между колонками, так как в нем преобладают средние пирамидальные клетки и так далее
2) рассматривать надо было на уровне Ошибки предсказания, которую можно разделить на три уровня: веса на уровне нейрона (стремясь к химическому балансу), локальная ошибка на уровне VI слоя области (стремиться к балансу на уровне сигнала) и глобальная на уровне базальных ганглии (ошибки со всех областей мозга - аналог RL).
Я правда не понимаю, почему всех уносит в какие то аналогии, когда можно четко следовать тому как работают слои неокортекса, их связи, нейроны, как получаются ошибки предсказания и так далее. В нейробиологии все эти исследования есть.
Как итог, 6 слойная архитектура как и положено мозгу обучается с 1 раза. Ей достаточно 1 раз увидеть признаки, чтобы научиться выделять их. В то время как трансформеры не могу нормально научиться даже на 1000 разных примерах, и им нужно гораздо больше шагов и примеров. А все потому, что трансформеры (случайно так совпало) реализуют очень урезанный и упрощенный вариант 6 слойной модели областей в неокортексе.
А так Monty явно не туда ушло. Так как мозг это просто настройка над физиологией и его задача оптимально обеспечить поддержку гомеостаза физиологических процессов (глюкоза, кислотность, CO2 и так далее) в условиях при воздействии внешней среды. Больше мозг ни чего не делает - просто предсказывает ошибки и ищет оптимальный баланс между хаотичностью сигнала и минимальными затратами энергии (энтропией).
"Традиционно считалось, что большие языковые модели (LLM) работают пошагово, предсказывая каждый следующий токен. Однако новое исследование от Шанхайской ИИ-лаборатории выявило феномен «эмерджентного планирования». Согласно исследованию, внутренние активации, скрытые от пользователей, содержат информацию о глобальных характеристиках ещё не сформированного ответа. "
Они и предсказывают пошагово. Если же речь о том, что предсказания зашиты в весах сетки, то не понятно к чему это. Нейроны, учатся предсказывать значения. В этом весь смысл любой сети. Конечно в слоях будет скрытая информация о локальных и глобальных признаках. И естественно эти признаки предопределяют будущее предложение. Точно так же как это делает человек на основе грамматики например.
Та же ошибка предсказания в нейробиологии (Bastos) или минимизация энергии в работах (Friston). Не понятно, что конкретно они обнаружили и не является ли это, уже давно известным явлением нейронов (неважно искусственных или живых).
Причина почему мозг придумывает то, чего не было, в том что это его основа. Биологическая основа механизма работы нейронов это Recurrent Predictive Coding, ошибка предсказания. Ее задача заключаются в том, чтобы свети к минимуму затраты энергии предсказывая сигнал. Чем лучше предсказали, тем меньше энергии будет потрачено на адаптацию к нему.
Это механизм на уровне нейронов. Поэтому мы всегда предсказываем, даже если не можем вспомнить или не знаем. Это все перезаписывает нейроны. По сути память - ни что иное как предсказание ошибки и ее задача не помнить прошлое, а хорошо предсказывать будущее. Поэтому система адаптируется, предсказывая новые сигналы и таким образом меняя сеть. Это как инициализировать сетку значениями и затем обучить ее распознавать цифры. А затем удивляться, почему она вдруг придумала события и забыла реальные прошлые. Потому что так она лучше предсказывает входные сигналы.
Второй момент это верхнеуровневая ошибка предсказания, где управление идет через базальные ганглии. Дофаминовая система и механизм предсказания тесно связаны с поддержанием гомеостаза организма, то есть с нормализацией внутренних процессов. Организм стремится поддерживать стабильность, и любые изменения (недостаток или избыток веществ) становятся сигналами, которые запускают регуляторные механизмы.
Метаболические системы, такие как контроль глюкозы, жира или воды, играют важную роль в оценке положительных предсказаний. Если, например, организм чувствует, что его энергетические запасы восстановлены, это сигнализирует о том, что недавняя активность (например, поиск пищи) была успешной.
На примере страха: Мозг предсказывает, что, если уровень адреналина или кортизола будет слишком высоким, это приведет к повреждениям организма, и, следовательно, возникает поведение, направленное на уменьшение этих гормонов. Таким образом, эмоция страха — это не самоцель, а результат предсказания, что текущая ситуация угрожает нормализации гомеостаза. Поведение, которое сопровождает страх (например, бегство или защита), — это механизм, направленный на возвращение организма в состояние нормализации.
Поэтому задача мозга, просто предсказывать сигналы на уровне нейронов и их результат на основе поддержки гомеостаза организма (CO2, кислотности, глюкозы и так далее). Поэтому для него нет понятие воспоминания. Если изменение нейронных сигналов позволяет вернуть организм к нормальному уровню гомеостаза, то такой сигнал будет положительным и нейрон его запоминает. Так он приводит к уменьшению затрат энергии.
В этом ключе странно обсуждать, почему мозг что то забывает или придумывает. Это его основа - адаптироваться под лучшее предсказание сигнала, и не важно что раньше ты ездил куда-то или ел что-то, если данная информация не помогает или даже мешает восстановить гомеостаз. Отсюда и блокирование негативных воспоминаний, по сути стирание связей с ними, так как они приводят к дисбалансу физиологических процессов.
Проблема все этих объяснений в том, что глядя на них не понимаешь почему происходит именно так. Почему данная архитектура. Что она за собой скрывает.
Я бы предложил вам включать разбор, что на самом деле происходит в таких архитектурах и почему они работают. Что на самом деле делает каждая подобная операция не на уровне, есть опробованный подход и он работает. А именно объяснить человеку.
Как в целом связана ошибка предсказания и механизма селективности (контраста, тот же softmax) и как можем правильно проектировать архитектуру, зная биологию этих механизмов.
Потому что классический подход к объяснению этих вещей на уровне взяли методы из нейронок потому что они себя хорошо показали, не позволяет понять человеку как работают нейронные сети. Кроме как заучить популярные решения и применять их. Но тогда и математика теряет смысл. Достаточно просто показать удачные решения и выучить их. А забивать голову чистым матаном, равносильно показу как посчитать , не объясняя само решение. Для этого достаточно курса математики, а не курса по нейронкам.
А одна из проблем затухающих градиентов, как раз в том, что они не учитывают модулирующий сигнал обратной связи , как это делает мозг. Которые подчеркивает важные признаки, и ослабевает менее важные. Поэтому на выходе у нас получается механизм предсказания, без учёта ошибки предсказания сигнала. Которая должна этот самый сигнал модулировать.
По хорошему надо разбирать теми кто учиться классическую 6 слойную архитектуру мозга, которая реализует все зоны и кортикальные области мозга и их подобласти в неокортексе.
Тогда у человека не будет вопросов, почему затухает тут сигнал. Как с этим бороться. Как классифицировать. Так как все это мозг прекрасно реализует сам.
Дополню, на самом деле схожий подход уже используется, хотя и более ограниченно.
К примеру:
Модель DenseNet + Self-Attention Aggregator:
Если добавить к DenseNet механизм внимания для объединения выходов слоёв, это будет похоже на данную идею.
Transformer с Cross-Layer Attention:
Например, Universal Transformer рекурренно обрабатывает выходы слоёв, но без явной агрегации в финальный слой.
Deep Averaging Networks (DAN):
В NLP выходы слоёв усредняются, но без учёта их иерархии.
Так то, стоит обратить внимание и попробовать добавить обобщение в конце, прежде чем использовать softmax. Так как таким образом мы сможем учесть разные признаки. А ещё лучше добавить ещё механизм внимания при их обобщении, чтобы мы не просто обобщили важные признаки из всех блоков, но и сфокусировались на наиболее важных из них.
Я бы предложил расширить описанную вами модель. В чем суть вашей. Допусти у нас архитектура состоит из:
Блок 1 -> блок 2 -> блок 3 -> конечный результат
При стандартном подходе мы учитываем в конечном результате только выход блока 3.
В описанном подходе каждый блок передаёт свои данные в конечный результат. Так как в некоторых случаях скрытые блоки могут содержать в себе уже выявленные признаки, которые другие блоки могут проигнорировать.
Данный подход схож с реальной работой мозга, когда отдельные зоны не только могут передать свои данные в следующий блок, но и через блок или блоки. Например, слух , кохлеарное ядро может не только передать свои данные в следующую область, но и напрямую и в слуховые зоны (например в А1).
Это чем то напоминает residual связи внутри блока и другие подходы.
Моё предложение, добавление более расширенного блока вроде FFN или даже с добавлением свёрток, которые смогут обобщить корреляцию между признаками из разных блоков (областей мозга) при учёте конечного результата. Этот подход будет более биологичным и поможет модели найти корреляцию на разных этапах.
Позволяет избежать проблемы, когда глубокие слои перезаписывают важную информацию из ранних слоёв.
Как в мозге (например, слуховые пути с прямыми связями в кору, минуя промежуточные ядра), модель сохраняет "короткие пути" для информации, чтобы избежать потери критически важных низкоуровневых или средних признаков. Это позволяет сохранить признаки, которые могут "затухнуть" при прохождении через последующие слои.
Здесь главным является именно правильное обобщение, которое должно включать в себя не просто выходы из разных блоков, но и поиск корреляций между ними.
Тема очень интересная. Надо попробовать. В 2022 году, я хотел открыть онлайн магазин для продажи нейронных и других клеток для лабораторий. Даже начал тогда закупать и делать часть нужного оборудования. В тот момент это было связано с оборудованием тянущейся электроники, которое позволяло дёшево производить микрофлюидные чипы. Мы тогда вместе с лабораторией НИИ Графит думали объединить усилия под грант, чтобы на базе из EAP материалов изготавливать микро насосы, мешалки, ворота и так далее и встраивать из в чипы. Но потом из за событий все бюджеты урезались.
https://t.me/greenruff/711
https://t.me/greenruff/657
https://t.me/greenruff/652
В тот момент, клетки планировалось получать по старинке из зародышей мышей. Но одна из проблем была нормы утилизации отходов и неоднозначность общества к таким подходам.
Не знаю, как так вышло, что мимо меня прошли описанные вами исследования. Это в корне меняет подход. Надеюсь что в дальнейшем удастся его попробовать, чтобы растить на подложке нейроны подключенные к подложке (ее и хотели выпускать чтоб отбивать затраты). Для изучения поведения нейронов и их взаимодействия в контролируемой среде. И связывать изучение искусственных подходов и живых клеток.
Дико завидую исследовательским лабораториям выше. Это огромный шаг, если с такой высокой эффективностью можно получить нейронные клетки.
1) Я более 10 лет занимаюсь разработкой оптики, поэтому и с Китаем и самостоятельно изготавливали. Поэтому мне дешевле самостоятельно и частично в Китае. Но в целом мне выгоднее было бы полностью изготавливать ее самостоятельно. Почему в РФ не вижу смысла изготавливать другим? Нет смысла, из-за кол-ва ЦА и либо надо очень сильно завышать цены чтобы выжить либо заказывать производство в Китае. Но для собственных продуктов, когда считаешь каждую копейки математика уже другая.
https://vc.ru/tech/457854-kak-v-rossii-potratit-10-let-na-svoi-ar-ochki-i-tak-nichego-ne-vypustit
2) По дифракционной, делали решетку для 3D камеры, чтобы потом использовать как модули. Но опять же, просто продукт на 2 Гика или 3 стартапа и пару лабораторий? Нет смысла производить. Нет рынка. А делать на заказ, это надо чтобы у тебя данная часть была поставлена уже на поток. Иначе лишено смысла. Так что либо очень дорого либо должен быть рынок (и ты уже выпускаешь подобное).
3) Что значит дешевле и более продвинутый? Как мы мысленно посчитали это, на чем конкретно снизить цену? Почему ниже смешали в одно VR и AR? Зачем вы привели пример установки простых линз френеля или 30 мм линз и использования телефона вместо экрана? Такое барахло никому не нужно.
Зачем мне ссылки на прототипирование и литье в Китае? Вы что, думаете что я не считал литье в Китае, у меня нет контактов фабрик и личного общения с ними? У меня естественно все это есть, и мы даже с китайцами рассматривали выпуск подобного обучающего набора в китае для образования, и вероятно к этому и идет. Но в этом случае, придется полностью забить на рынок РФ, на методологии обучение на русском, на примеры обучающие на русском и так далее. То есть забыть про русский сегмент.
Вот вам ссылка на литье пластмасс в России. Там вам сделают не дороже, чем в Китае. Но речь только про корпуса.
https://t.me/raccon_chat
Разработанную электроники для них я и так произвожу в Китае. Оптику часть в Китае на пресс формах. часть самостоятельно (если покупать готовую оптику в Китае то цена сильно вырастет). Только чертежи для 3Д принтера пройденный вариант. не у всех он есть, а люди сначала хотят просто включить и глянуть. Коробки и поролоновую упаковку дешевле производить в РФ. Я к тому, что если делать в все в Китае, то себестоимость сразу вырастает. Корпус - при изготовлении пресс формы, получается дешево. Вот только денег на пресс-формы для корпуса уже не осталось и приходиться лить самостоятельно, а часть печатать специальными смолами на фотополимерном (место оптики, требующее высокой точности). Так что все что вы описали, уже пройдено. Такой вариант ни кому не нужен на практике (в теории изначально, тоже думали как вы описали).
Речь в первую очередь шла про конструкторы для образования, а не готовые очки. А так, air 2 это оптика для подключения по type-c в корпусе очков, а конструктор несёт иную задачу. Он больше как Лего, где можно заменить камеру, или подключить вместо нее датчик поворота головы или подключить их в малине, сделать другой корпус (исходники корпуса) и так далее. Разные задачи решает.
Чтобы не было проблемы переобучения, помогает переписывание некоторых базовых функций: активации и нормализации. Через добавление в них флуктуации, которая масштабируется относительно сигнала.
В этом случае модель ни когда не сходится к идеальному решению (его не существует), и всегда будет оставаться некоторый шум, что заставляет модель при обучении искать обобщающий результат. Этот подход, позволил избавиться от проблемы переобучения, так как в итоге она будет колебаться вокруг маленького шума, который не даёт скатиться к переобучению.
Флуктуации - это естественный процесс, который опирается на теорию хаоса. При этом результат остаётся стабильным и качество обучения возрастает.
Я бы расширил эту тему разделив подобные предсказания на три группы:
1) базовая -ошибка предсказания на уровне нейронов, это наши веса
2) локальная ошибка предсказания, это как раз одна модель predict coding
3) глобальная ошибка предсказания , это то что описано, тот же RL
Смысл в том, что на каждом уровне считается своя ошибка. Глобальная, корректировки модель и так вниз по иерархии. Это как делает мозг. Химическая коррекция на уровне нейрона, локальная на уровне слоя VI неокортекса в каждой области, и глобальная базальным гаеглиями. Последняя опирается на задачу поддержки гомеостаза организма.
В случае выше, физиологический гомеостаз заменяется на понятие наших целей (что мы хотим получить в качестве результата модели).
Проблема текущих моделей, что они игнорируют локальную ошибку предсказания.
Например у нас архитектура из трёх моделей. Глобальная ошибка корректирует все локальные модели исходя из глобальной ошибки. Но что, если из этих трёх моделей, одна плохо предсказала, но в целом глобальная ошибка снизилась? В этом случае глобальная ошибка, усилит проблему локальной модели, у которой ошибка предсказания увеличилась. В этом случае глобальное подкрепление ее усилит.
Например, условно архитектура из 3ех моделей:
Модель 1: локальная ошибка снизилась -1
Модель 2: локальная ошибка выросла +1
Модель 3: локальная ошибка снизилась -3.
Глобальная допустим показала, что ошибка снизилась. И в целом мы корректируем веса все три модели, с учётом положительной динамики уменьшения ошибки. В этом случае, у модели 2 ошибка вырастет сильнее.
На самом деле, надо учитывать локальные ошибки предсказания так же. Абстрактно:
Err_локальная*Err_глобальная
Чтобы каждая вносила свой вес.
Как это сделать для локальных моделей? Это уже давно изучено : ошибка предсказания predict Coding.
Я сейчас, когда связал эти глобальную и локальную ошибки, это ускорило обучение архитектуры. Так как ошибки разного уровня вносят свой вклад в общую корректирующую ошибку.
Почему тут нет моего конструктора AR очков?
https://habr.com/ru/articles/828760/
Вот так делаешь, создаёшь, падаешь в финансовое дно из за вложенных средств и времени, а в итоге его нет даже в таких списках. Печально... Даже немного обидно, когда более простые конструкторы для образования становятся у всех на слуху, а твое усилия остаются незамеченными.
В частности это помогло в исследованиях фазового пространства артикуляции речи разных животных (включая людей)
Что в итоге привело к ряду важных открытий. Что не смотря на разные механизмы артикуляции , сформировавшиеся эволюцией в разной среде, она в итоге стремится к общему виду
Так же это помогло проанализировать паузы речи , что раскрыло в итоге графовую модель речи в виде последовательности с разными уровнями
https://t.me/greenruff/2064?single
https://t.me/greenruff/2073?single
И понят причины разделения на тональные и нетональные языки
https://t.me/greenruff/2034?single
Что в итоге привело к физиологии речи, которая указала на то, что есть три типа речи:
Сигнальная (эмоциональная)
Информационная
Пение (это скорее среднее между тональный и эмоциональной)
Но главное, что каждый тип речи имеет разную физиологию процесса. И каждый тип речи отвечает за свои функции, которые сильно отличаются.
Например тут была реализована биология синтеза сигнальной речи:
https://t.me/greenruff/1826?single
А тут физиология информационной речи
https://t.me/greenruff/1835?single
Тут пения
https://t.me/greenruff/1954?single
Я бы порекомендовал всем, кто связан с лингвистикой так и LLM мини лекции
https://youtube.com/@azelinguistics?si=FRs0bFRvxBKZNYaP
Мне в свое время очень помогли в изучении лингвистики, фонетики и так далее в исследованиях языковых моделей и языков
Мягкая растяжимая кожа гораздо проще чем кажется. Я получал грант на разработку стендового оборудования для производства подобного
https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanusheisya-elektroniki-gflex
Можно делать такую кожу. В России правда оказалось ни кому не нужным, поэтому проект заморозил до лучших времён.
В свое время общался с ними. Всех больше интересует подобный pr маркетинг. За ним упускается самое главное. Что они сделали на самом деле?
Есть такая теория свободной энергии (FEP)
Согласно теории свободной энергии, предложенной Карлом Фристоном, все живые системы стремятся минимизировать разницу между своими предсказаниями и фактическими входящими сигналами – то, что называют «свободной энергией». Другими словами, организм постоянно корректирует своё внутреннее представление о мире, чтобы сделать поступающую информацию максимально предсказуемой. Когда действия приводят к уменьшению этой неопределённости (то есть к снижению свободной энергии), система «оценивает» их как положительные; если же действие вызывает увеличение ошибки предсказания – оно воспринимается как отрицательное.
Их эксперимент с нейронами, играющими в Pong
Научные работы с так называемым DishBrain демонстрируют, как культуры нейронов, выращенные in vitro, могут обучаться играть в простую аркадную игру Pong. В этих экспериментах нейроны, размещённые на многоэлектродном массиве, получают электрическую обратную связь: при успешном отбитии мяча подается краткий, предсказуемый сигнал, а при промахе – хаотичные стимулы. Благодаря такому механизму сеть самостоятельно перестраивается для снижения непредсказуемости окружающей среды. Проще говоря, нейроны «наказываются» за ошибки и получают «поощрение» за правильные действия, что ведёт к улучшению игровых показателей. Эта адаптация происходит без использования традиционных систем вознаграждения, таких как дофаминовая система, и прекрасно вписывается в рамки FEP, где снижение свободной энергии является движущей силой обучения и саморегуляции.
То есть их главное достижение, это доказательство теории свободной энергии.
Таким образом главный вывод из работы в том, что теория свободной энергии объединяет наблюдения от простейших организмов до сложных нейронных сетей, показывая, что фундаментальным принципом работы живых систем является постоянное стремление к предсказуемости и минимизации внутренней неопределённости.
Именно для этого и была разработана текущая система, которая позволяет массово изучать эти процессы. А не вся эта желтая шелуха.
Более того, они только извлекают признаки из текстов и их связи. По сути частоту распределения связей и признаки связей друг с другом. Они не раздают книги и статьи 1 в 1. Они не могут это сделать. Но могут пересказать суть, как обобщенные данные извлечённые зависимостей и связей. А это совсем другое, чем просто копировать данные.
Проблема openai в том, что они за все время имея бюджеты не привнесли ничего нового в разработку самих нейронных сетей. Не рассмотрели, с чем связаны проблемы обучения, галлюцинаций.
Вообще это проблема всей отрасли. Что у нас Яндекс и Сбер, что у них openai и Claude, все только пытаются решить проблемы данными. Совершенно не развивая внутренние структуры самой основы.
Основной прорыв был с 2000-2020 , когда были предложены и разные LSTM, transformer разные подходы residual и так далее.
На сегодня, прогресс конечно есть, это SSM модели, которые учитывают временную компоненту в скрытых слоях (по сути улавливают ритмы). Но это разработка 2024 года (та же mamba, h3) и пока не завоевали ещё такой популярности.
Проблема ведь не в объемах данных. А в архитектуре самих трансформеров, которая очень примитивно реализует важную часть неокортекса.
Я сейчас разбираю как раз трансформеры.
https://t.me/greenruff/2201?single
И понимание что в реальности они реализуют, позволило существенно улучшить их качество. Ускорило обучение и качество обучения.
Мне очень печально видеть обсуждение проблемы обучаемых данных, но при этом полное игнорирование основ проблемы механизмов, которые они реализуют.
Пока я больше восхищаясь DeepMind, так как у них в команде нейробиологи, которые пытаются расширить хоть не сами трансформеры (что печально), но взаимодействие разных областей мозга (их модель flamingo к примеру).
Мне бы хотелось, чтобы хотя бы наши разработчики учитывали и изучали не только математику, но природу процессов.
Что то не туда его занесло. В целом то верно, про колончатую структуру неокортекса. Ведь первичный посыл Хокинса о важности кортикальных колонок правильная. И ведь изначально в 2016 году он говорил про то что они работают в 3 измерениях тоже верно, но с оговорками. Но вот по этой статье его куда-то совсем не туда понесло. Сначала подумал, что он из DeepMind, но нет он из Numenta.
1) неокортекс это последовательности 6 слойных областей. Например в ассоциативной части некоторые слои могут быть более слабо выражены или вообще остаться развиты на клетчатом уровне. Но в целом можно разделить на слоев. Да все слои кроме молекулярного условно можно назвать колончатыми. Но например слой II это звездчатые нейроны, и поэтому колонки имеют последовательные связи. А тот же слой III имеет связи между колонками, так как в нем преобладают средние пирамидальные клетки и так далее
2) рассматривать надо было на уровне Ошибки предсказания, которую можно разделить на три уровня: веса на уровне нейрона (стремясь к химическому балансу), локальная ошибка на уровне VI слоя области (стремиться к балансу на уровне сигнала) и глобальная на уровне базальных ганглии (ошибки со всех областей мозга - аналог RL).
Я правда не понимаю, почему всех уносит в какие то аналогии, когда можно четко следовать тому как работают слои неокортекса, их связи, нейроны, как получаются ошибки предсказания и так далее. В нейробиологии все эти исследования есть.
Как итог, 6 слойная архитектура как и положено мозгу обучается с 1 раза. Ей достаточно 1 раз увидеть признаки, чтобы научиться выделять их. В то время как трансформеры не могу нормально научиться даже на 1000 разных примерах, и им нужно гораздо больше шагов и примеров. А все потому, что трансформеры (случайно так совпало) реализуют очень урезанный и упрощенный вариант 6 слойной модели областей в неокортексе.
А так Monty явно не туда ушло. Так как мозг это просто настройка над физиологией и его задача оптимально обеспечить поддержку гомеостаза физиологических процессов (глюкоза, кислотность, CO2 и так далее) в условиях при воздействии внешней среды. Больше мозг ни чего не делает - просто предсказывает ошибки и ищет оптимальный баланс между хаотичностью сигнала и минимальными затратами энергии (энтропией).
"Традиционно считалось, что большие языковые модели (LLM) работают пошагово, предсказывая каждый следующий токен. Однако новое исследование от Шанхайской ИИ-лаборатории выявило феномен «эмерджентного планирования». Согласно исследованию, внутренние активации, скрытые от пользователей, содержат информацию о глобальных характеристиках ещё не сформированного ответа. "
Они и предсказывают пошагово. Если же речь о том, что предсказания зашиты в весах сетки, то не понятно к чему это. Нейроны, учатся предсказывать значения. В этом весь смысл любой сети. Конечно в слоях будет скрытая информация о локальных и глобальных признаках. И естественно эти признаки предопределяют будущее предложение. Точно так же как это делает человек на основе грамматики например.
Та же ошибка предсказания в нейробиологии (Bastos) или минимизация энергии в работах (Friston). Не понятно, что конкретно они обнаружили и не является ли это, уже давно известным явлением нейронов (неважно искусственных или живых).
Причина почему мозг придумывает то, чего не было, в том что это его основа.
Биологическая основа механизма работы нейронов это Recurrent Predictive Coding, ошибка предсказания. Ее задача заключаются в том, чтобы свети к минимуму затраты энергии предсказывая сигнал. Чем лучше предсказали, тем меньше энергии будет потрачено на адаптацию к нему.
В вики в целом это описано: Прогнозирующее кодирование
https://ru.wikipedia.org/wiki/Прогнозирующее_кодирование
А так же в разделе Нейронное кодирование
https://ru.wikipedia.org/wiki/Нейронное_кодирование
Это механизм на уровне нейронов. Поэтому мы всегда предсказываем, даже если не можем вспомнить или не знаем. Это все перезаписывает нейроны. По сути память - ни что иное как предсказание ошибки и ее задача не помнить прошлое, а хорошо предсказывать будущее. Поэтому система адаптируется, предсказывая новые сигналы и таким образом меняя сеть. Это как инициализировать сетку значениями и затем обучить ее распознавать цифры. А затем удивляться, почему она вдруг придумала события и забыла реальные прошлые. Потому что так она лучше предсказывает входные сигналы.
Второй момент это верхнеуровневая ошибка предсказания, где управление идет через базальные ганглии. Дофаминовая система и механизм предсказания тесно связаны с поддержанием гомеостаза организма, то есть с нормализацией внутренних процессов. Организм стремится поддерживать стабильность, и любые изменения (недостаток или избыток веществ) становятся сигналами, которые запускают регуляторные механизмы.
Метаболические системы, такие как контроль глюкозы, жира или воды, играют важную роль в оценке положительных предсказаний. Если, например, организм чувствует, что его энергетические запасы восстановлены, это сигнализирует о том, что недавняя активность (например, поиск пищи) была успешной.
На примере страха: Мозг предсказывает, что, если уровень адреналина или кортизола будет слишком высоким, это приведет к повреждениям организма, и, следовательно, возникает поведение, направленное на уменьшение этих гормонов. Таким образом, эмоция страха — это не самоцель, а результат предсказания, что текущая ситуация угрожает нормализации гомеостаза. Поведение, которое сопровождает страх (например, бегство или защита), — это механизм, направленный на возвращение организма в состояние нормализации.
Поэтому задача мозга, просто предсказывать сигналы на уровне нейронов и их результат на основе поддержки гомеостаза организма (CO2, кислотности, глюкозы и так далее). Поэтому для него нет понятие воспоминания. Если изменение нейронных сигналов позволяет вернуть организм к нормальному уровню гомеостаза, то такой сигнал будет положительным и нейрон его запоминает. Так он приводит к уменьшению затрат энергии.
В этом ключе странно обсуждать, почему мозг что то забывает или придумывает. Это его основа - адаптироваться под лучшее предсказание сигнала, и не важно что раньше ты ездил куда-то или ел что-то, если данная информация не помогает или даже мешает восстановить гомеостаз. Отсюда и блокирование негативных воспоминаний, по сути стирание связей с ними, так как они приводят к дисбалансу физиологических процессов.
1) вы так и не ответили как бороться с галлюцинациями
2) вы неправильно описали главные причины галлюцинаций
https://t.me/greenruff/2095?single
Почему нельзя вот так разобрать и описать принцип выбора слов LLM, когда пишете статью?
https://t.me/greenruff/2104?single
Или кратко хотя бы показать, чтобы стало понятно.
О каких 1,4 до 1,9% галлюцинаций вообще идёт речь? Это зависит от температуры как минимум.
Хотите свести галлюцинации к минимуму на текущих моделях? Используйте несколько одновременно, где каждая выступает арбитром другой.
https://t.me/greenruff/1757?single
Тут описал данный подход.
Проблема все этих объяснений в том, что глядя на них не понимаешь почему происходит именно так. Почему данная архитектура. Что она за собой скрывает.
Я бы предложил вам включать разбор, что на самом деле происходит в таких архитектурах и почему они работают. Что на самом деле делает каждая подобная операция не на уровне, есть опробованный подход и он работает. А именно объяснить человеку.
https://t.me/greenruff/2109
На чем построен механизм softmax, и что он делает на уровне биологии.
https://t.me/greenruff/2115
В чем отличие работы мозга от классификаторов в нейронных сетях
https://t.me/greenruff/2125
Как именно различные подходы к классификатору реализуют частично биологию и почему это работает
https://t.me/greenruff/2134
Как в целом связана ошибка предсказания и механизма селективности (контраста, тот же softmax) и как можем правильно проектировать архитектуру, зная биологию этих механизмов.
Потому что классический подход к объяснению этих вещей на уровне взяли методы из нейронок потому что они себя хорошо показали, не позволяет понять человеку как работают нейронные сети. Кроме как заучить популярные решения и применять их. Но тогда и математика теряет смысл. Достаточно просто показать удачные решения и выучить их. А забивать голову чистым матаном, равносильно показу как посчитать , не объясняя само решение. Для этого достаточно курса математики, а не курса по нейронкам.
А одна из проблем затухающих градиентов, как раз в том, что они не учитывают модулирующий сигнал обратной связи , как это делает мозг. Которые подчеркивает важные признаки, и ослабевает менее важные. Поэтому на выходе у нас получается механизм предсказания, без учёта ошибки предсказания сигнала. Которая должна этот самый сигнал модулировать.
По хорошему надо разбирать теми кто учиться классическую 6 слойную архитектуру мозга, которая реализует все зоны и кортикальные области мозга и их подобласти в неокортексе.
Тогда у человека не будет вопросов, почему затухает тут сигнал. Как с этим бороться. Как классифицировать. Так как все это мозг прекрасно реализует сам.