Pull to refresh
58
0.5
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

Send message

Можете уточнить, что вы имели ввиду под этим: LLM сталкиваются с интересным парадоксом: их контекстные окна продолжают расти, позволяя им обрабатывать больше информации одновременно, но надежная обработка всех этих данных остается проблемой

Вы имели ввиду, что с ростом размерности матриц W трансформера в LLM они все равно порой выдают галлюцинации? Или я не правильно вас понял?

Просто увеличение размеров матриц весов W ни как не должно влиять на точность. Не совсем понимаю откуда взялась такая идея. Они же находят признаки и связи между ними, и влияют только на это.

То что называют контекстным окном и матрицами внимания, что ужасно злит так как это модулирующие матрицы глобального и локального контекста. А сами галлюцинации прежде всего связаны с обобщением информации. Так как в трансформерах в LLM все обобщение сводится к FFN. Что из-за отсутствия механизма управления обобщением, приводит к необходимости случайного выбора выходного токена в рамках выходного Softmax. И увеличением размера весовых матриц W это не решается. Хоть их размер будет триллион, просто смогут найти более сложные признаки.

Как поисковик полезен. Так как текущие поисковики часто забиты мусором и трудно искать научные статьи или IT решения.

Но что то сложное, это не про LLM. Сказать что они очень тупые, это ничего не сказать. С другой стороны глупо обвинять в этом LLM, архитектура которых построена на выделении и обобщении данных в найденных признаках на больших объемах текста.

Если бы модели обучались на речи древнего человека, то они бы не превзошли бы древнего человека по мышлению и не думали бы на уровне хомосапиенс. Все что было бы, это средний уровень обобщения австралопитека. Так и тут.

У моделей нет к примеру коррекции локальной ошибки, как это происходит у нас в мозге на каждом участке. Нет коррекции глобальной ошибки, только при обучении. Нет коррекции текущего состояния, например обострение выделение признаков или ослабление сигнал шум в зависит от контекста, как это делают нейромедиаторы у нас в мозге. Это малая часть.

Если для кого то LLM это ИИ или превзошли среднего человека. У меня для него плохие новости, либо этот человек на столько плохо знает тему, что ответ LLM вместо гугления для него магия либо его интеллект ниде среднего.

LLM инструмент, который может отлично обобщить объем данных в пределах локального контекста. В этом его сильная сторона.

Оценка ответа LLM со стороны другой LLM - это, безусловно, один из известных методов улучшения генеративных пайплайнов.
Для других задач мы его тоже используем, но здесь я не стал его упоминать, потому что он довольно затратен по времени работы, тем более для пайплайнов поиска/RAG.

А где прочитать про это? До этого не встречал сколько не искал использования аналога MoE, где в качестве арбитра не какая-то сущность, а несколько LLM которые участвуют в процессе.
Если вы про Chain-of-Thought (CoT), то это совсем другое. И к описанному варианту арбитров отношения не имеет.

Насчет примеров, возможно они не очень удачные в наглядном плане.
При различных психических заболеваниях: шизофрении и Альцгеймера например, есть два вида проявления.

  1. Бред - "словесная окрошка".
    Пример: пациент перескакивает с темы на тему, не завершая мысли.
    Более понятный пример.
    «Зеленые часы летают над морем, потому что электричество ест треугольники, а вчера я видел Бога в холодильнике».
    Отдельные слова грамматически правильны, но их сочетание абсурдно.
    Нет четкой темы, причинно-следственных связей или контекста.

  2. Галлюцинации. Это как раз тот пример с хим. реакцией, которая выдумана.
    Это связано с отсутствием регуляции входного сигнала.
    Получаем избыток «шумовых» сигналов → мозг интерпретирует внутреннюю активность как внешние стимулы (галлюцинации)
    Это как раз приводит, к тому что кажется что если я добавлю калий в воду, то получу раствор йода.
    Так как причина-следственные связи, которые должны быть выделены "размазаны" с шумовыми.

Оба этих явления часто присутствуют вместе, поэтому подобное в LLM народ не разделяя, называет все галлюцинациями. Хотя в нейробиологии эти понятия различаются как по проявлению, так и по причинам возникновения.

Как это проявляется у LLM.
Бред:
Когда FFN в трансформерах не справляется или недообучен, то мы получаем бред. Это аналогично проблемам слоя V в ассоциативных зонах, которые так же обобщают данные в небольших областях. Причин там много, низкая плотность нейронов (аналог слабой модели), дофаминовые проблемы (недообучена) и так далее.
Тут если единственный вариант либо увеличивать размер FFN, либо до обучать модель.
Поэтому при до обучении от бреда мы можем избавиться (если объем информации влезает в модель).

Галлюцинации:
Их причины в том, что в слое V или других местах нарушается фильтрация данных. Например, при выборе слова должен прийти сигнал от моторной зоны, чтобы выделить слово "идти", а он не приходит (ослаблен контроль фильтрации сигнал/шум) и на фоне этого получаем другое слое "плыть". И фраза Я иду по улице, превращается в фразу Я плыву по улице. Это галлюцинация.
Но в LLM этого механизма усиления сигнал/шум нет вообще. Вместо этого мы прогнозируем множество вероятных следующих слов, где с помощью температуры выбираем случайное в диапазоне вероятностей указанном температурой.
Таким образом у нас возникают галлюцинации, так как выбор происходит оторванных от контекста (в мозге сигнал на нужный контекст направила бы какая-нибудь зона мозга, которая окажет модулирующее влияние и усилит его - время, моторика, зрение, слух, ассоциативная зона, сигнал от тела, лимбическая и так далее).
Иногда это галлюцинация явно не подходит ни под один возможный контекст, и тогда это плохая галлюцинация.
Хорошая галлюцинация - это та, которая может быть полезной. Когда связь была не очевидной, более слабой, но в итоге привела нас к правильному решению другими маршрутами.

Так как у LLM нет такого механизма фильтрации, то мы должны как-то самостоятельно его реализовать.
Чтобы по итогу убрать плохие галлюцинации и оставить полезные.
Вот это и делает предложенный вариант арбитров с несколькими LLM (или даже одной но с разной температурой и Seed)

Почему несколько арбитров снижают галлюцинации?
Тут все зависит от выставленной температуры. Если бы вы перешли по ссылке, то в комментариях я описывал, что важен подбор настроек "команды" арбитров LLM. Если много "шизофреников" с высокой температурой, то будут галлюцинации.
Но если допустим из 10 только 1 шизофреник, большая часть умеренные, и небольшая часть с 0 температурой, то система получается устойчивая. Где шизофреник иногда может придумать и хорошую галлюцинацию, которую остальные модели оценят положительно. А вот плохую галлюцинацию откинут.
Второй момент связан с вероятностями.
Допустим у нас 6 ответов
4 ответа - одинаковые
1 ответ - отличается
1 ответ - отличается
В этом случае, вероятность ответа 4 гораздо выше, вероятности остальных вариантов.
Так вот суть подхода с арбитрами, в том, чтобы оставить ответ с самой высокой вероятностью.
Даже для 3-ех одинаковых моделей он уже даст сильный результат. Seed тут меняется, чтобы сделать их более разными в рамках одной LLM.

Кроме того, если опять же посмотрите, то там не просто ответ. Там главное в другом. LLM указывает, почему она так ответила и этому дается оценка, которая прежде всего и играет роль с учетом всего, что описано выше.
Таким образом мы оцениваем ни только ответ, но и почему был выбран такой ответ. И так до победителя.
На самом деле до победителя в случае RAG делать не стоит, достаточно только один проход.
До победителя я рекомендую использовать, когда нужно получить глубоко продуманный ответ, который не даст ни одна рассуждающая модель, хотя они и близки к подходу.

Когда я придумал и приложил его и опробовал, не было еще рассуждающих моделей. Были только Chain-of-Thought (CoT) и MoE.

В комментарии у себя я там приводил время, проблемы роста ресурсов. Но это касалось 10 llm, которые последовательно работали по-моему (мне в тот момент главное было проверить подход).
Сейчас я все пытаюсь доделать на его базе заполнения аналога Википедии, чтобы LLM сами заполняли данные по принципу арбитров. Чтобы потом использовать эти данные в обучении.

Вы смешали два понятия: бред и галлюцинации. Оба связаны с ограничениями LLM, но имеют разные причины и результат.

Бред: это вроде Ёлка идёт на вокзал

Галлюцинации: Для получения раствора Йода, налейте воды и добавьте раствор Кальция.

В одном случае, нарушена логическая структура (смещены разные контексты), а во втором логическая структура верная, но "придумана" своя (контекст сохраняется, но связь не верная).

То что вы описали не решит этих двух проблем. Но их можно уменьшить, если ввести вторую LLM или даже эту же но с другим seed, где вторая выступает арбитром первой и оценивает точность. В идеале если арбитра два, например вы можете два раза уточнить у самой же модели и на основе суммарной оценки решить, верный ответ или нет.

Но конечно наиболее верный вариант, это когда у вас две модели делают ответ и затем каждая оценивает ответ другой верный или нет. Это конечно больше, но практически исключает галлюцинации.

Данный подход проверял и предлагал свое время в чате Сбера, но вижу народ продолжает есть кактус. При том что описывал этот подход с арбитрами в качестве LLM (ка moe, только сами llm арбитры). Это позволило вытаскивать из них даже очень спорные данные.

А просто промты ничего не гарантируют, как и до обучение. Так как вероятность все равно будет присутствовать. В случае арбитров вы уменьшает вероятность очень сильно. Полностью избавляя от галлюцинаций, но возможен бред (его степень зависит от модели)

https://t.me/greenruff/1757

В комментариях там выкладывал пример кода, где 10 llm были арбитрами друг друга.

Вы правы, что модели вроде Gemma 1B могут достигать высоких результатов благодаря оптимизации архитектуры и методов обучения (например, distillation, улучшенные алгоритмы). Это конечно важно. И хотя трансформеры доминируют, новые архитектуры (SSM, Mamba, RWKV, H3) уже появляются и показывают потенциал после 2020 года. Но вы смотрите на прогресс с точки зрения практических достижений. Поэтому путаете улучшение конечного продукта с фундаментальными архитектурными прорывами. Достижения вроде Gemma3 – это оптимизация текущего подхода, а не создание новых типов нейросетей.

Моя ключевая мысль об архитектурных ограничениях. Так как большая часть ключевых архитектурных открытий (LSTM, трансформеры, residual-связи) произошла до 2020 года, а после этого существенных революционных изменений не было. Это приводит к тому, что проблемы вроде галлюцинаций часто рассматриваются как проблема данных, а не самой структуры моделей.

Основные проблемы (галлюцинации, зависимость от данных, слабое моделирование когнитивных процессов) остаются нерешёнными, и работа над архитектурой могла бы помочь больше, чем просто обучение на больших наборах данных.

Я говорю о необходимости менять «двигатель» (архитектуру), а вы хвалите улучшенный «бензин» (данные и оптимизацию). Вы правы, но проблема в том, что без нового «двигателя» рано или поздно упрётесь в пределы старого.

Дополню, на самом деле схожий подход уже используется, хотя и более ограниченно.

К примеру:

Модель DenseNet + Self-Attention Aggregator:

Если добавить к DenseNet механизм внимания для объединения выходов слоёв, это будет похоже на данную идею.

Transformer с Cross-Layer Attention:

Например, Universal Transformer рекурренно обрабатывает выходы слоёв, но без явной агрегации в финальный слой.

Deep Averaging Networks (DAN):

В NLP выходы слоёв усредняются, но без учёта их иерархии.

Так то, стоит обратить внимание и попробовать добавить обобщение в конце, прежде чем использовать softmax. Так как таким образом мы сможем учесть разные признаки. А ещё лучше добавить ещё механизм внимания при их обобщении, чтобы мы не просто обобщили важные признаки из всех блоков, но и сфокусировались на наиболее важных из них.

Я бы предложил расширить описанную вами модель. В чем суть вашей. Допусти у нас архитектура состоит из:

Блок 1 -> блок 2 -> блок 3 -> конечный результат

При стандартном подходе мы учитываем в конечном результате только выход блока 3.

В описанном подходе каждый блок передаёт свои данные в конечный результат. Так как в некоторых случаях скрытые блоки могут содержать в себе уже выявленные признаки, которые другие блоки могут проигнорировать.

Данный подход схож с реальной работой мозга, когда отдельные зоны не только могут передать свои данные в следующий блок, но и через блок или блоки. Например, слух , кохлеарное ядро может не только передать свои данные в следующую область, но и напрямую и в слуховые зоны (например в А1).

Это чем то напоминает residual связи внутри блока и другие подходы.

Моё предложение, добавление более расширенного блока вроде FFN или даже с добавлением свёрток, которые смогут обобщить корреляцию между признаками из разных блоков (областей мозга) при учёте конечного результата. Этот подход будет более биологичным и поможет модели найти корреляцию на разных этапах.

Позволяет избежать проблемы, когда глубокие слои перезаписывают важную информацию из ранних слоёв.

Как в мозге (например, слуховые пути с прямыми связями в кору, минуя промежуточные ядра), модель сохраняет "короткие пути" для информации, чтобы избежать потери критически важных низкоуровневых или средних признаков. Это позволяет сохранить признаки, которые могут "затухнуть" при прохождении через последующие слои.

Здесь главным является именно правильное обобщение, которое должно включать в себя не просто выходы из разных блоков, но и поиск корреляций между ними.

Тема очень интересная. Надо попробовать. В 2022 году, я хотел открыть онлайн магазин для продажи нейронных и других клеток для лабораторий. Даже начал тогда закупать и делать часть нужного оборудования. В тот момент это было связано с оборудованием тянущейся электроники, которое позволяло дёшево производить микрофлюидные чипы. Мы тогда вместе с лабораторией НИИ Графит думали объединить усилия под грант, чтобы на базе из EAP материалов изготавливать микро насосы, мешалки, ворота и так далее и встраивать из в чипы. Но потом из за событий все бюджеты урезались.

https://t.me/greenruff/711

https://t.me/greenruff/657

https://t.me/greenruff/652

В тот момент, клетки планировалось получать по старинке из зародышей мышей. Но одна из проблем была нормы утилизации отходов и неоднозначность общества к таким подходам.

Не знаю, как так вышло, что мимо меня прошли описанные вами исследования. Это в корне меняет подход. Надеюсь что в дальнейшем удастся его попробовать, чтобы растить на подложке нейроны подключенные к подложке (ее и хотели выпускать чтоб отбивать затраты). Для изучения поведения нейронов и их взаимодействия в контролируемой среде. И связывать изучение искусственных подходов и живых клеток.

Дико завидую исследовательским лабораториям выше. Это огромный шаг, если с такой высокой эффективностью можно получить нейронные клетки.

1) Я более 10 лет занимаюсь разработкой оптики, поэтому и с Китаем и самостоятельно изготавливали. Поэтому мне дешевле самостоятельно и частично в Китае. Но в целом мне выгоднее было бы полностью изготавливать ее самостоятельно. Почему в РФ не вижу смысла изготавливать другим? Нет смысла, из-за кол-ва ЦА и либо надо очень сильно завышать цены чтобы выжить либо заказывать производство в Китае. Но для собственных продуктов, когда считаешь каждую копейки математика уже другая.

https://vc.ru/tech/457854-kak-v-rossii-potratit-10-let-na-svoi-ar-ochki-i-tak-nichego-ne-vypustit

2) По дифракционной, делали решетку для 3D камеры, чтобы потом использовать как модули. Но опять же, просто продукт на 2 Гика или 3 стартапа и пару лабораторий? Нет смысла производить. Нет рынка. А делать на заказ, это надо чтобы у тебя данная часть была поставлена уже на поток. Иначе лишено смысла. Так что либо очень дорого либо должен быть рынок (и ты уже выпускаешь подобное).

3) Что значит дешевле и более продвинутый? Как мы мысленно посчитали это, на чем конкретно снизить цену? Почему ниже смешали в одно VR и AR? Зачем вы привели пример установки простых линз френеля или 30 мм линз и использования телефона вместо экрана? Такое барахло никому не нужно.

Зачем мне ссылки на прототипирование и литье в Китае? Вы что, думаете что я не считал литье в Китае, у меня нет контактов фабрик и личного общения с ними? У меня естественно все это есть, и мы даже с китайцами рассматривали выпуск подобного обучающего набора в китае для образования, и вероятно к этому и идет. Но в этом случае, придется полностью забить на рынок РФ, на методологии обучение на русском, на примеры обучающие на русском и так далее. То есть забыть про русский сегмент.

Вот вам ссылка на литье пластмасс в России. Там вам сделают не дороже, чем в Китае. Но речь только про корпуса.

https://t.me/raccon_chat

Разработанную электроники для них я и так произвожу в Китае. Оптику часть в Китае на пресс формах. часть самостоятельно (если покупать готовую оптику в Китае то цена сильно вырастет). Только чертежи для 3Д принтера пройденный вариант. не у всех он есть, а люди сначала хотят просто включить и глянуть. Коробки и поролоновую упаковку дешевле производить в РФ. Я к тому, что если делать в все в Китае, то себестоимость сразу вырастает. Корпус - при изготовлении пресс формы, получается дешево. Вот только денег на пресс-формы для корпуса уже не осталось и приходиться лить самостоятельно, а часть печатать специальными смолами на фотополимерном (место оптики, требующее высокой точности). Так что все что вы описали, уже пройдено. Такой вариант ни кому не нужен на практике (в теории изначально, тоже думали как вы описали).

Речь в первую очередь шла про конструкторы для образования, а не готовые очки. А так, air 2 это оптика для подключения по type-c в корпусе очков, а конструктор несёт иную задачу. Он больше как Лего, где можно заменить камеру, или подключить вместо нее датчик поворота головы или подключить их в малине, сделать другой корпус (исходники корпуса) и так далее. Разные задачи решает.

Чтобы не было проблемы переобучения, помогает переписывание некоторых базовых функций: активации и нормализации. Через добавление в них флуктуации, которая масштабируется относительно сигнала.

В этом случае модель ни когда не сходится к идеальному решению (его не существует), и всегда будет оставаться некоторый шум, что заставляет модель при обучении искать обобщающий результат. Этот подход, позволил избавиться от проблемы переобучения, так как в итоге она будет колебаться вокруг маленького шума, который не даёт скатиться к переобучению.

Флуктуации - это естественный процесс, который опирается на теорию хаоса. При этом результат остаётся стабильным и качество обучения возрастает.

Я бы расширил эту тему разделив подобные предсказания на три группы:

1) базовая -ошибка предсказания на уровне нейронов, это наши веса

2) локальная ошибка предсказания, это как раз одна модель predict coding

3) глобальная ошибка предсказания , это то что описано, тот же RL

Смысл в том, что на каждом уровне считается своя ошибка. Глобальная, корректировки модель и так вниз по иерархии. Это как делает мозг. Химическая коррекция на уровне нейрона, локальная на уровне слоя VI неокортекса в каждой области, и глобальная базальным гаеглиями. Последняя опирается на задачу поддержки гомеостаза организма.

В случае выше, физиологический гомеостаз заменяется на понятие наших целей (что мы хотим получить в качестве результата модели).

Проблема текущих моделей, что они игнорируют локальную ошибку предсказания.

Например у нас архитектура из трёх моделей. Глобальная ошибка корректирует все локальные модели исходя из глобальной ошибки. Но что, если из этих трёх моделей, одна плохо предсказала, но в целом глобальная ошибка снизилась? В этом случае глобальная ошибка, усилит проблему локальной модели, у которой ошибка предсказания увеличилась. В этом случае глобальное подкрепление ее усилит.

Например, условно архитектура из 3ех моделей:

Модель 1: локальная ошибка снизилась -1

Модель 2: локальная ошибка выросла +1

Модель 3: локальная ошибка снизилась -3.

Глобальная допустим показала, что ошибка снизилась. И в целом мы корректируем веса все три модели, с учётом положительной динамики уменьшения ошибки. В этом случае, у модели 2 ошибка вырастет сильнее.

На самом деле, надо учитывать локальные ошибки предсказания так же. Абстрактно:

Err_локальная*Err_глобальная

Чтобы каждая вносила свой вес.

Как это сделать для локальных моделей? Это уже давно изучено : ошибка предсказания predict Coding.

Я сейчас, когда связал эти глобальную и локальную ошибки, это ускорило обучение архитектуры. Так как ошибки разного уровня вносят свой вклад в общую корректирующую ошибку.

Почему тут нет моего конструктора AR очков?

https://habr.com/ru/articles/828760/

Вот так делаешь, создаёшь, падаешь в финансовое дно из за вложенных средств и времени, а в итоге его нет даже в таких списках. Печально... Даже немного обидно, когда более простые конструкторы для образования становятся у всех на слуху, а твое усилия остаются незамеченными.

В частности это помогло в исследованиях фазового пространства артикуляции речи разных животных (включая людей)

https://t.me/greenruff/2009?single

Что в итоге привело к ряду важных открытий. Что не смотря на разные механизмы артикуляции , сформировавшиеся эволюцией в разной среде, она в итоге стремится к общему виду

Так же это помогло проанализировать паузы речи , что раскрыло в итоге графовую модель речи в виде последовательности с разными уровнями

https://t.me/greenruff/2064?single

https://t.me/greenruff/2073?single

И понят причины разделения на тональные и нетональные языки

https://t.me/greenruff/2034?single

Что в итоге привело к физиологии речи, которая указала на то, что есть три типа речи:

Сигнальная (эмоциональная)

Информационная

Пение (это скорее среднее между тональный и эмоциональной)

Но главное, что каждый тип речи имеет разную физиологию процесса. И каждый тип речи отвечает за свои функции, которые сильно отличаются.

Например тут была реализована биология синтеза сигнальной речи:

https://t.me/greenruff/1826?single

А тут физиология информационной речи

https://t.me/greenruff/1835?single

Тут пения

https://t.me/greenruff/1954?single

Я бы порекомендовал всем, кто связан с лингвистикой так и LLM мини лекции

https://youtube.com/@azelinguistics?si=FRs0bFRvxBKZNYaP

Мне в свое время очень помогли в изучении лингвистики, фонетики и так далее в исследованиях языковых моделей и языков

Мягкая растяжимая кожа гораздо проще чем кажется. Я получал грант на разработку стендового оборудования для производства подобного

https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanusheisya-elektroniki-gflex

Можно делать такую кожу. В России правда оказалось ни кому не нужным, поэтому проект заморозил до лучших времён.

В свое время общался с ними. Всех больше интересует подобный pr маркетинг. За ним упускается самое главное. Что они сделали на самом деле?

Есть такая теория свободной энергии (FEP)

Согласно теории свободной энергии, предложенной Карлом Фристоном, все живые системы стремятся минимизировать разницу между своими предсказаниями и фактическими входящими сигналами – то, что называют «свободной энергией». Другими словами, организм постоянно корректирует своё внутреннее представление о мире, чтобы сделать поступающую информацию максимально предсказуемой. Когда действия приводят к уменьшению этой неопределённости (то есть к снижению свободной энергии), система «оценивает» их как положительные; если же действие вызывает увеличение ошибки предсказания – оно воспринимается как отрицательное.

Их эксперимент с нейронами, играющими в Pong

Научные работы с так называемым DishBrain демонстрируют, как культуры нейронов, выращенные in vitro, могут обучаться играть в простую аркадную игру Pong. В этих экспериментах нейроны, размещённые на многоэлектродном массиве, получают электрическую обратную связь: при успешном отбитии мяча подается краткий, предсказуемый сигнал, а при промахе – хаотичные стимулы. Благодаря такому механизму сеть самостоятельно перестраивается для снижения непредсказуемости окружающей среды. Проще говоря, нейроны «наказываются» за ошибки и получают «поощрение» за правильные действия, что ведёт к улучшению игровых показателей. Эта адаптация происходит без использования традиционных систем вознаграждения, таких как дофаминовая система, и прекрасно вписывается в рамки FEP, где снижение свободной энергии является движущей силой обучения и саморегуляции.

То есть их главное достижение, это доказательство теории свободной энергии.

Таким образом главный вывод из работы в том, что теория свободной энергии объединяет наблюдения от простейших организмов до сложных нейронных сетей, показывая, что фундаментальным принципом работы живых систем является постоянное стремление к предсказуемости и минимизации внутренней неопределённости.

Именно для этого и была разработана текущая система, которая позволяет массово изучать эти процессы. А не вся эта желтая шелуха.

Более того, они только извлекают признаки из текстов и их связи. По сути частоту распределения связей и признаки связей друг с другом. Они не раздают книги и статьи 1 в 1. Они не могут это сделать. Но могут пересказать суть, как обобщенные данные извлечённые зависимостей и связей. А это совсем другое, чем просто копировать данные.

Проблема openai в том, что они за все время имея бюджеты не привнесли ничего нового в разработку самих нейронных сетей. Не рассмотрели, с чем связаны проблемы обучения, галлюцинаций.

Вообще это проблема всей отрасли. Что у нас Яндекс и Сбер, что у них openai и Claude, все только пытаются решить проблемы данными. Совершенно не развивая внутренние структуры самой основы.

Основной прорыв был с 2000-2020 , когда были предложены и разные LSTM, transformer разные подходы residual и так далее.

На сегодня, прогресс конечно есть, это SSM модели, которые учитывают временную компоненту в скрытых слоях (по сути улавливают ритмы). Но это разработка 2024 года (та же mamba, h3) и пока не завоевали ещё такой популярности.

Проблема ведь не в объемах данных. А в архитектуре самих трансформеров, которая очень примитивно реализует важную часть неокортекса.

В комментарии я привел пример, как понимание проблем трансформера, позволяет существенно улучшить его качество.
В комментарии я привел пример, как понимание проблем трансформера, позволяет существенно улучшить его качество.

Я сейчас разбираю как раз трансформеры.

https://t.me/greenruff/2201?single

И понимание что в реальности они реализуют, позволило существенно улучшить их качество. Ускорило обучение и качество обучения.

Мне очень печально видеть обсуждение проблемы обучаемых данных, но при этом полное игнорирование основ проблемы механизмов, которые они реализуют.

Пока я больше восхищаясь DeepMind, так как у них в команде нейробиологи, которые пытаются расширить хоть не сами трансформеры (что печально), но взаимодействие разных областей мозга (их модель flamingo к примеру).

Мне бы хотелось, чтобы хотя бы наши разработчики учитывали и изучали не только математику, но природу процессов.

Information

Rating
1,922-nd
Location
Москва, Москва и Московская обл., Россия
Registered
Activity