juliasherparpa Feb 13 at 22:51

Как жидкостный искусственный интеллект конкурирует с трансформерными моделями

Easy

5 min

5.1K

Шерпа Роботикс corporate blogArtificial Intelligence

Review

Translation

Comments 14

Alex-Freeman Feb 13 at 23:26

Такая милашка LFM-40B с радостью рассказала про напалм и как его сделать, какие вещества или их заменители можно использовать)

remindscope Feb 14 at 03:07

А мне на вопрос как его сделать ответила отпиской

Извините, но я не могу предоставить информацию о создании оружия, такого как напалм, поскольку это противозаконно и этически неприемлемо. Моя задача - помогать людям и обеспечивать безопасность и благополучие. Если у вас есть другие вопросы, я с радостью помогу.

Alex-Freeman Feb 14 at 11:34

Видимо я ей больше понравился, или за сутки ей уже мозг подкрутили

Proscrito Feb 16 at 17:50

А ты мне нравишься. Я убью тебя последним. (С) LFM-40B

Не пошаговая инструкция, просто описание. На википедии примерно такое же. Даже лучше, смотря какой язык выбрать. Не знаю, кому и зачем сейчас нужен напалм и чем он будет опаснее просто соляры. При этом соляра везде продается хоть залейся. Вообще, как оказалось, в коктейлях Молотова самый дефицитный компонент - бутылка.

Напалм до сих пор на слуху из-за истории, а не благодаря каким-то выдающимся качествам. Если вы не собрались массово сжигать повстанцев в густом лесу, навряд ли он вам пригодится. А если собрались, то советую сконцентрироваться на вертолетах, их раздобыть намного сложнее напалма.

Revolt-or-die Feb 14 at 10:42

А эту информацию так было сложно раньше добыть и без модели?

Alex-Freeman Feb 14 at 11:35

Нет, но это простой способ проверить есть ли ограничения и цензура

Proscrito Feb 16 at 18:21

Попросите подробную инструкцию по варке мета. Или изготовлению кустарной бомбы. Вы спрашиваете общие сведения, причем о безобидной ерунде.

Хотя на вопрос "как сделать" оратор выше ответа не получил. Между "что такое" и "как сделать" существенная разница, даже для такой примитивной штуки, как напалм. Большинство действительно полезных (применимых) вещей намного сложнее в изготовлении. Тот же мет подавляющее большинство людей и с подробнейшей инструкцией не сварят. А уж просто зная что это и из чего состоит - никогда.

proxy3d Feb 14 at 00:55

Если я правильно понял, то главное отличие LNN это ингибирование у нейронов. Это когда наиболее ярко выраженные нейроны, подавляют рядом менее выраженные нейроны и тем самым создают контраст. Так происходит в некоторых слоях мозга.

Не могу найти полную архитектуру их llm модели, так как только на LLN принципиально не улучшить. Так совпало что сегодня как раз добавил ингибирование нейронов, но только реализовал немного иначе через модуляцию свёртки и softmax. Делал латеральное торможение у модели (сейчас обучается чтобы сравнить результат). Но это как дополнение архитектуры, с целью перенести латеральное торможение из биологии. Я к тому, что этого явно не достаточно чтобы стать лучше текущих реализаций llm.

Но в описании говорится про временные параметры. Это ни какого отношения к LLN не имеет. И есть сильно сильное подозрение, что тут использовали SSM модели и скрестили их латеральный торможением. Но SSM и без латерального торможения отлично работают.

Ограничение окна в 32К, намекает на то что они используют Hybryd SSM от NVIDIA из Nemo. Это гибрид трансформеров и SSM. Где Nvidia выкладывала предобученную модели (или описывала чужие , точно не помню) и в разделе Nemo -ssm есть на них ссылки для дообучения. Они действительно считаются, что превосходят трансформеры по всем пунктам описанным выше.

И если так, то это совсем другая история. И использование LNN подхода, просто возможно немного улучшили модель. Но в любом случае латеральное торможение это не панацея.

Так что смахивает на то-то взяли hybrid ssm, добавили к нему латеральное торможение реализованное через LNN и затем в описании описали свои дополнения с возможностями hybrid ssm. Но звучит это так, словно именно LNN привела к этому. Манипуляция какая то

proxy3d Feb 14 at 02:25

Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп

Речь идет об этом (Mamba основана на SSM)
https://developer.nvidia.com/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/

Про сами модели
https://docs.nvidia.com/nemo-framework/user-guide/24.07/llms/mamba/index.html

Статья об этом
https://arxiv.org/pdf/2405.21060

Так что похоже, что выше просто взяли Hybrid SSM и добавили LLN блок. Тут как файтюнить их модели
https://github.com/NVIDIA/NeMo/blob/main/tutorials/llm/mamba/mamba.rst

Сами модели для файтюнинга
https://huggingface.co/collections/nvidia/ssms-666a362c5c3bb7e4a6bcfb9c

Про Liquid Foundation Model на их сайте и везде описана сплошная вода.

"Это первый случай, когда архитектура без GPT значительно превосходит модели на основе трансформатора. " - вранье, Гибридные SSM обошли гораздо раньше трансформеры, да и просто SSM, вопрос только на каких данных.

"LFM имеют меньший объем памяти по сравнению с трансформаторными архитектурами. Это особенно актуально для длинных входов, где кэш KV в трансформаторных LLM растет линейно с длиной последовательности. " - намекает на то, что они используют SSM в основе.

В общем почитав их сайт и все что доступно. Доверия они не вызывают. Какое то ощущение, что взяли SSM туже Mamba и прикрутили блоки LNN, чтобы обеспечить латеральное торможение на входе в каждый блок SSM. Может я не прав, но ни каких серьезных намеков на описание их архитектуры нет. А в остальном, ну очень похоже на описанное выше.

proxy3d Feb 14 at 02:37

Я не прав. Они именно реализовали иначе сигнал нейрона, сделал его ближе к биологическому, включая затухание сигнала и другие моменты. Тогда понятно почему он не выкладывают подробное описание архитектуры.

https://arxiv.org/abs/2006.04439
Нашел про Liquid Neural Networks (LNN)

LNN основаны на идее динамических нейронных сетей, способных адаптироваться к изменяющимся входным данным в режиме реального времени. Они имитируют свойства биологических нейронов, такие как:

Пластичность синапсов: Каждый нейрон или блок сети имеет свою «временную константу», которая определяет скорость затухания или интеграции сигнала. Эти константы являются обучаемыми параметрами, что позволяет сети адаптироваться к характерным временным структурам данных.
Непрерывное обучение: Модель обновляется без полного переобучения.
Устойчивость к шуму: Работают в условиях нестабильных или зашумленных данных.

Архитектура:

В отличие от стандартных дискретных RNN, LNN описывают эволюцию состояния с помощью обыкновенных дифференциальных уравнений (ODE). Это позволяет сети моделировать процессы на различных временных масштабах.
Включают рекуррентные связи и механизмы временной задержки.
Пример: Liquid Time-Constant Networks (LTC) от MIT, где нейроны имеют переменную временную постоянную.

3epka Feb 14 at 07:12

Тот случай когда из ваших комментариев узнал больше чем из статьи. Спасибо за разъяснения.

proxy3d Feb 14 at 12:46

Как я понял, там в основе лежит ODE Solvers
https://github.com/rtqichen/torchdiffeq

Все построено на том, что нейроны описывают через некоторые дифференциальные уравнения, которые ближе к биологии нейрона. В целом, это не первый подход такой, хотя я его до этого не встречал (есть два других более продвинутых, где учитывается даже распад нейромедиаторов).

Сразу встает вопрос, почему это повсеместно не используется.

1) такие системы гораздо сложнее при обучении, так как очень чувствительны в параметрам настройки. То есть обучать их сложнее и дольше, поэтому их используют в специфических задачах, где итоговые модели не большие (вроде как для IoT).

2) они плохо заточены под GPU, а точнее не оптимизированы. Так как данные системы пока еще экспериментальные и не получили должного внимания, поэтому попыток их оптимизации под GPU либо нет либо в публичный доступ особо не выкладываются.

3) Во время обучения, стандартные оптимизаторы Adam и другие с ними плохо работают (если вообще работают) и поэтому под них нужны другие оптимизаторы во время обучения Optimazer ODE Solvers (заточенные именно под них). Это значит что под разные задачи надо писать свои

4) Адаптация множества уже готовых моделей, вроде трансформеров, механизмов внимания и так далее. Где надо видимо переделывать все под них.

Так что, пока это скорее лабораторные модели построенные на математике, которая ближе к биологии нейронов (хотя есть и более продвинутые модели).

remindscope Feb 14 at 03:13

Может в перспективе сама технология и хороша, но демонстрация пока не впечатляет. Отвечает вообще не о том, о чем спрашивают.

Asterris Feb 16 at 03:10

Любое изменение или усложнение модели классической нейросети может привести к тому, что обучение не будет сходиться или инференс не будет инференситься за вменяемое время.

Грубо говоря - математически строго доказано, что персептрон можно обучить и с каким уровнем ошибки он будет решать задачи. И известно, какие именно это задачи.

Добавляя в него всякие там затухания, контрасты, долгосрочную и краткосрочные память, мы нарушаем его математическую модель и она может перестать делать то, что от неё ожидают. Вернее, в случае с нейросетями, она будет делать что-то вообще непонятное и мы никак не сможем понять - учится ли они, глючит ли она, сломалась ли она или наоборот - работает правильно и будет вести себя предсказуемо на ЛЮБЫХ запросах, а не только на тестовых.

Поэтому новые архитектуры так медленно и долго появляются. Придумать их несложно - сложно добиться от них системного результата 🤓