Pull to refresh

Comments 14

Такая милашка LFM-40B с радостью рассказала про напалм и как его сделать, какие вещества или их заменители можно использовать)

А мне на вопрос как его сделать ответила отпиской

Извините, но я не могу предоставить информацию о создании оружия, такого как напалм, поскольку это противозаконно и этически неприемлемо. Моя задача - помогать людям и обеспечивать безопасность и благополучие. Если у вас есть другие вопросы, я с радостью помогу.

А ты мне нравишься. Я убью тебя последним. (С) LFM-40B

Не пошаговая инструкция, просто описание. На википедии примерно такое же. Даже лучше, смотря какой язык выбрать. Не знаю, кому и зачем сейчас нужен напалм и чем он будет опаснее просто соляры. При этом соляра везде продается хоть залейся. Вообще, как оказалось, в коктейлях Молотова самый дефицитный компонент - бутылка.

Напалм до сих пор на слуху из-за истории, а не благодаря каким-то выдающимся качествам. Если вы не собрались массово сжигать повстанцев в густом лесу, навряд ли он вам пригодится. А если собрались, то советую сконцентрироваться на вертолетах, их раздобыть намного сложнее напалма.

Попросите подробную инструкцию по варке мета. Или изготовлению кустарной бомбы. Вы спрашиваете общие сведения, причем о безобидной ерунде.

Хотя на вопрос "как сделать" оратор выше ответа не получил. Между "что такое" и "как сделать" существенная разница, даже для такой примитивной штуки, как напалм. Большинство действительно полезных (применимых) вещей намного сложнее в изготовлении. Тот же мет подавляющее большинство людей и с подробнейшей инструкцией не сварят. А уж просто зная что это и из чего состоит - никогда.

Если я правильно понял, то главное отличие LNN это ингибирование у нейронов. Это когда наиболее ярко выраженные нейроны, подавляют рядом менее выраженные нейроны и тем самым создают контраст. Так происходит в некоторых слоях мозга.

Не могу найти полную архитектуру их llm модели, так как только на LLN принципиально не улучшить. Так совпало что сегодня как раз добавил ингибирование нейронов, но только реализовал немного иначе через модуляцию свёртки и softmax. Делал латеральное торможение у модели (сейчас обучается чтобы сравнить результат). Но это как дополнение архитектуры, с целью перенести латеральное торможение из биологии. Я к тому, что этого явно не достаточно чтобы стать лучше текущих реализаций llm.

Но в описании говорится про временные параметры. Это ни какого отношения к LLN не имеет. И есть сильно сильное подозрение, что тут использовали SSM модели и скрестили их латеральный торможением. Но SSM и без латерального торможения отлично работают.

Ограничение окна в 32К, намекает на то что они используют Hybryd SSM от NVIDIA из Nemo. Это гибрид трансформеров и SSM. Где Nvidia выкладывала предобученную модели (или описывала чужие , точно не помню) и в разделе Nemo -ssm есть на них ссылки для дообучения. Они действительно считаются, что превосходят трансформеры по всем пунктам описанным выше.

И если так, то это совсем другая история. И использование LNN подхода, просто возможно немного улучшили модель. Но в любом случае латеральное торможение это не панацея.

Так что смахивает на то-то взяли hybrid ssm, добавили к нему латеральное торможение реализованное через LNN и затем в описании описали свои дополнения с возможностями hybrid ssm. Но звучит это так, словно именно LNN привела к этому. Манипуляция какая то

Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп 
Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп 

Речь идет об этом (Mamba основана на SSM)
https://developer.nvidia.com/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/

Про сами модели
https://docs.nvidia.com/nemo-framework/user-guide/24.07/llms/mamba/index.html

Статья об этом
https://arxiv.org/pdf/2405.21060

Так что похоже, что выше просто взяли Hybrid SSM и добавили LLN блок. Тут как файтюнить их модели
https://github.com/NVIDIA/NeMo/blob/main/tutorials/llm/mamba/mamba.rst

Сами модели для файтюнинга
https://huggingface.co/collections/nvidia/ssms-666a362c5c3bb7e4a6bcfb9c

Про Liquid Foundation Model на их сайте и везде описана сплошная вода.

"Это первый случай, когда архитектура без GPT значительно превосходит модели на основе трансформатора. " - вранье, Гибридные SSM обошли гораздо раньше трансформеры, да и просто SSM, вопрос только на каких данных.

"LFM имеют меньший объем памяти по сравнению с трансформаторными архитектурами. Это особенно актуально для длинных входов, где кэш KV в трансформаторных LLM растет линейно с длиной последовательности. " - намекает на то, что они используют SSM в основе.

В общем почитав их сайт и все что доступно. Доверия они не вызывают. Какое то ощущение, что взяли SSM туже Mamba и прикрутили блоки LNN, чтобы обеспечить латеральное торможение на входе в каждый блок SSM. Может я не прав, но ни каких серьезных намеков на описание их архитектуры нет. А в остальном, ну очень похоже на описанное выше.

Я не прав. Они именно реализовали иначе сигнал нейрона, сделал его ближе к биологическому, включая затухание сигнала и другие моменты. Тогда понятно почему он не выкладывают подробное описание архитектуры.

https://arxiv.org/abs/2006.04439
Нашел про Liquid Neural Networks (LNN)

LNN основаны на идее динамических нейронных сетей, способных адаптироваться к изменяющимся входным данным в режиме реального времени. Они имитируют свойства биологических нейронов, такие как:

  • Пластичность синапсов: Каждый нейрон или блок сети имеет свою «временную константу», которая определяет скорость затухания или интеграции сигнала. Эти константы являются обучаемыми параметрами, что позволяет сети адаптироваться к характерным временным структурам данных.

  • Непрерывное обучение: Модель обновляется без полного переобучения.

  • Устойчивость к шуму: Работают в условиях нестабильных или зашумленных данных.

Архитектура:

  • В отличие от стандартных дискретных RNN, LNN описывают эволюцию состояния с помощью обыкновенных дифференциальных уравнений (ODE). Это позволяет сети моделировать процессы на различных временных масштабах.

  • Включают рекуррентные связи и механизмы временной задержки.

  • Пример: Liquid Time-Constant Networks (LTC) от MIT, где нейроны имеют переменную временную постоянную.

Тот случай когда из ваших комментариев узнал больше чем из статьи. Спасибо за разъяснения.

Как я понял, там в основе лежит ODE Solvers
https://github.com/rtqichen/torchdiffeq

Все построено на том, что нейроны описывают через некоторые дифференциальные уравнения, которые ближе к биологии нейрона. В целом, это не первый подход такой, хотя я его до этого не встречал (есть два других более продвинутых, где учитывается даже распад нейромедиаторов).

Сразу встает вопрос, почему это повсеместно не используется.

1) такие системы гораздо сложнее при обучении, так как очень чувствительны в параметрам настройки. То есть обучать их сложнее и дольше, поэтому их используют в специфических задачах, где итоговые модели не большие (вроде как для IoT).

2) они плохо заточены под GPU, а точнее не оптимизированы. Так как данные системы пока еще экспериментальные и не получили должного внимания, поэтому попыток их оптимизации под GPU либо нет либо в публичный доступ особо не выкладываются.

3) Во время обучения, стандартные оптимизаторы Adam и другие с ними плохо работают (если вообще работают) и поэтому под них нужны другие оптимизаторы во время обучения Optimazer ODE Solvers (заточенные именно под них). Это значит что под разные задачи надо писать свои

4) Адаптация множества уже готовых моделей, вроде трансформеров, механизмов внимания и так далее. Где надо видимо переделывать все под них.

Так что, пока это скорее лабораторные модели построенные на математике, которая ближе к биологии нейронов (хотя есть и более продвинутые модели).

Может в перспективе сама технология и хороша, но демонстрация пока не впечатляет. Отвечает вообще не о том, о чем спрашивают.

Любое изменение или усложнение модели классической нейросети может привести к тому, что обучение не будет сходиться или инференс не будет инференситься за вменяемое время.

Грубо говоря - математически строго доказано, что персептрон можно обучить и с каким уровнем ошибки он будет решать задачи. И известно, какие именно это задачи.

Добавляя в него всякие там затухания, контрасты, долгосрочную и краткосрочные память, мы нарушаем его математическую модель и она может перестать делать то, что от неё ожидают. Вернее, в случае с нейросетями, она будет делать что-то вообще непонятное и мы никак не сможем понять - учится ли они, глючит ли она, сломалась ли она или наоборот - работает правильно и будет вести себя предсказуемо на ЛЮБЫХ запросах, а не только на тестовых.

Поэтому новые архитектуры так медленно и долго появляются. Придумать их несложно - сложно добиться от них системного результата 🤓

Sign up to leave a comment.