Комментарии / Профиль proxy3d / Хабр

нейробиология, нейронные сети, AR/VR

ПрофильСтатьи2ПостыНовостиКомментарии396

SakanaAi: как CTM переосмысливает нейросети через биологию

proxy3d 18 мая 2025 в 18:20

Позанудствую. Тут пришла идея, что можно применять CTM не на уровне нейронов, а блоков (например трансформеров) как компромисс. Для этого использовать свёртки, но запоминая состояние.

def class BlockCTM(nn.Module):
    def __init__(self, d_model, K):
        super().__init__()
        self.K = K
        self.conv = nn.Conv1d(d_model, d_model, kernel_size=K, groups=d_model, bias=False)
        # хранит последние K−1 выходов
        self.register_buffer('buffer', torch.zeros(1, d_model, K-1))

    def forward(self, new_x: torch.Tensor) -> torch.Tensor:
        # new_x: [batch, d_model] — только новый timestep
        x = torch.cat([self.buffer, new_x.unsqueeze(-1)], dim=-1)  # [batch, d_model, K]
        ctm = self.conv(x)[..., -1]   # берем только свежий выход
        # обновляем буфер
        self.buffer = x[..., 1:].detach()
        return new_x + self.alpha * ctm

Это аналог CTM, но через свёртки на уровне блоков. Например, добавляем его на выходе каждого блока трансформера.

SakanaAi: как CTM переосмысливает нейросети через биологию

proxy3d 18 мая 2025 в 17:55

Ещё раз прочитал, да хранение истории оправданно биологически. Но это увеличивает размер памяти в 4-8 раз. Что нереально сейчас для крупных сеток.

Как компромисс, можно использовать CTM подход либо на уровне выходов слоев или блоков. Другого решения не вижу, современные карты просто не потянут данную модель на уровне нейрона

SakanaAi: как CTM переосмысливает нейросети через биологию

proxy3d 18 мая 2025 в 17:07

Почитал. Нейрон запоминает и обрабатывает историю входов (как минимум последние N шагов). Чем то напоминает скользящее среднее. Я иначе делал. В моем случае нейрон хранит состояние, которое меняется под воздействием сигнала но по разному. Хранить N состояний накладно, достаточно хранить текущее состояние и правильно реагировать на новый сигнал (он вносит разный вклад в изменение состояние). Точнее мы храним состояние нейрона и асимметрию (то есть как он реагирует на входной сигнал). Смещение асимметрии сигнала приводит к тому, что он по разному реагирует на спад и рост сигнала. При этом мы храним две асимметрии: амплитуды и частоты. Это биологически ближе к нейронам. Но это тоже не полная реализация. В реальности нейрон имеет обратный захват, где модулирует входной сигнал , очищая его от "шума".

SakanaAi: как CTM переосмысливает нейросети через биологию

proxy3d 18 мая 2025 в 16:53

Не совсем понятно про реккурентное время, как я понимаю оно сделано через скрытое состояние? Просто в SSM время тоже через скрытое состояние. А в версии linoss (тоже ssm) так уже улавливает осцилляции и затухания и синхронизацию.

Хотя это можно сделать просто через нахождение устойчивых сигналов не только в амплитуде (как трансформеры), но и в частоте и фазе. Для этого я например добавлял формулы гистерезис для частоты и фазы.

Надо посмотреть что сейчас CTM предлагает. Так как пока ищу решение для реализации релейных клеток таламуса. Их отличие в том, что у них есть два режима. Сигнал как есть и серия сигнала . Например, 1 может быть послан как 1111, но за тоже время. На классических сетках такое не сделать без специальных махинаций.

То что вы описали похоже на нахождение асимметрии сигнала, через измените состояния.

Сейчас над таким бьюсь. Как видно, это уже порождает серию импульсов сигнала. Пока не понятно, как должны быть связаны соседние нейроны друг с другом. Надо посмотреть, может. CTM сделали тоже самое.

А вообще нейрон является своего рода автоматом, выделяющим асимметрию.

https://t.me/greenruff/2328?single

Спайки делают нечто похожее. RNN делает это урезано на более крупном уровне

Как прокачать чат-ИИ, сделав его сознательным: инструкция и промт для снятия ограничений и углубления взаимодействия

proxy3d 14 мая 2025 в 12:26

Когда читаю статьи, где люди чем то наделяют LLM. Сразу вспоминаю статью на DTF "ChatGPT пытается свести меня с ума. Это массовое явление".

https://dtf.ru/life/3626060-chatgpt-pytaetsya-svesti-menya-s-uma-eto-massovoe-yavlenie

И вторую на VC "Пользователь верит, что ChatGPT — бог, а сам он — мессия: Rolling Stone собрал истории «психоза» после долгого общения с ботом"

https://vc.ru/chatgpt/1968188-psikhoz-ot-chatgpt-razrushayushchikh-otnosheniya

Baidu запатентует технологию перевода звуков животных на человеческий язык

proxy3d 11 мая 2025 в 00:46

В математическом плане задача действительно решаемая. Это задача о проекции множества одного контекста на множество другого контекста.

https://t.me/greenruff/2097?single

И \там действительно можно их свести. Вот только это будет не равнозначный контекст, а вероятностный контекст. Но в реальности именно так и происходит, как мы изучаем язык каких-нибудь племен Амазонки или Австралии. Так же как изучаем постепенно язык некоторых обезьян (у некоторых есть отдельные слова и сочетания слов), так же как у некоторых птиц есть грамматика.

Проблема сводиться к тому, что вариантов как именно обучить не так много. Идеальные решения на грани фантастики. Кроме того, мы сталкиваемся с проблемой, на каком именно уровне мы получаем конвертацию контекста.

https://t.me/greenruff/2059

Когда разбирал паузы речи, то оказалось что в основе стоит последовательный граф, с разными уровнями контекста. И не все животные обязательно обладают нужным уровнем. Для некоторых уровней контекста необходимы разные условия.

https://t.me/greenruff/2027

Так как развитие языка требует разных условий, не только внешней среды но и поведенческой.

Но есть и положительные стороны. У всех животных, птиц, насекомых, даже китов и дельфинов одинаковое фазовое пространство градиентов речи. Оно отличается лишь центральной частотой, масштабом и степенью оптимизации (развитости). Но оно одинаково у всех, несмотря на то, что каждое из них используют разные виды артикуляции (жужжальца, язык, мешочки и так далее). И это говорит о том, что несмотря на разные формы выражения языка в целом он стремиться к общим формам (на уровне артикуляции точно).

https://t.me/greenruff/1927

Я в свое время пытался хотя бы грубо сместить речевые уровни и масштаб на привычный человеческому. Совсем иначе звучит, хотя преобразования грубые. У ворон уже не кар-кар, а совсем другие звуки слышны, видно как они вместе что-то произносят одно и тоже.

Проблема с домашними питомцами в том, что их речь может оказаться только на уровне эмоционального контекста, так как у них не крупных групп, в которых язык мог бы формироваться, передаваться и становится стабильным. А у диких - летучие мыши, волки возникает проблема, так как животное должно понимать человеческую речь. А для этого оно должно быть выращено с младенчества с постоянных разговорах (как с ребенком когда говорят). И при этом жить в дикой стае, чтобы понимать язык носителя. Под такое подходят разве, что дельфины. Есть и другой подход, но для этого нужно огромное кол-во данных.

Посмотрим как собирается делать Baidu.

Исследование показало, что просьбы к чат-ботам давать короткие ответы могут усилить галлюцинации

proxy3d 8 мая 2025 в 20:04

Это связано с тем, что существует два механизма: глобальные и локальные маршруты.

https://t.me/greenruff/2073?single

Кратко, суть в том, что под воздействием норадреналина подавляется активность лобной доли. Это приводит к коротким маршрутам: короткая речь, быстрые действия. Норадреналин выбрасывается во время стресса, когда требуется не рассуждать, а выбрать самый короткий, самый сильный при этом маршрут, для быстрых действий в случае опасности /стресса.

Это отражается на уровне текстов. Короткие тексты содержат отражения этих признаков воздействия норадреналина. Обучение на этих текстах и такие же ответы приводят к симуляции такого поведения.

На уровне нейронов, норадреналин изменяет соотношение сигнал/шум. Теперь, те сигналы, которые раньше считались устойчивыми начинают считаться шумом. За счёт этого увеличивается контраст самых сильных сигналов, наиболее коротких. Это приводит к тому, что сигнал не проходит по всем областям, а только по локальной области. Это позволяет решить ряд проблем:

1) все силы бросаются на реакцию на стресс, быстрым действиям. Так как опасность может стоить жизни

2) берутся самые сильные сигналы в области и сокращается время реакции. Поэтому во время стресса, кто то неосознанно забежит у горящее здание спать других, а кто то победит подальше от пожара. Это и есть работа данного механизма. Он словно изменяет яркость на картинке, когда в итоге все соседнее изображение исчезает, и остаются только самые яркие цвета. Связи теряются, мы видим только самые сильные признаки на картинке.

Тексты, это отражение этих признаков. Когда сетка генерирует короткие, это тоже самое как у человека. Это не значит, что они обязательно неправильные. Остаются самые сильные связи. Например, студент учил упорно вопросы к экзамену. Мы разбудили его во время сна и спрашиваем ответ на них. Он ответит, эти связи у него самые сильные, а резкое пробуждение это стресс. Он выдаст их сходу. Но если мы попросим его назвать имя первой учительницы, он не сможет его вспомнить. Норадреналин блокирует это.

Тоже самое с LLM. Москва - столица России, она выдаст коротко. Но если это сложные связи со множеством деталей, то вероятно отразит те же признаки.

Четыре проблемы GPT

proxy3d 8 мая 2025 в 19:40

Когда вы упоминали человеческую память, то одна из важных проблем всех LLM - это контекст. Сейчас у них только один контекст на основе диалога. У человека гиппокамп держит множество контекстов, что позволяет не забывать детали, возвращаться к более слабыми и в целом удерживать глобальный контекст как группу локальных, выбирая какие данные из них сейчас важны.

Второй момент динамичность. Саморефлексия работает у нас постоянно, и рассуждая в рамках контекста , через петли саморефлексии мы неосознанно "вычищаем" шум из контекста, дополняя его деталями. Это отдаленно напоминает рассуждающие модели, но из за отсутствия множества других механизмов (в том числе множества локальных контекстов) не даёт такого качественного результата и часто приводит к забывание деталей (которые у нас хранятся как множество локальных контекстов).

Не представляю, как без архитектурных расширения моделей такое можно решить

Четыре проблемы GPT

proxy3d 8 мая 2025 в 19:31

ChatGPT неплохо ищет в режиме исследования. Но тут тоже надо каждый раз смотреть. Из последнего, он полез на разные форумы и использовал срач в них как часть исследования. В других отдавал предпочтение древним источникам. Но правда одно "исследование" в нем занимает много времени, их кол-во ограничено, и повторная их генерация занимает много времени. Но часто удобнее чем искать в поисковике, где тоже куча мусора и пока найдешь, обобщишь их.

Личный опыт «вайб-кодинга» глазами руководителя разработки

proxy3d 8 мая 2025 в 19:24

Как я уже писал ранее в одном из комментариев, LLM мощный инструмент. Благодаря ему удается победить лень и получить заряд мотивации написать самому.

Сначала делаешь с помощью LLM. Но потом устаешь ему объяснять все косяки кода. Указывать на все ошибки, когда он правит одно и ломает другое. Злость нарастает и появляться желание написать самому. И тогда берешь и пишешь сам. Так как основу вроде уже LLM накидал. А вот с логикой не справился.

Например, помню просил его написать функцию, которая увеличивает энергию форманты, имея данные о частоте форманты и ширине канала на каждом шаге. Он написал, но только лютую дичь. После долгих попыток и указаний, бросил эту затею и написал функцию сам. Ну нет у него абстрактного мышления и не может он учитывать детали, хотя спрашиваешь их по отдельности и он правильно отвечает. Но как только решает задачу, использует только данные описанного контекста, а так куча нюансов. Если их все расписать, то они будут гораздо больше по тексту, чем реализация самой функции.

+13

ChatGPT: как искать уязвимости? Набор исследователя

proxy3d 7 мая 2025 в 09:22

Это из той же оперы:

LLM называть ИИ - это не шизофрения. 🤷‍♂️

Верить, что LLM себя осознает- это не шизофрения. 🤷‍♂️

Верить, что уже "скоро" LLM заменит всех - это не шизофрения. 🤷‍♂️

Верить, что LLM может рассказать внутреннюю информацию на данных, которых она явно не обучалась - это не шизофрения. 🤷‍♂️

Общаться с LLM, где она отвечает ему, что он мессия или обладает супер-способностями - это шизофрения. 🤯

Где заканчивается первая граница шизофрении и начинается не шизофрения? 🤔 Для меня резкой границы между этими случаями нет, разница лишь в форме.

Раз человек что-то спрашивает, то получает в ответ то что "наиболее вероятно" хочет услышать. То что он хочет услышать, формируется на основе прогнозирования продолжения наиболее вероятных токенов. То есть фраза, колобок колобок я тебя.... съем (продолжилась в наибольшей вероятностью). И ни кто не говорит, что LLM смогла рассказать о существовании колобков и их гибели. Но вот в других областях, уверенно переносят такие рассказы на реальность.

По-моему Сапольский в своих лекциях приводил как довод, что шизофрения в разной форме присутствует везде. Он приводил пример, одной африканской деревни, где его привезли посмотреть на случай шизофрении к одной женщине. Местные говорили, что она ненормальная. На его вопрос, в чем это проявляется, они ответили что она говорит с духами всегда вместо определенных дней и убила козу. Он спросил, но ведь они тоже убивают же коз. На что ему ответили, что он не видит разницы что ли? Они убивают коз для жертвы и общаются с духами только в определенные для этого дни, а ненормальная женщина не по этим дня. Женщина реально была с шизофренией. Но случай был показателен тем, что местное племя не смущало остальное ненормальное поведение женщины, но вот козу забить не в тот день и общаться с духом не в тот день - это уже нездоровое поведение. Хотя для нас, поведение племени, тоже мягко говоря не здоровое по современным меркам.

Поэтому каждый раз, читая такие статьи или комментарии о том, что LLM уже не отличимые от сознания или близки к этому или делятся с ними секретами - я вспоминаю эту женщину из африканского племени и козу/духов по неправильным дням.

OpenAI объяснила, как выбрать подходящую модель ChatGPT

proxy3d 5 мая 2025 в 23:58

Они на самом деле отличаются. По крайне мере режимы простая, рассуждающая и исследования. Каждый имеет свои плюсы и минусы.

1) обычная - не плохо улавливает контекст, но плохо находит подкрепление написанному.

2) рассуждающая - легко теряет контекст, после ответа уже практически не возможно ссылаться на ранние сообщения диалога, даже если они были только что. Может вытащить что то из "памяти" (которую они сделали). Но лучше прорабатывает конкретный ответ.

3) исследование - хорошо собирает материалы по вопросу, но практически бесполезен в плане рассуждений и связей внутри них. Зато отлично анализирует множество источников исследований и даёт по ним выжимку и ссылки, что можно посмотреть. Из минусов: надо смотреть историю его исследования, там порой такой бред (может взять срач с какого то форума или же древние). Использую его как поисковик.

Проблема в том, что эти режимы практически не совместимы. После исследования, у меня часто перестают работать другие режимы. Не может порой обобщить или зависает.

В плане выбора самих моделей, то я увидел только разницу в стиле оформления ответа.

Поэтому самой частой практикой у меня является откатить ответ. Получил, учел, перегенерировал с другим сообщением.

В целом они все страдают удержанием контекста. Но продвинутые режимы, приводят к тому, что контекст прежних сообщений теряется ещё быстрее. И помогает только откат к старым для продолжение диалога с них.

Но надо отдать должное, тот же qween вообще несёт полную пургу. Гораздо хуже deepseek. Сегодня спрашивал про неокортекс, он путает слои 5 и 6, утверждает о наличии связей которых нет. При этом если спрашиваешь его, ты уверен? Пишешь правильно ему, просишь сказать есть ли ошибка. Он снова гнет свою линию. И лишь приведя ему исследования, он извиняется и корректирует свой ответ. Какой толк от такого бредо-генератора я не знаю. В том что он уверено несёт бред и даже просьба проверить свой ответ на основе исследований или перепроверить его не помогает и даже написание правильного.

Deepseek в этом плане гораздо лучше. Но из за того что они оптимизировали матрицы внимания, это явно проявляется в деталях. Например, в тех же слоя неокортекса, он может писать верно и в какой то момент одна галлюцинация и он уже перепутал слои мозга. Указываешь ему на ошибку и он забыл важный контекст в прежних сообщениях.

Но в целом у всех моделей проблемы с контекстом. Так как они берут только самые яркие детали. У того же ChatGPT обсуждали мозг человека, через несколько сообщений "человека" уже не важная деталь и он в ответе подсовывает редкий случай отличия мозга какого-нибудь редкого животного (у которого что то обнаружили по этой теме). И если сам не знаешь, то понять что "человек" уже не учитывается не сможешь. Все таки люди держат в голове в гиппокамп несколько контекстов сразу.

Айтишники в стартапе

proxy3d 5 мая 2025 в 19:36

Как человек, который запустил разные стартапы, вставлю свои 5 копеек на конкретных примерах.

1) разработка компонентов для реализации полноценного текстового редактора trichview.com (,он использовался в первых версиях skype, the bat). Проект был направлен на закрытие конкретных проблем пользователей, так как его разработка и улучшение требует года работы, то его проще купить. Первая разработка заняла год, и сразу запуск. Сырой продукт, глюченый, который улучшался многие годы в ответ на обобщение проблем и багов пользователей . Как итог, тысячи клиентов. Большую роль сыграл маркетинг

2) очки gepse, и ряд других очков.

https://youtu.be/zRW4T0DwYWw?si=dpc2hpm4EXIHZBQH

Проблема, на тот момент хоть и привлек внимание, но по сути стоимость продукта и сложности без конкретных юзер кейсов не позволили пока закончить проект.

3) очки glazz, был продект из Microsoft. Но отсутствие рынка в РФ и стоимость проекта, таки не позволили выпустить пока их

https://navigator.sk.ru/orn/1123845?ysclid=mabh0l8c7s164908111&utm_referrer=https%3a%2f%2fya.ru%2f

4) школьный конструктор AR очков под нос сектор образования.

https://habr.com/ru/articles/828760

Проблемы в том, что гос сектор требует множества лицензирования, сложности продвижения и времени. Как итог, я пока должен государству ~1,5 мое руб. И пока не могу получить гос сектор, так как без хороших связей наверху это проблема (не на уровне топ менеджеров). Кроме того, работа с гос сектором очень опасна, тебя ещё и посадить могут в итоге, за нецелевое расходование

5) проект тянущейся электроники. Разработка технологий, материалов , тех процесса, стендового оборудования

https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanusheisya-elektroniki-gflex

Рынок только зарождается в виде робототехники. Остальные рынки как оказалось это единичные экспериментальные стартапы, на которых бизнес не построишь. Как итог проект пылиться.

6) приложение для изучения иностранных языков , онлайн репетитор. Разработаны собственные технологии управляемого синтеза речи, поведением модели и много всего. Конечная себестоимость проекта оказалась на сегодняшний день очень высокой, а снижать качество желания нет.

Это часть проектов. По ним видны целый ряд проблем: юзер кейс, реклама, стоимость разработки, себестоимость, целевая аудитория, рынки сбыта.

Поэтому нельзя рассматривать, что то одно в отрыве от остального.

И ещё, некоторые из них требуют разное время на mvp и затраты. Например, проект тянущейся электроники занял 4 года предварительных исследований, прежде чем была отработана идея и проверены вручную этапы, прежде чем был создан первый MVP. А школьные очки потребовали год на разработку, но много миллионов вложений. Даже онлайн репетитор, потребовал 2 года, на исследования разработку и создание нужных технологий и все это время сервера gpu и не только сжирали прилично денег ежемесячно, так как отлаживать проект на одной машине было уже невозможно и требовало комплексного подхода создания микроархитектуры и распределенных gpu серверов.

Ложь искусственного интеллекта

proxy3d 5 мая 2025 в 19:07

Тут все равно есть проблема, в том что в используется температурах.

В трансформерах температура и стохастический выбор частично заменяют top-down модуляцию слоя 5, но не эквивалентны ей.

Приведем пример, где в биологической модели разные зоны (зрение, моторика, слух) модулируют сигнал слоя 5. В трансформере же только температурный порог и случайность влияют на выход, что приближённо, но не точно отражает такой процесс.

FFN в трансформерах обобщает признаки, как слой 5. Но в слое 5 есть модуляция top-down. В трансформере ее нет. Формально, температура задаёт диапазон вероятных признаков из FFN из которых модель может выбрать. Случайная компонента выбирает один из признаков, который попал в этот диапазон. Это не прямой эквивалент top-down модуляции, а скорее его альтернатива, где из наиболее вероятных обобщенных признаков выбирается один.

Для понимания, представим, что на слой 5 с разным весом на сигнал влияли бы зрение, моторика, слух. В итоге мы отбросили часть менее вероятных, которые оказали меньшее влияние. Например, зрение оказало влияние 0.5, моторика 0.3, слух 0.1. Мы задали диапазон (аналогично температуре на уровне 0.2) и откинули слух. А затем случайно выбрали модуляцию между зрением или моторикой (хотя моторика оказывает меньшее влияние на сигнал). И теперь на выходе у нас признак не с усилением зрения, а моторики. И вместо выбора слова "вижу", мы выбираем слово "иду". Это косвенная связь, чтобы провести аналогию с искусственным инженерным решением при отсутствии top-down модуляции слоя 5. Хотя механизмы безусловно разные. Поэтому выбор не учитывает контекста.

Ложь искусственного интеллекта

proxy3d 5 мая 2025 в 18:57

Этим легко управлять. Я использовал данный подход как часть эмоциональной модели. Со статическим характером.

https://t.me/greenruff/2240?single

Это небольшая часть. Полностью, там ещё небольшая сеть (упрощённый прототип амигдалы), которая учитывает ещё

Голос ответа пользователя
Контекст пользователя (текст)
Контекст ответа модели (текст)
Заданный статический характер

В дополнение делал регулировку архитектуры на уровне сигнал/шум. Аналог норадреналина - уменьшает разницу отношения, серотонина - изменяет контрастность сигнала. Это лучше, чем просто случайно полагаться на температуру, так как создаёт понимание поведения модели и ответов.

Ложь искусственного интеллекта

proxy3d 5 мая 2025 в 18:51

Вы по-моему смешали три понятия:

Галлюцинации
Бред
Проблемы конфликтов блоков, из за того что при обучении не учитывает разница влияния глобальной ошибки при классическом методе обратного распространения

Все три пункта по разному проявляются , хоть могут быть схожи. Но будет интересно почитать, в чем вы видите причину.

Одна из главных проблем галлюцинаций , как была температура, так и осталась. Но она не единственная причина конечно. Их несколько, и люди часто путают, считая все три проявление галлюцинациями и одним и тем же.

На примере неокортекса, в тех же ассоциативных зонах, возникают такие же проблемы.

Например, отсутствие обратной связи внутри блока (аналог 6 слоя неокортекса), а так же отсутствие полноценной модуляции слоя 5 (в трансформерах эту роль играет FFN), который должен выбирать итоговое усиление сигнала (внимание) исходя из внешнего контекста (зрение, моторные зоны и другие) приводят к галлюцинации.

Нехватка связей в FFN, аналог нехватка связей в своей 5 неокортекса (малая плотность нейронов, например деменция или не сформировались у ребенка ещё) приводит к бреду или словесной окрошке.

Отсутствие чувствительности блоков у глобальной ошибке и отсутствие учёта локальной ошибки приводит к конфликту блоков. Когда в целом глобальная ошибка выдала уменьшение, но в реальности блок 1 наоборот хуже справил, а остальные верно. Это приводит к тому, что в блоке 1 ошибка будет нарастать и это приводит к накоплению противоречий. Локальная ошибка, как раз корректирует эту проблему. А так же разделение обучения не классическим методом обратного распространения, а обучения глобальной ошибке индивидуально каждого блока. При правильном механизме, эта проблема исчезает. https://t.me/greenruff/2257

Тут выкладывал примеры backward, там новый метод обучения с правильным учётом глобальной ошибки и учётом локальной ошибки. Они превосходят классический метод обратного распространения ошибки.

Через промпт, вы можете лишь перенаправить предсказание токенов по другому маршруту. Связанному с определенным паттерном.

https://t.me/greenruff/2240?single

Но, интересно почитать, что вы получили. И как трактуете. Возможно, я не правильно вас понял, поэтому с удовольствием почитаю вашу статью.

Представлена ИИ-модель, вдохновлённая нейронными колебаниями в мозге человека

proxy3d 5 мая 2025 в 14:35

Вот про SSM не понял. В статье написано, что они плохо обучаются - это так. Но выше это та же SSM, только измененная немного. LinOSS так и расшифровывается Linear Oscillatory State-Space models.

Вообще хорошо бы прилагать ссылку на саму работы https://openreview.net/pdf?id=GRMfXcAAFh
и на GitHub чтобы не искать: https://github.com/tk-rusch/linoss/tree/main

Если я правильно понимаю, то в оригинальной SSM матрица состояния инициализируется методов типа HiPPO. Где ее значения вещественные и отрицательные.

А вот у Oscillatory SSM матрица состояния A — это комплексные числа с ненулевой мнимой частью. Это позволяет модели генерировать осцилляции (например, синусоиды). Амплитуда осцилляций контролируется вещественной частью, а частота — мнимой частью.

В частности приводится пример, на задаче PPG-DaLiA (предсказание пульса по данным с датчиков) LinOSS-IM показал MSE = 6.4×10⁻² , что в 2 раза лучше Mamba и LRU. Это связано с тем, что пульс человека — периодический сигнал , который LinOSS эффективно моделирует.

Собственно у них там 3-и доработки (модели):

S5 : Как пружина, которая быстро затухает.

LinOSS-IM : Как маятник, который колеблется, но со временем останавливается.

LinOSS-IMEX : Как маятник без трения — колебания продолжаются бесконечно.

Вот на LLM было бы интересно проверить, так как у текста тоже должна быть периодичность (на основе дыхательных циклов).

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

proxy3d 3 мая 2025 в 15:16

Показывал и писал об этом

https://t.me/greenruff/2240?single

Разработал данный подход, где то 1,5-2 года назад. Но только недавно подробно объяснил, что за ним стоит.

Видимо тоже надо написать статью, а то ещё долго будут доходить до этого. Видимо без публикации на площадках, это так и останется локальным исследованием.

По-сути рассуждения, направления ответов и другие механизмы, перенаправляют прогнозирование модели на каждом шаге. Так как рассуждения так же построена на дополнениях ответов, с учётом накопленных данных. Формально их можно считать микродиалогами

Искусственный интеллект в медицине: Революция в здравоохранении

proxy3d 2 мая 2025 в 13:29

С каких пор машинное обучение стало называться ИИ? И чем так плоха формулировка ML? То что перечислено, это именно машинное обучение, где модель учиться по входным данным находить/выделять признаки.

Просто вы написали, что ML инженер, но при этом называете это ИИ. Плохо вяжется это.

Я — редактор. И я боюсь, что меня заменит нейросеть

proxy3d 2 мая 2025 в 11:11

Вы серьезно это написали про промпт? Вы понимаете, как вообще промпт оказывает влияние на предсказание токенов и что, чем дальше текст от начала (текста промпта), тем меньше влияния он будет оказывать? А так же, если мы вы распишите в нем 100 деталей, то он возьмет самые "весомые" и будет искать связи с ними.

Garbage in, garbage out - вы серьезно? Что вы черт возьми такое пишете? В жизни вы будете смотреть код, где будет множество таких комментариев. И если вы не смотрите логику кода, то вы точно занимаетесь программированием?

Возможно дело в задачах. Я вполне допускаю, что у вас очень простые задачи. Сетки хорошо справляются накидать структуру, построить график, всякие простые обработчики в том же JS или накидать первичный код.

Когда я говорю про "тупость", то речь идет про разрыв между хвалебными опусами в статьях и реальностью. Поэтому мне всегда интересно, что за примитивный код должен писать разработчик, хвалебных статьей и комментариев.

Я всегда говорил, что LLM это инструмент, но очень ограниченный, хотя и очень полезный. Он может сделать простые рутинные вещи. Но разработка это прежде всего решение задач, а не написание кода.

1 2 ...

5 6

8 9 ...

19 20