Что там были за математические задачи? Мне пока все модели OpenAi, Claude, Qwen, DesspSeek в разных режимах (рассуждающих. исследования и так далее) пока не смогли решить ни одной сложной математической задачи требующей мышления. Но при этом, они хорошо помогают развить идею, так как позволяют быстро вспомнить какие-то разделы формулы, получить список многих теорем на заданную тему.
При этом, они просто не могут проанализировать сами кучу разделов. Например, сейчас я решал математическую задачу связанную с энтропией. Да супер, они все сразу приводят формулы Шеннона, но все остальное надо указывать самостоятельно. Чтобы провести сравнение с энтропией Чебышева и другими, нужно указать на это или неявно попросить об этом. Они гоняют по кругу самое популярное, повторяя одно и тоже. И не дай бог их занесет ни туда.
Каждый раз приходиться возвращаться к какой-то части цепочки, чтобы перенаправить модель по другому предсказанию.
Что там за мат задачи были? Из пункта А в пункт В выехал поезд, и когда они встреться? Почему мне модели не могут ни нормально хим. рецепты писать (когда я пытаюсь улучшить, что то в растворах) или самостоятельно решить мат задачу, которую до этого не решали? Да блин, даже голограмму не могут толком нормально рассчитать, приходится за ними править расчеты. Они супер рассчитают то, что уже и так 1000 раз решали множество раз. Так и я могу один раз написать программу, которую сделает расчеты такой задач и это будет работать быстрее и точнее LLM и превзойдет в этой задаче человека. Давайте Photoshop сравнивать с рисованием, а CAD с черчением от руки. Речь же про сложные задачи, а не трудоемкие. Сложные - это когда до этого решения не было. А не когда ты потратил 10 часов на то, чтобы все расписать.
А что считается за критерием оценки? Если сравнение с результатом, который мы хотим получить, то в чем эволюция развития таких агентов?
Если же это абстрактные критерии оценки, то какие? У человека это выживание голод жажда размножение. То есть оценка не конкретно распознать уши кролика, а распознать еду. Условно конечно.
Это как раз важный критерий глобальной ошибки. У нас, этим критерием является CO2, так как он играет важную роль для кислотности и расщепления глюкозы C6H12O6 + 6O2 ~ 6CO2 + 6H2O. Отсюда же и глобальный критерий оценки для поиска глюкозы и других элементов для выживания. Ну и куча других.
В случае агентов и их эволюции, я так и не понял, к чему они должны стремиться? К решению который мы указали сами? Пока что я вижу только поиск оптимального решения задачи данным методом.
На Хабре таких много, от статей до комментаторов, верящих в сознание LLM. Они видят сознания, задавая сеткам тупые вопросы (недавно посмотрел, что другие обсуждают с ChatGPT - "построй натальную карту по анализам"). И когда LLM им выдает херню, люди считают ее умной, ведь она смогла "осознать" их бред.
Пользователь верит, что ChatGPT — бог, а сам он — мессия: Rolling Stone собрал истории «психоза» после долгого общения с ботом
Когда люди не понимают как это работает и что на самом деле они получают, для них это магия. Им что ChatGPT, что шаман с бубном. Кто то бекапы их ведёт для "сознания", кто то промптом "сознание" активирует, кто то через свою шизофрению.
2) Закон Ципфа это эмпирический не точный закон. Вы по моему упустили самое главное, а то, что формула выведена не из пустоты а имеет доказательную базу. Изначально она была выведена из Ципфа (ее упрощенная версия https://t.me/greenruff/2346). Была показана, как это работает и ведет себя.
при правильных beta и N они практически одинаковые
3) при определённых значений N и beta она подобна закону Ципфа. Речь про поведение на ограниченном участке N (а Ципфа имеет сильные отклонения при увеличении N от наблюдаемых эмпирических данных)
А при чем тут галлюцинации? По-моему вы путаете два понятия. Галлюцинации так же возникают из за случайного выбора, в статье данный подход их не решает.
Вы описали агентскую систему. Ок, классно. Она улучшает работу системы в целом, но к заголовку ни как не относится. Проблему галлюцинаций она не решает, а решает проблему специализации обучения конкретным данным, и решения части задач выходящих за рамки LLM.
Не понимаю, зачем кликабельный заголовок делать. Затем писать тонну воды. Почему сразу было не сделать фокус на агентской сетки, где вы предложили свой способ (обучения или только рассуждения?) для улучшения качества ответа.
Галлюцинации, это например когда модель вместо слова "соотношение" вставила слово "сношение". Как яркий пример случайного выбора вероятности. И в каких то случаях это не повлияет сильно на ответ, а в каких то наоборот. Или же ответы "вода" (ни о чем), когда модел не можем вместить в себя все детали и начинает обобщать. Что приводит к тому, что она не способна больше уловить детали в данной области и вынуждена обобщать все данные. Это тоже своего рода галлюцинации, хотя не в прямом смысле.
Ваша модель не решает первую задачу. И немного затрагивает вторую задачу.
Я только сейчас закончил большое исследование, где математически доказал иерархическую модель асимметрии. Человек является лишь одним из уровней этой иерархии. В рамках этой модели, человек тот же конечный автомат асимметрии.
Свободу воли можно рассматривать только в рамках флуктуации. По сути области мозга, так и сам человек представляет один из уровней иерархии. Где сообщество ещё один уровень. Все они имеют свой rank, подобный закону Ципфа (он приблизительный, но не точный. Точный выводится из Лагранжа).
https://t.me/greenruff/2395?single
То есть если мы абстрагируемся и будем рассматривать человека как частицу, то его действия четко прописаны его ранком, который просто будет влиять на вероятности его действий.
Статья как раз пришлась во время. Я только на этой неделе закончил исследование на эту тему. Сначала через закон Ципфа показал как система сама учиться выделять признаки через обучение числа признаков на каждом уровне и на сколько это важно.
А затем, через метод Лагранжа вывел полную формулу , где Ципфа частный случай.
Суть в том, что любая модель обучаясь на сигналах просто строит иерархию асимметрий на основе Zipf подобного распределения. Где сама иерархия подчиняется этому закону.
На примере трансформеров показал как это происходит (как частный пример). Сейчас у меня построен более полный конечный автомат асимметрии, где изначально в основе лежала шестислойная модель неокортексе. Но в итоге это привело к обобщению и получению модели асимметрии сигнала.
Данная статья замечательно подтверждает это наглядно.
То что авторы называют голодом , на самом деле доказывается через два параметра N и beta. То есть модель не может бесконечно развиваться, так как тогда теряет способность к деталям и это приводит к обобщению (ухудшается). Это точка бифуркации, когда для развития системы она должна перейти к новому уровня иерархии, где будет снова через новые N и beta улавливать асимметрию нового уровня.
Поэтому то что авторы описывают через вольную интерпретацию имеет теперь твердую математическую и физическую базу.
Распознавание речи — это непросто: сначала нужно «вытащить» текст из звука, а потом расставить временные метки для каждого слова. Процесс был медленным, особенно для длинных видео. Чтобы оптимизировать ресурсы, мы использовали технические уловки:
Тогда зачем вы на собеседованиях на ML и в требованиях к ним пишете полную ерунду не относящуюся к решаемым задачам? Ту задачу, которую вы описали, не сложная ни для больших видео, ни для коротких
Может на собеседованиях стоит не let code и прочую ерунду проверять на уровне терминов? Тогда и сложностей с решением таких задач не будет.
Позанудствую. Тут пришла идея, что можно применять CTM не на уровне нейронов, а блоков (например трансформеров) как компромисс. Для этого использовать свёртки, но запоминая состояние.
def class BlockCTM(nn.Module):
def __init__(self, d_model, K):
super().__init__()
self.K = K
self.conv = nn.Conv1d(d_model, d_model, kernel_size=K, groups=d_model, bias=False)
# хранит последние K−1 выходов
self.register_buffer('buffer', torch.zeros(1, d_model, K-1))
def forward(self, new_x: torch.Tensor) -> torch.Tensor:
# new_x: [batch, d_model] — только новый timestep
x = torch.cat([self.buffer, new_x.unsqueeze(-1)], dim=-1) # [batch, d_model, K]
ctm = self.conv(x)[..., -1] # берем только свежий выход
# обновляем буфер
self.buffer = x[..., 1:].detach()
return new_x + self.alpha * ctm
Это аналог CTM, но через свёртки на уровне блоков. Например, добавляем его на выходе каждого блока трансформера.
Ещё раз прочитал, да хранение истории оправданно биологически. Но это увеличивает размер памяти в 4-8 раз. Что нереально сейчас для крупных сеток.
Как компромисс, можно использовать CTM подход либо на уровне выходов слоев или блоков. Другого решения не вижу, современные карты просто не потянут данную модель на уровне нейрона
Почитал. Нейрон запоминает и обрабатывает историю входов (как минимум последние N шагов). Чем то напоминает скользящее среднее. Я иначе делал. В моем случае нейрон хранит состояние, которое меняется под воздействием сигнала но по разному. Хранить N состояний накладно, достаточно хранить текущее состояние и правильно реагировать на новый сигнал (он вносит разный вклад в изменение состояние). Точнее мы храним состояние нейрона и асимметрию (то есть как он реагирует на входной сигнал). Смещение асимметрии сигнала приводит к тому, что он по разному реагирует на спад и рост сигнала. При этом мы храним две асимметрии: амплитуды и частоты. Это биологически ближе к нейронам. Но это тоже не полная реализация. В реальности нейрон имеет обратный захват, где модулирует входной сигнал , очищая его от "шума".
Не совсем понятно про реккурентное время, как я понимаю оно сделано через скрытое состояние? Просто в SSM время тоже через скрытое состояние. А в версии linoss (тоже ssm) так уже улавливает осцилляции и затухания и синхронизацию.
Хотя это можно сделать просто через нахождение устойчивых сигналов не только в амплитуде (как трансформеры), но и в частоте и фазе. Для этого я например добавлял формулы гистерезис для частоты и фазы.
Надо посмотреть что сейчас CTM предлагает. Так как пока ищу решение для реализации релейных клеток таламуса. Их отличие в том, что у них есть два режима. Сигнал как есть и серия сигнала . Например, 1 может быть послан как 1111, но за тоже время. На классических сетках такое не сделать без специальных махинаций.
То что вы описали похоже на нахождение асимметрии сигнала, через измените состояния.
Сейчас над таким бьюсь. Как видно, это уже порождает серию импульсов сигнала. Пока не понятно, как должны быть связаны соседние нейроны друг с другом. Надо посмотреть, может. CTM сделали тоже самое.
А вообще нейрон является своего рода автоматом, выделяющим асимметрию.
И \там действительно можно их свести. Вот только это будет не равнозначный контекст, а вероятностный контекст. Но в реальности именно так и происходит, как мы изучаем язык каких-нибудь племен Амазонки или Австралии. Так же как изучаем постепенно язык некоторых обезьян (у некоторых есть отдельные слова и сочетания слов), так же как у некоторых птиц есть грамматика.
Проблема сводиться к тому, что вариантов как именно обучить не так много. Идеальные решения на грани фантастики. Кроме того, мы сталкиваемся с проблемой, на каком именно уровне мы получаем конвертацию контекста.
Когда разбирал паузы речи, то оказалось что в основе стоит последовательный граф, с разными уровнями контекста. И не все животные обязательно обладают нужным уровнем. Для некоторых уровней контекста необходимы разные условия.
Так как развитие языка требует разных условий, не только внешней среды но и поведенческой.
Но есть и положительные стороны. У всех животных, птиц, насекомых, даже китов и дельфинов одинаковое фазовое пространство градиентов речи. Оно отличается лишь центральной частотой, масштабом и степенью оптимизации (развитости). Но оно одинаково у всех, несмотря на то, что каждое из них используют разные виды артикуляции (жужжальца, язык, мешочки и так далее). И это говорит о том, что несмотря на разные формы выражения языка в целом он стремиться к общим формам (на уровне артикуляции точно).
Я в свое время пытался хотя бы грубо сместить речевые уровни и масштаб на привычный человеческому. Совсем иначе звучит, хотя преобразования грубые. У ворон уже не кар-кар, а совсем другие звуки слышны, видно как они вместе что-то произносят одно и тоже.
Проблема с домашними питомцами в том, что их речь может оказаться только на уровне эмоционального контекста, так как у них не крупных групп, в которых язык мог бы формироваться, передаваться и становится стабильным. А у диких - летучие мыши, волки возникает проблема, так как животное должно понимать человеческую речь. А для этого оно должно быть выращено с младенчества с постоянных разговорах (как с ребенком когда говорят). И при этом жить в дикой стае, чтобы понимать язык носителя. Под такое подходят разве, что дельфины. Есть и другой подход, но для этого нужно огромное кол-во данных.
Кратко, суть в том, что под воздействием норадреналина подавляется активность лобной доли. Это приводит к коротким маршрутам: короткая речь, быстрые действия. Норадреналин выбрасывается во время стресса, когда требуется не рассуждать, а выбрать самый короткий, самый сильный при этом маршрут, для быстрых действий в случае опасности /стресса.
Это отражается на уровне текстов. Короткие тексты содержат отражения этих признаков воздействия норадреналина. Обучение на этих текстах и такие же ответы приводят к симуляции такого поведения.
На уровне нейронов, норадреналин изменяет соотношение сигнал/шум. Теперь, те сигналы, которые раньше считались устойчивыми начинают считаться шумом. За счёт этого увеличивается контраст самых сильных сигналов, наиболее коротких. Это приводит к тому, что сигнал не проходит по всем областям, а только по локальной области. Это позволяет решить ряд проблем:
1) все силы бросаются на реакцию на стресс, быстрым действиям. Так как опасность может стоить жизни
2) берутся самые сильные сигналы в области и сокращается время реакции. Поэтому во время стресса, кто то неосознанно забежит у горящее здание спать других, а кто то победит подальше от пожара. Это и есть работа данного механизма. Он словно изменяет яркость на картинке, когда в итоге все соседнее изображение исчезает, и остаются только самые яркие цвета. Связи теряются, мы видим только самые сильные признаки на картинке.
Тексты, это отражение этих признаков. Когда сетка генерирует короткие, это тоже самое как у человека. Это не значит, что они обязательно неправильные. Остаются самые сильные связи. Например, студент учил упорно вопросы к экзамену. Мы разбудили его во время сна и спрашиваем ответ на них. Он ответит, эти связи у него самые сильные, а резкое пробуждение это стресс. Он выдаст их сходу. Но если мы попросим его назвать имя первой учительницы, он не сможет его вспомнить. Норадреналин блокирует это.
Тоже самое с LLM. Москва - столица России, она выдаст коротко. Но если это сложные связи со множеством деталей, то вероятно отразит те же признаки.
Когда вы упоминали человеческую память, то одна из важных проблем всех LLM - это контекст. Сейчас у них только один контекст на основе диалога. У человека гиппокамп держит множество контекстов, что позволяет не забывать детали, возвращаться к более слабыми и в целом удерживать глобальный контекст как группу локальных, выбирая какие данные из них сейчас важны.
Второй момент динамичность. Саморефлексия работает у нас постоянно, и рассуждая в рамках контекста , через петли саморефлексии мы неосознанно "вычищаем" шум из контекста, дополняя его деталями. Это отдаленно напоминает рассуждающие модели, но из за отсутствия множества других механизмов (в том числе множества локальных контекстов) не даёт такого качественного результата и часто приводит к забывание деталей (которые у нас хранятся как множество локальных контекстов).
Не представляю, как без архитектурных расширения моделей такое можно решить
ChatGPT неплохо ищет в режиме исследования. Но тут тоже надо каждый раз смотреть. Из последнего, он полез на разные форумы и использовал срач в них как часть исследования. В других отдавал предпочтение древним источникам. Но правда одно "исследование" в нем занимает много времени, их кол-во ограничено, и повторная их генерация занимает много времени. Но часто удобнее чем искать в поисковике, где тоже куча мусора и пока найдешь, обобщишь их.
Как я уже писал ранее в одном из комментариев, LLM мощный инструмент. Благодаря ему удается победить лень и получить заряд мотивации написать самому.
Сначала делаешь с помощью LLM. Но потом устаешь ему объяснять все косяки кода. Указывать на все ошибки, когда он правит одно и ломает другое. Злость нарастает и появляться желание написать самому. И тогда берешь и пишешь сам. Так как основу вроде уже LLM накидал. А вот с логикой не справился.
Например, помню просил его написать функцию, которая увеличивает энергию форманты, имея данные о частоте форманты и ширине канала на каждом шаге. Он написал, но только лютую дичь. После долгих попыток и указаний, бросил эту затею и написал функцию сам. Ну нет у него абстрактного мышления и не может он учитывать детали, хотя спрашиваешь их по отдельности и он правильно отвечает. Но как только решает задачу, использует только данные описанного контекста, а так куча нюансов. Если их все расписать, то они будут гораздо больше по тексту, чем реализация самой функции.
Верить, что LLM себя осознает- это не шизофрения. 🤷♂️
Верить, что уже "скоро" LLM заменит всех - это не шизофрения. 🤷♂️
Верить, что LLM может рассказать внутреннюю информацию на данных, которых она явно не обучалась - это не шизофрения. 🤷♂️
Общаться с LLM, где она отвечает ему, что он мессия или обладает супер-способностями - это шизофрения. 🤯
Где заканчивается первая граница шизофрении и начинается не шизофрения? 🤔 Для меня резкой границы между этими случаями нет, разница лишь в форме.
Раз человек что-то спрашивает, то получает в ответ то что "наиболее вероятно" хочет услышать. То что он хочет услышать, формируется на основе прогнозирования продолжения наиболее вероятных токенов. То есть фраза, колобок колобок я тебя.... съем (продолжилась в наибольшей вероятностью). И ни кто не говорит, что LLM смогла рассказать о существовании колобков и их гибели. Но вот в других областях, уверенно переносят такие рассказы на реальность.
По-моему Сапольский в своих лекциях приводил как довод, что шизофрения в разной форме присутствует везде. Он приводил пример, одной африканской деревни, где его привезли посмотреть на случай шизофрении к одной женщине. Местные говорили, что она ненормальная. На его вопрос, в чем это проявляется, они ответили что она говорит с духами всегда вместо определенных дней и убила козу. Он спросил, но ведь они тоже убивают же коз. На что ему ответили, что он не видит разницы что ли? Они убивают коз для жертвы и общаются с духами только в определенные для этого дни, а ненормальная женщина не по этим дня. Женщина реально была с шизофренией. Но случай был показателен тем, что местное племя не смущало остальное ненормальное поведение женщины, но вот козу забить не в тот день и общаться с духом не в тот день - это уже нездоровое поведение. Хотя для нас, поведение племени, тоже мягко говоря не здоровое по современным меркам.
Поэтому каждый раз, читая такие статьи или комментарии о том, что LLM уже не отличимые от сознания или близки к этому или делятся с ними секретами - я вспоминаю эту женщину из африканского племени и козу/духов по неправильным дням.
Они на самом деле отличаются. По крайне мере режимы простая, рассуждающая и исследования. Каждый имеет свои плюсы и минусы.
1) обычная - не плохо улавливает контекст, но плохо находит подкрепление написанному.
2) рассуждающая - легко теряет контекст, после ответа уже практически не возможно ссылаться на ранние сообщения диалога, даже если они были только что. Может вытащить что то из "памяти" (которую они сделали). Но лучше прорабатывает конкретный ответ.
3) исследование - хорошо собирает материалы по вопросу, но практически бесполезен в плане рассуждений и связей внутри них. Зато отлично анализирует множество источников исследований и даёт по ним выжимку и ссылки, что можно посмотреть. Из минусов: надо смотреть историю его исследования, там порой такой бред (может взять срач с какого то форума или же древние). Использую его как поисковик.
Проблема в том, что эти режимы практически не совместимы. После исследования, у меня часто перестают работать другие режимы. Не может порой обобщить или зависает.
В плане выбора самих моделей, то я увидел только разницу в стиле оформления ответа.
Поэтому самой частой практикой у меня является откатить ответ. Получил, учел, перегенерировал с другим сообщением.
В целом они все страдают удержанием контекста. Но продвинутые режимы, приводят к тому, что контекст прежних сообщений теряется ещё быстрее. И помогает только откат к старым для продолжение диалога с них.
Но надо отдать должное, тот же qween вообще несёт полную пургу. Гораздо хуже deepseek. Сегодня спрашивал про неокортекс, он путает слои 5 и 6, утверждает о наличии связей которых нет. При этом если спрашиваешь его, ты уверен? Пишешь правильно ему, просишь сказать есть ли ошибка. Он снова гнет свою линию. И лишь приведя ему исследования, он извиняется и корректирует свой ответ. Какой толк от такого бредо-генератора я не знаю. В том что он уверено несёт бред и даже просьба проверить свой ответ на основе исследований или перепроверить его не помогает и даже написание правильного.
Deepseek в этом плане гораздо лучше. Но из за того что они оптимизировали матрицы внимания, это явно проявляется в деталях. Например, в тех же слоя неокортекса, он может писать верно и в какой то момент одна галлюцинация и он уже перепутал слои мозга. Указываешь ему на ошибку и он забыл важный контекст в прежних сообщениях.
Но в целом у всех моделей проблемы с контекстом. Так как они берут только самые яркие детали. У того же ChatGPT обсуждали мозг человека, через несколько сообщений "человека" уже не важная деталь и он в ответе подсовывает редкий случай отличия мозга какого-нибудь редкого животного (у которого что то обнаружили по этой теме). И если сам не знаешь, то понять что "человек" уже не учитывается не сможешь. Все таки люди держат в голове в гиппокамп несколько контекстов сразу.
Что там были за математические задачи? Мне пока все модели OpenAi, Claude, Qwen, DesspSeek в разных режимах (рассуждающих. исследования и так далее) пока не смогли решить ни одной сложной математической задачи требующей мышления. Но при этом, они хорошо помогают развить идею, так как позволяют быстро вспомнить какие-то разделы формулы, получить список многих теорем на заданную тему.
При этом, они просто не могут проанализировать сами кучу разделов. Например, сейчас я решал математическую задачу связанную с энтропией. Да супер, они все сразу приводят формулы Шеннона, но все остальное надо указывать самостоятельно. Чтобы провести сравнение с энтропией Чебышева и другими, нужно указать на это или неявно попросить об этом. Они гоняют по кругу самое популярное, повторяя одно и тоже. И не дай бог их занесет ни туда.
Каждый раз приходиться возвращаться к какой-то части цепочки, чтобы перенаправить модель по другому предсказанию.
Что там за мат задачи были? Из пункта А в пункт В выехал поезд, и когда они встреться? Почему мне модели не могут ни нормально хим. рецепты писать (когда я пытаюсь улучшить, что то в растворах) или самостоятельно решить мат задачу, которую до этого не решали? Да блин, даже голограмму не могут толком нормально рассчитать, приходится за ними править расчеты. Они супер рассчитают то, что уже и так 1000 раз решали множество раз. Так и я могу один раз написать программу, которую сделает расчеты такой задач и это будет работать быстрее и точнее LLM и превзойдет в этой задаче человека. Давайте Photoshop сравнивать с рисованием, а CAD с черчением от руки. Речь же про сложные задачи, а не трудоемкие. Сложные - это когда до этого решения не было. А не когда ты потратил 10 часов на то, чтобы все расписать.
А что считается за критерием оценки? Если сравнение с результатом, который мы хотим получить, то в чем эволюция развития таких агентов?
Если же это абстрактные критерии оценки, то какие? У человека это выживание голод жажда размножение. То есть оценка не конкретно распознать уши кролика, а распознать еду. Условно конечно.
Это как раз важный критерий глобальной ошибки. У нас, этим критерием является CO2, так как он играет важную роль для кислотности и расщепления глюкозы C6H12O6 + 6O2 ~ 6CO2 + 6H2O. Отсюда же и глобальный критерий оценки для поиска глюкозы и других элементов для выживания. Ну и куча других.
В случае агентов и их эволюции, я так и не понял, к чему они должны стремиться? К решению который мы указали сами? Пока что я вижу только поиск оптимального решения задачи данным методом.
На Хабре таких много, от статей до комментаторов, верящих в сознание LLM. Они видят сознания, задавая сеткам тупые вопросы (недавно посмотрел, что другие обсуждают с ChatGPT - "построй натальную карту по анализам"). И когда LLM им выдает херню, люди считают ее умной, ведь она смогла "осознать" их бред.
Пользователь верит, что ChatGPT — бог, а сам он — мессия: Rolling Stone собрал истории «психоза» после долгого общения с ботом
https://vc.ru/chatgpt/1968188-psikhoz-ot-chatgpt-razrushayushchikh-otnosheniya
И мое любимое:
ChatGPT пытается свести меня с ума. Это массовое явление
https://dtf.ru/life/3626060-chatgpt-pytaetsya-svesti-menya-s-uma-eto-massovoe-yavlenie
Когда люди не понимают как это работает и что на самом деле они получают, для них это магия. Им что ChatGPT, что шаман с бубном. Кто то бекапы их ведёт для "сознания", кто то промптом "сознание" активирует, кто то через свою шизофрению.
1) тут тоже самое. Причина одна и та же
2) Закон Ципфа это эмпирический не точный закон. Вы по моему упустили самое главное, а то, что формула выведена не из пустоты а имеет доказательную базу. Изначально она была выведена из Ципфа (ее упрощенная версия https://t.me/greenruff/2346). Была показана, как это работает и ведет себя.
3) при определённых значений N и beta она подобна закону Ципфа. Речь про поведение на ограниченном участке N (а Ципфа имеет сильные отклонения при увеличении N от наблюдаемых эмпирических данных)
А при чем тут галлюцинации? По-моему вы путаете два понятия. Галлюцинации так же возникают из за случайного выбора, в статье данный подход их не решает.
Вы описали агентскую систему. Ок, классно. Она улучшает работу системы в целом, но к заголовку ни как не относится. Проблему галлюцинаций она не решает, а решает проблему специализации обучения конкретным данным, и решения части задач выходящих за рамки LLM.
Не понимаю, зачем кликабельный заголовок делать. Затем писать тонну воды. Почему сразу было не сделать фокус на агентской сетки, где вы предложили свой способ (обучения или только рассуждения?) для улучшения качества ответа.
Галлюцинации, это например когда модель вместо слова "соотношение" вставила слово "сношение". Как яркий пример случайного выбора вероятности. И в каких то случаях это не повлияет сильно на ответ, а в каких то наоборот. Или же ответы "вода" (ни о чем), когда модел не можем вместить в себя все детали и начинает обобщать. Что приводит к тому, что она не способна больше уловить детали в данной области и вынуждена обобщать все данные. Это тоже своего рода галлюцинации, хотя не в прямом смысле.
Ваша модель не решает первую задачу. И немного затрагивает вторую задачу.
Столько воды в статье. Без четких доказательств.
Я только сейчас закончил большое исследование, где математически доказал иерархическую модель асимметрии. Человек является лишь одним из уровней этой иерархии. В рамках этой модели, человек тот же конечный автомат асимметрии.
Свободу воли можно рассматривать только в рамках флуктуации. По сути области мозга, так и сам человек представляет один из уровней иерархии. Где сообщество ещё один уровень. Все они имеют свой rank, подобный закону Ципфа (он приблизительный, но не точный. Точный выводится из Лагранжа).
То есть если мы абстрагируемся и будем рассматривать человека как частицу, то его действия четко прописаны его ранком, который просто будет влиять на вероятности его действий.
Статья как раз пришлась во время. Я только на этой неделе закончил исследование на эту тему. Сначала через закон Ципфа показал как система сама учиться выделять признаки через обучение числа признаков на каждом уровне и на сколько это важно.
А затем, через метод Лагранжа вывел полную формулу , где Ципфа частный случай.
Суть в том, что любая модель обучаясь на сигналах просто строит иерархию асимметрий на основе Zipf подобного распределения. Где сама иерархия подчиняется этому закону.
На примере трансформеров показал как это происходит (как частный пример). Сейчас у меня построен более полный конечный автомат асимметрии, где изначально в основе лежала шестислойная модель неокортексе. Но в итоге это привело к обобщению и получению модели асимметрии сигнала.
Данная статья замечательно подтверждает это наглядно.
https://t.me/greenruff/2400?single
То что авторы называют голодом , на самом деле доказывается через два параметра N и beta. То есть модель не может бесконечно развиваться, так как тогда теряет способность к деталям и это приводит к обобщению (ухудшается). Это точка бифуркации, когда для развития системы она должна перейти к новому уровня иерархии, где будет снова через новые N и beta улавливать асимметрию нового уровня.
Поэтому то что авторы описывают через вольную интерпретацию имеет теперь твердую математическую и физическую базу.
Тогда зачем вы на собеседованиях на ML и в требованиях к ним пишете полную ерунду не относящуюся к решаемым задачам? Ту задачу, которую вы описали, не сложная ни для больших видео, ни для коротких
Может на собеседованиях стоит не let code и прочую ерунду проверять на уровне терминов? Тогда и сложностей с решением таких задач не будет.
Позанудствую. Тут пришла идея, что можно применять CTM не на уровне нейронов, а блоков (например трансформеров) как компромисс. Для этого использовать свёртки, но запоминая состояние.
Это аналог CTM, но через свёртки на уровне блоков. Например, добавляем его на выходе каждого блока трансформера.
Ещё раз прочитал, да хранение истории оправданно биологически. Но это увеличивает размер памяти в 4-8 раз. Что нереально сейчас для крупных сеток.
Как компромисс, можно использовать CTM подход либо на уровне выходов слоев или блоков. Другого решения не вижу, современные карты просто не потянут данную модель на уровне нейрона
Почитал. Нейрон запоминает и обрабатывает историю входов (как минимум последние N шагов). Чем то напоминает скользящее среднее. Я иначе делал. В моем случае нейрон хранит состояние, которое меняется под воздействием сигнала но по разному. Хранить N состояний накладно, достаточно хранить текущее состояние и правильно реагировать на новый сигнал (он вносит разный вклад в изменение состояние). Точнее мы храним состояние нейрона и асимметрию (то есть как он реагирует на входной сигнал). Смещение асимметрии сигнала приводит к тому, что он по разному реагирует на спад и рост сигнала. При этом мы храним две асимметрии: амплитуды и частоты. Это биологически ближе к нейронам. Но это тоже не полная реализация. В реальности нейрон имеет обратный захват, где модулирует входной сигнал , очищая его от "шума".
Не совсем понятно про реккурентное время, как я понимаю оно сделано через скрытое состояние? Просто в SSM время тоже через скрытое состояние. А в версии linoss (тоже ssm) так уже улавливает осцилляции и затухания и синхронизацию.
Хотя это можно сделать просто через нахождение устойчивых сигналов не только в амплитуде (как трансформеры), но и в частоте и фазе. Для этого я например добавлял формулы гистерезис для частоты и фазы.
Надо посмотреть что сейчас CTM предлагает. Так как пока ищу решение для реализации релейных клеток таламуса. Их отличие в том, что у них есть два режима. Сигнал как есть и серия сигнала . Например, 1 может быть послан как 1111, но за тоже время. На классических сетках такое не сделать без специальных махинаций.
То что вы описали похоже на нахождение асимметрии сигнала, через измените состояния.
Сейчас над таким бьюсь. Как видно, это уже порождает серию импульсов сигнала. Пока не понятно, как должны быть связаны соседние нейроны друг с другом. Надо посмотреть, может. CTM сделали тоже самое.
А вообще нейрон является своего рода автоматом, выделяющим асимметрию.
https://t.me/greenruff/2328?single
Спайки делают нечто похожее. RNN делает это урезано на более крупном уровне
Когда читаю статьи, где люди чем то наделяют LLM. Сразу вспоминаю статью на DTF "ChatGPT пытается свести меня с ума. Это массовое явление".
https://dtf.ru/life/3626060-chatgpt-pytaetsya-svesti-menya-s-uma-eto-massovoe-yavlenie
И вторую на VC "Пользователь верит, что ChatGPT — бог, а сам он — мессия: Rolling Stone собрал истории «психоза» после долгого общения с ботом"
https://vc.ru/chatgpt/1968188-psikhoz-ot-chatgpt-razrushayushchikh-otnosheniya
В математическом плане задача действительно решаемая. Это задача о проекции множества одного контекста на множество другого контекста.
https://t.me/greenruff/2097?single
И \там действительно можно их свести. Вот только это будет не равнозначный контекст, а вероятностный контекст. Но в реальности именно так и происходит, как мы изучаем язык каких-нибудь племен Амазонки или Австралии. Так же как изучаем постепенно язык некоторых обезьян (у некоторых есть отдельные слова и сочетания слов), так же как у некоторых птиц есть грамматика.
Проблема сводиться к тому, что вариантов как именно обучить не так много. Идеальные решения на грани фантастики. Кроме того, мы сталкиваемся с проблемой, на каком именно уровне мы получаем конвертацию контекста.
https://t.me/greenruff/2059
Когда разбирал паузы речи, то оказалось что в основе стоит последовательный граф, с разными уровнями контекста. И не все животные обязательно обладают нужным уровнем. Для некоторых уровней контекста необходимы разные условия.
https://t.me/greenruff/2027
Так как развитие языка требует разных условий, не только внешней среды но и поведенческой.
Но есть и положительные стороны. У всех животных, птиц, насекомых, даже китов и дельфинов одинаковое фазовое пространство градиентов речи. Оно отличается лишь центральной частотой, масштабом и степенью оптимизации (развитости). Но оно одинаково у всех, несмотря на то, что каждое из них используют разные виды артикуляции (жужжальца, язык, мешочки и так далее). И это говорит о том, что несмотря на разные формы выражения языка в целом он стремиться к общим формам (на уровне артикуляции точно).
https://t.me/greenruff/1927
Я в свое время пытался хотя бы грубо сместить речевые уровни и масштаб на привычный человеческому. Совсем иначе звучит, хотя преобразования грубые. У ворон уже не кар-кар, а совсем другие звуки слышны, видно как они вместе что-то произносят одно и тоже.
Проблема с домашними питомцами в том, что их речь может оказаться только на уровне эмоционального контекста, так как у них не крупных групп, в которых язык мог бы формироваться, передаваться и становится стабильным. А у диких - летучие мыши, волки возникает проблема, так как животное должно понимать человеческую речь. А для этого оно должно быть выращено с младенчества с постоянных разговорах (как с ребенком когда говорят). И при этом жить в дикой стае, чтобы понимать язык носителя. Под такое подходят разве, что дельфины. Есть и другой подход, но для этого нужно огромное кол-во данных.
Посмотрим как собирается делать Baidu.
Это связано с тем, что существует два механизма: глобальные и локальные маршруты.
https://t.me/greenruff/2073?single
Кратко, суть в том, что под воздействием норадреналина подавляется активность лобной доли. Это приводит к коротким маршрутам: короткая речь, быстрые действия. Норадреналин выбрасывается во время стресса, когда требуется не рассуждать, а выбрать самый короткий, самый сильный при этом маршрут, для быстрых действий в случае опасности /стресса.
Это отражается на уровне текстов. Короткие тексты содержат отражения этих признаков воздействия норадреналина. Обучение на этих текстах и такие же ответы приводят к симуляции такого поведения.
На уровне нейронов, норадреналин изменяет соотношение сигнал/шум. Теперь, те сигналы, которые раньше считались устойчивыми начинают считаться шумом. За счёт этого увеличивается контраст самых сильных сигналов, наиболее коротких. Это приводит к тому, что сигнал не проходит по всем областям, а только по локальной области. Это позволяет решить ряд проблем:
1) все силы бросаются на реакцию на стресс, быстрым действиям. Так как опасность может стоить жизни
2) берутся самые сильные сигналы в области и сокращается время реакции. Поэтому во время стресса, кто то неосознанно забежит у горящее здание спать других, а кто то победит подальше от пожара. Это и есть работа данного механизма. Он словно изменяет яркость на картинке, когда в итоге все соседнее изображение исчезает, и остаются только самые яркие цвета. Связи теряются, мы видим только самые сильные признаки на картинке.
Тексты, это отражение этих признаков. Когда сетка генерирует короткие, это тоже самое как у человека. Это не значит, что они обязательно неправильные. Остаются самые сильные связи. Например, студент учил упорно вопросы к экзамену. Мы разбудили его во время сна и спрашиваем ответ на них. Он ответит, эти связи у него самые сильные, а резкое пробуждение это стресс. Он выдаст их сходу. Но если мы попросим его назвать имя первой учительницы, он не сможет его вспомнить. Норадреналин блокирует это.
Тоже самое с LLM. Москва - столица России, она выдаст коротко. Но если это сложные связи со множеством деталей, то вероятно отразит те же признаки.
Когда вы упоминали человеческую память, то одна из важных проблем всех LLM - это контекст. Сейчас у них только один контекст на основе диалога. У человека гиппокамп держит множество контекстов, что позволяет не забывать детали, возвращаться к более слабыми и в целом удерживать глобальный контекст как группу локальных, выбирая какие данные из них сейчас важны.
Второй момент динамичность. Саморефлексия работает у нас постоянно, и рассуждая в рамках контекста , через петли саморефлексии мы неосознанно "вычищаем" шум из контекста, дополняя его деталями. Это отдаленно напоминает рассуждающие модели, но из за отсутствия множества других механизмов (в том числе множества локальных контекстов) не даёт такого качественного результата и часто приводит к забывание деталей (которые у нас хранятся как множество локальных контекстов).
Не представляю, как без архитектурных расширения моделей такое можно решить
ChatGPT неплохо ищет в режиме исследования. Но тут тоже надо каждый раз смотреть. Из последнего, он полез на разные форумы и использовал срач в них как часть исследования. В других отдавал предпочтение древним источникам. Но правда одно "исследование" в нем занимает много времени, их кол-во ограничено, и повторная их генерация занимает много времени. Но часто удобнее чем искать в поисковике, где тоже куча мусора и пока найдешь, обобщишь их.
Как я уже писал ранее в одном из комментариев, LLM мощный инструмент. Благодаря ему удается победить лень и получить заряд мотивации написать самому.
Сначала делаешь с помощью LLM. Но потом устаешь ему объяснять все косяки кода. Указывать на все ошибки, когда он правит одно и ломает другое. Злость нарастает и появляться желание написать самому. И тогда берешь и пишешь сам. Так как основу вроде уже LLM накидал. А вот с логикой не справился.
Например, помню просил его написать функцию, которая увеличивает энергию форманты, имея данные о частоте форманты и ширине канала на каждом шаге. Он написал, но только лютую дичь. После долгих попыток и указаний, бросил эту затею и написал функцию сам. Ну нет у него абстрактного мышления и не может он учитывать детали, хотя спрашиваешь их по отдельности и он правильно отвечает. Но как только решает задачу, использует только данные описанного контекста, а так куча нюансов. Если их все расписать, то они будут гораздо больше по тексту, чем реализация самой функции.
Это из той же оперы:
LLM называть ИИ - это не шизофрения. 🤷♂️
Верить, что LLM себя осознает- это не шизофрения. 🤷♂️
Верить, что уже "скоро" LLM заменит всех - это не шизофрения. 🤷♂️
Верить, что LLM может рассказать внутреннюю информацию на данных, которых она явно не обучалась - это не шизофрения. 🤷♂️
Общаться с LLM, где она отвечает ему, что он мессия или обладает супер-способностями - это шизофрения. 🤯
Где заканчивается первая граница шизофрении и начинается не шизофрения? 🤔 Для меня резкой границы между этими случаями нет, разница лишь в форме.
Раз человек что-то спрашивает, то получает в ответ то что "наиболее вероятно" хочет услышать. То что он хочет услышать, формируется на основе прогнозирования продолжения наиболее вероятных токенов. То есть фраза, колобок колобок я тебя.... съем (продолжилась в наибольшей вероятностью). И ни кто не говорит, что LLM смогла рассказать о существовании колобков и их гибели. Но вот в других областях, уверенно переносят такие рассказы на реальность.
По-моему Сапольский в своих лекциях приводил как довод, что шизофрения в разной форме присутствует везде. Он приводил пример, одной африканской деревни, где его привезли посмотреть на случай шизофрении к одной женщине. Местные говорили, что она ненормальная. На его вопрос, в чем это проявляется, они ответили что она говорит с духами всегда вместо определенных дней и убила козу. Он спросил, но ведь они тоже убивают же коз. На что ему ответили, что он не видит разницы что ли? Они убивают коз для жертвы и общаются с духами только в определенные для этого дни, а ненормальная женщина не по этим дня. Женщина реально была с шизофренией. Но случай был показателен тем, что местное племя не смущало остальное ненормальное поведение женщины, но вот козу забить не в тот день и общаться с духом не в тот день - это уже нездоровое поведение. Хотя для нас, поведение племени, тоже мягко говоря не здоровое по современным меркам.
Поэтому каждый раз, читая такие статьи или комментарии о том, что LLM уже не отличимые от сознания или близки к этому или делятся с ними секретами - я вспоминаю эту женщину из африканского племени и козу/духов по неправильным дням.
Они на самом деле отличаются. По крайне мере режимы простая, рассуждающая и исследования. Каждый имеет свои плюсы и минусы.
1) обычная - не плохо улавливает контекст, но плохо находит подкрепление написанному.
2) рассуждающая - легко теряет контекст, после ответа уже практически не возможно ссылаться на ранние сообщения диалога, даже если они были только что. Может вытащить что то из "памяти" (которую они сделали). Но лучше прорабатывает конкретный ответ.
3) исследование - хорошо собирает материалы по вопросу, но практически бесполезен в плане рассуждений и связей внутри них. Зато отлично анализирует множество источников исследований и даёт по ним выжимку и ссылки, что можно посмотреть. Из минусов: надо смотреть историю его исследования, там порой такой бред (может взять срач с какого то форума или же древние). Использую его как поисковик.
Проблема в том, что эти режимы практически не совместимы. После исследования, у меня часто перестают работать другие режимы. Не может порой обобщить или зависает.
В плане выбора самих моделей, то я увидел только разницу в стиле оформления ответа.
Поэтому самой частой практикой у меня является откатить ответ. Получил, учел, перегенерировал с другим сообщением.
В целом они все страдают удержанием контекста. Но продвинутые режимы, приводят к тому, что контекст прежних сообщений теряется ещё быстрее. И помогает только откат к старым для продолжение диалога с них.
Но надо отдать должное, тот же qween вообще несёт полную пургу. Гораздо хуже deepseek. Сегодня спрашивал про неокортекс, он путает слои 5 и 6, утверждает о наличии связей которых нет. При этом если спрашиваешь его, ты уверен? Пишешь правильно ему, просишь сказать есть ли ошибка. Он снова гнет свою линию. И лишь приведя ему исследования, он извиняется и корректирует свой ответ. Какой толк от такого бредо-генератора я не знаю. В том что он уверено несёт бред и даже просьба проверить свой ответ на основе исследований или перепроверить его не помогает и даже написание правильного.
Deepseek в этом плане гораздо лучше. Но из за того что они оптимизировали матрицы внимания, это явно проявляется в деталях. Например, в тех же слоя неокортекса, он может писать верно и в какой то момент одна галлюцинация и он уже перепутал слои мозга. Указываешь ему на ошибку и он забыл важный контекст в прежних сообщениях.
Но в целом у всех моделей проблемы с контекстом. Так как они берут только самые яркие детали. У того же ChatGPT обсуждали мозг человека, через несколько сообщений "человека" уже не важная деталь и он в ответе подсовывает редкий случай отличия мозга какого-нибудь редкого животного (у которого что то обнаружили по этой теме). И если сам не знаешь, то понять что "человек" уже не учитывается не сможешь. Все таки люди держат в голове в гиппокамп несколько контекстов сразу.