Верить, что LLM себя осознает- это не шизофрения. 🤷♂️
Верить, что уже "скоро" LLM заменит всех - это не шизофрения. 🤷♂️
Верить, что LLM может рассказать внутреннюю информацию на данных, которых она явно не обучалась - это не шизофрения. 🤷♂️
Общаться с LLM, где она отвечает ему, что он мессия или обладает супер-способностями - это шизофрения. 🤯
Где заканчивается первая граница шизофрении и начинается не шизофрения? 🤔 Для меня резкой границы между этими случаями нет, разница лишь в форме.
Раз человек что-то спрашивает, то получает в ответ то что "наиболее вероятно" хочет услышать. То что он хочет услышать, формируется на основе прогнозирования продолжения наиболее вероятных токенов. То есть фраза, колобок колобок я тебя.... съем (продолжилась в наибольшей вероятностью). И ни кто не говорит, что LLM смогла рассказать о существовании колобков и их гибели. Но вот в других областях, уверенно переносят такие рассказы на реальность.
По-моему Сапольский в своих лекциях приводил как довод, что шизофрения в разной форме присутствует везде. Он приводил пример, одной африканской деревни, где его привезли посмотреть на случай шизофрении к одной женщине. Местные говорили, что она ненормальная. На его вопрос, в чем это проявляется, они ответили что она говорит с духами всегда вместо определенных дней и убила козу. Он спросил, но ведь они тоже убивают же коз. На что ему ответили, что он не видит разницы что ли? Они убивают коз для жертвы и общаются с духами только в определенные для этого дни, а ненормальная женщина не по этим дня. Женщина реально была с шизофренией. Но случай был показателен тем, что местное племя не смущало остальное ненормальное поведение женщины, но вот козу забить не в тот день и общаться с духом не в тот день - это уже нездоровое поведение. Хотя для нас, поведение племени, тоже мягко говоря не здоровое по современным меркам.
Поэтому каждый раз, читая такие статьи или комментарии о том, что LLM уже не отличимые от сознания или близки к этому или делятся с ними секретами - я вспоминаю эту женщину из африканского племени и козу/духов по неправильным дням.
Они на самом деле отличаются. По крайне мере режимы простая, рассуждающая и исследования. Каждый имеет свои плюсы и минусы.
1) обычная - не плохо улавливает контекст, но плохо находит подкрепление написанному.
2) рассуждающая - легко теряет контекст, после ответа уже практически не возможно ссылаться на ранние сообщения диалога, даже если они были только что. Может вытащить что то из "памяти" (которую они сделали). Но лучше прорабатывает конкретный ответ.
3) исследование - хорошо собирает материалы по вопросу, но практически бесполезен в плане рассуждений и связей внутри них. Зато отлично анализирует множество источников исследований и даёт по ним выжимку и ссылки, что можно посмотреть. Из минусов: надо смотреть историю его исследования, там порой такой бред (может взять срач с какого то форума или же древние). Использую его как поисковик.
Проблема в том, что эти режимы практически не совместимы. После исследования, у меня часто перестают работать другие режимы. Не может порой обобщить или зависает.
В плане выбора самих моделей, то я увидел только разницу в стиле оформления ответа.
Поэтому самой частой практикой у меня является откатить ответ. Получил, учел, перегенерировал с другим сообщением.
В целом они все страдают удержанием контекста. Но продвинутые режимы, приводят к тому, что контекст прежних сообщений теряется ещё быстрее. И помогает только откат к старым для продолжение диалога с них.
Но надо отдать должное, тот же qween вообще несёт полную пургу. Гораздо хуже deepseek. Сегодня спрашивал про неокортекс, он путает слои 5 и 6, утверждает о наличии связей которых нет. При этом если спрашиваешь его, ты уверен? Пишешь правильно ему, просишь сказать есть ли ошибка. Он снова гнет свою линию. И лишь приведя ему исследования, он извиняется и корректирует свой ответ. Какой толк от такого бредо-генератора я не знаю. В том что он уверено несёт бред и даже просьба проверить свой ответ на основе исследований или перепроверить его не помогает и даже написание правильного.
Deepseek в этом плане гораздо лучше. Но из за того что они оптимизировали матрицы внимания, это явно проявляется в деталях. Например, в тех же слоя неокортекса, он может писать верно и в какой то момент одна галлюцинация и он уже перепутал слои мозга. Указываешь ему на ошибку и он забыл важный контекст в прежних сообщениях.
Но в целом у всех моделей проблемы с контекстом. Так как они берут только самые яркие детали. У того же ChatGPT обсуждали мозг человека, через несколько сообщений "человека" уже не важная деталь и он в ответе подсовывает редкий случай отличия мозга какого-нибудь редкого животного (у которого что то обнаружили по этой теме). И если сам не знаешь, то понять что "человек" уже не учитывается не сможешь. Все таки люди держат в голове в гиппокамп несколько контекстов сразу.
Как человек, который запустил разные стартапы, вставлю свои 5 копеек на конкретных примерах.
1) разработка компонентов для реализации полноценного текстового редактора trichview.com (,он использовался в первых версиях skype, the bat). Проект был направлен на закрытие конкретных проблем пользователей, так как его разработка и улучшение требует года работы, то его проще купить. Первая разработка заняла год, и сразу запуск. Сырой продукт, глюченый, который улучшался многие годы в ответ на обобщение проблем и багов пользователей . Как итог, тысячи клиентов. Большую роль сыграл маркетинг
Проблема, на тот момент хоть и привлек внимание, но по сути стоимость продукта и сложности без конкретных юзер кейсов не позволили пока закончить проект.
3) очки glazz, был продект из Microsoft. Но отсутствие рынка в РФ и стоимость проекта, таки не позволили выпустить пока их
Проблемы в том, что гос сектор требует множества лицензирования, сложности продвижения и времени. Как итог, я пока должен государству ~1,5 мое руб. И пока не могу получить гос сектор, так как без хороших связей наверху это проблема (не на уровне топ менеджеров). Кроме того, работа с гос сектором очень опасна, тебя ещё и посадить могут в итоге, за нецелевое расходование
5) проект тянущейся электроники. Разработка технологий, материалов , тех процесса, стендового оборудования
Рынок только зарождается в виде робототехники. Остальные рынки как оказалось это единичные экспериментальные стартапы, на которых бизнес не построишь. Как итог проект пылиться.
6) приложение для изучения иностранных языков , онлайн репетитор. Разработаны собственные технологии управляемого синтеза речи, поведением модели и много всего. Конечная себестоимость проекта оказалась на сегодняшний день очень высокой, а снижать качество желания нет.
Это часть проектов. По ним видны целый ряд проблем: юзер кейс, реклама, стоимость разработки, себестоимость, целевая аудитория, рынки сбыта.
Поэтому нельзя рассматривать, что то одно в отрыве от остального.
И ещё, некоторые из них требуют разное время на mvp и затраты. Например, проект тянущейся электроники занял 4 года предварительных исследований, прежде чем была отработана идея и проверены вручную этапы, прежде чем был создан первый MVP. А школьные очки потребовали год на разработку, но много миллионов вложений. Даже онлайн репетитор, потребовал 2 года, на исследования разработку и создание нужных технологий и все это время сервера gpu и не только сжирали прилично денег ежемесячно, так как отлаживать проект на одной машине было уже невозможно и требовало комплексного подхода создания микроархитектуры и распределенных gpu серверов.
Тут все равно есть проблема, в том что в используется температурах.
В трансформерах температура и стохастический выбор частично заменяют top-down модуляцию слоя 5, но не эквивалентны ей.
Приведем пример, где в биологической модели разные зоны (зрение, моторика, слух) модулируют сигнал слоя 5. В трансформере же только температурный порог и случайность влияют на выход, что приближённо, но не точно отражает такой процесс.
FFN в трансформерах обобщает признаки, как слой 5. Но в слое 5 есть модуляция top-down. В трансформере ее нет. Формально, температура задаёт диапазон вероятных признаков из FFN из которых модель может выбрать. Случайная компонента выбирает один из признаков, который попал в этот диапазон. Это не прямой эквивалент top-down модуляции, а скорее его альтернатива, где из наиболее вероятных обобщенных признаков выбирается один.
Для понимания, представим, что на слой 5 с разным весом на сигнал влияли бы зрение, моторика, слух. В итоге мы отбросили часть менее вероятных, которые оказали меньшее влияние. Например, зрение оказало влияние 0.5, моторика 0.3, слух 0.1. Мы задали диапазон (аналогично температуре на уровне 0.2) и откинули слух. А затем случайно выбрали модуляцию между зрением или моторикой (хотя моторика оказывает меньшее влияние на сигнал). И теперь на выходе у нас признак не с усилением зрения, а моторики. И вместо выбора слова "вижу", мы выбираем слово "иду". Это косвенная связь, чтобы провести аналогию с искусственным инженерным решением при отсутствии top-down модуляции слоя 5. Хотя механизмы безусловно разные. Поэтому выбор не учитывает контекста.
Это небольшая часть. Полностью, там ещё небольшая сеть (упрощённый прототип амигдалы), которая учитывает ещё
Голос ответа пользователя
Контекст пользователя (текст)
Контекст ответа модели (текст)
Заданный статический характер
В дополнение делал регулировку архитектуры на уровне сигнал/шум. Аналог норадреналина - уменьшает разницу отношения, серотонина - изменяет контрастность сигнала. Это лучше, чем просто случайно полагаться на температуру, так как создаёт понимание поведения модели и ответов.
Проблемы конфликтов блоков, из за того что при обучении не учитывает разница влияния глобальной ошибки при классическом методе обратного распространения
Все три пункта по разному проявляются , хоть могут быть схожи. Но будет интересно почитать, в чем вы видите причину.
Одна из главных проблем галлюцинаций , как была температура, так и осталась. Но она не единственная причина конечно. Их несколько, и люди часто путают, считая все три проявление галлюцинациями и одним и тем же.
На примере неокортекса, в тех же ассоциативных зонах, возникают такие же проблемы.
Например, отсутствие обратной связи внутри блока (аналог 6 слоя неокортекса), а так же отсутствие полноценной модуляции слоя 5 (в трансформерах эту роль играет FFN), который должен выбирать итоговое усиление сигнала (внимание) исходя из внешнего контекста (зрение, моторные зоны и другие) приводят к галлюцинации.
Нехватка связей в FFN, аналог нехватка связей в своей 5 неокортекса (малая плотность нейронов, например деменция или не сформировались у ребенка ещё) приводит к бреду или словесной окрошке.
Отсутствие чувствительности блоков у глобальной ошибке и отсутствие учёта локальной ошибки приводит к конфликту блоков. Когда в целом глобальная ошибка выдала уменьшение, но в реальности блок 1 наоборот хуже справил, а остальные верно. Это приводит к тому, что в блоке 1 ошибка будет нарастать и это приводит к накоплению противоречий. Локальная ошибка, как раз корректирует эту проблему. А так же разделение обучения не классическим методом обратного распространения, а обучения глобальной ошибке индивидуально каждого блока. При правильном механизме, эта проблема исчезает. https://t.me/greenruff/2257
Тут выкладывал примеры backward, там новый метод обучения с правильным учётом глобальной ошибки и учётом локальной ошибки. Они превосходят классический метод обратного распространения ошибки.
Через промпт, вы можете лишь перенаправить предсказание токенов по другому маршруту. Связанному с определенным паттерном.
Вот про SSM не понял. В статье написано, что они плохо обучаются - это так. Но выше это та же SSM, только измененная немного. LinOSS так и расшифровывается Linear Oscillatory State-Space models.
Если я правильно понимаю, то в оригинальной SSM матрица состояния инициализируется методов типа HiPPO. Где ее значения вещественные и отрицательные.
А вот у Oscillatory SSM матрица состояния A — это комплексные числа с ненулевой мнимой частью. Это позволяет модели генерировать осцилляции (например, синусоиды). Амплитуда осцилляций контролируется вещественной частью, а частота — мнимой частью.
В частности приводится пример, на задаче PPG-DaLiA (предсказание пульса по данным с датчиков) LinOSS-IM показал MSE = 6.4×10⁻² , что в 2 раза лучше Mamba и LRU. Это связано с тем, что пульс человека — периодический сигнал , который LinOSS эффективно моделирует.
Собственно у них там 3-и доработки (модели):
S5 : Как пружина, которая быстро затухает.
LinOSS-IM : Как маятник, который колеблется, но со временем останавливается.
LinOSS-IMEX : Как маятник без трения — колебания продолжаются бесконечно.
Вот на LLM было бы интересно проверить, так как у текста тоже должна быть периодичность (на основе дыхательных циклов).
Разработал данный подход, где то 1,5-2 года назад. Но только недавно подробно объяснил, что за ним стоит.
Видимо тоже надо написать статью, а то ещё долго будут доходить до этого. Видимо без публикации на площадках, это так и останется локальным исследованием.
По-сути рассуждения, направления ответов и другие механизмы, перенаправляют прогнозирование модели на каждом шаге. Так как рассуждения так же построена на дополнениях ответов, с учётом накопленных данных. Формально их можно считать микродиалогами
С каких пор машинное обучение стало называться ИИ? И чем так плоха формулировка ML? То что перечислено, это именно машинное обучение, где модель учиться по входным данным находить/выделять признаки.
Просто вы написали, что ML инженер, но при этом называете это ИИ. Плохо вяжется это.
Вы серьезно это написали про промпт? Вы понимаете, как вообще промпт оказывает влияние на предсказание токенов и что, чем дальше текст от начала (текста промпта), тем меньше влияния он будет оказывать? А так же, если мы вы распишите в нем 100 деталей, то он возьмет самые "весомые" и будет искать связи с ними.
Garbage in, garbage out - вы серьезно? Что вы черт возьми такое пишете? В жизни вы будете смотреть код, где будет множество таких комментариев. И если вы не смотрите логику кода, то вы точно занимаетесь программированием?
Возможно дело в задачах. Я вполне допускаю, что у вас очень простые задачи. Сетки хорошо справляются накидать структуру, построить график, всякие простые обработчики в том же JS или накидать первичный код.
Когда я говорю про "тупость", то речь идет про разрыв между хвалебными опусами в статьях и реальностью. Поэтому мне всегда интересно, что за примитивный код должен писать разработчик, хвалебных статьей и комментариев.
Я всегда говорил, что LLM это инструмент, но очень ограниченный, хотя и очень полезный. Он может сделать простые рутинные вещи. Но разработка это прежде всего решение задач, а не написание кода.
Нельзя, тут к примеру тревожность. Вот это мы можем определить по аудио паттерну https://t.me/greenruff/1895
Вы можете определить базовое восприятие, которое ближе к рефлексам https://t.me/greenruff/1851 и связано с биологией строения слухового аппарата. Но ни о каком страхе, радости и так далее нет. Доминирование? Да, но это не является когнитивной эмоцией. Тревожность? Да. Волнение/активность/возбуждение? Да.. но это не являет когнитивной эмоцией, а своего рода прото-эмоцией. Базовые восприятия, которые помогали и помогают выживать. Которые построены на биологических особенностях (размеры тела, приводящие к размеру голосового тракта и следовательно к возникновению механизма реагирования на низкие звуки при оценке размеров особи для выживания).
Здесь я делал исследование, на анализ аудио паттернов речи. Множество эмоций имеет одинаковые. Более того, некоторые имеют разные паттерны в разных контекстах. Поэтому привычные нам когнитивные эмоции так распознать нельзя.
У них вообще беда с моделями. Они продают сервис оценки эмоций (4е эмоции) обученные на данных Душа (по-моему так назывался). Но это не работает, потому что там совсем не то, что должно быть. Нельзя только по звуку определить те эмоции. Так как они зависят от смыслового контекста + аудио паттернов, а не только от звука (аудио речи).
Я им в бывшем комьюнити сбера об этом писал и разбирал и показывал на их же синтезе как пример.
Я взял синтезировал два их аудио. Выровнял их тон и форманты обрезал (звонкие звуки). Затем наложил одинаковые шаблоны на речь. Затем поместил их в разные контексты (реальную речь и внешние звуки). У речи одинаковый шаблон наложен звуковой, разный только смысл (контекст). Так вот мозг сам достраивает соответствие контексту, где в одном случае один и тот же шаблон речи будет восприниматься либо как страх в голосе либо как радость.
Я впервые столкнулся с этим, когда анализировал эмоции в речи. И оказалось что многие противоположенных эмоции в плане звуковых шаблонов одинаковые. Для меня это было откровением и неожиданностью. Тесты показали, что мозг опирается на смысловой контекст + базовые прото-эмоции в звуке. Прото-эмоции это не страх, радость и другие - это тревожность, волнение и другие базовые. И при анализе мозг уже выстраивает общую картину об эмоции на основе этих двух факторов: базы в звуке и смысла в контексте. Но только по голосу ни какого страха определить нельзя. Достаточно взять речь на неизвестном языке (например я не знаю итальянский) и нельзя точно понять ругаются там или с каким то волнением рассказывают новость.
И Сбер это продает как сервис для коллцентров для оценки звонков клиента. И пофиг, что им на примере показали что это не работает, и что можно определить реально.
Так что gigachat с их бенчмарками не вызывает ни какого доверия.
Мы же говорили о GPU. О каких конкретно разных задачах идёт речь?
В ray serve можно запускать готовые LLM. Загрузив их через 20-30 строчек кода и получив при этом возможность автоматически распараллелить и видеть логи llm через мониторинг.
Или вы имеете ввиду не совсем LLM, а обертки вроде Gradio? Если так, то gradio ближе к обычным cpu серверам, а gpu лучше выносить отдельно. Если конечно один gpu сервер, то разницы нет. Но тогда и k8s избыточный.
Хочется понять, когда k8s оправдан с gpu, против ray serve. Не могу придумать ни одного сценария. Какие сценарии вы видите, в которых k8s с нейронками даёт преимущества или делает то, что не позволяет делать ray serve? И при этом k8s не избыточен.
Надо смотреть сколько стоит такая сборка. А то я до этого собирал их ноги birdbot. Так там один серво стоит 70 тыс руб, а их надо 4 шт. Вот этого https://youtu.be/PXXdaqseHis
Только одного почти дособирал, осталось пара моторов, а тут беркли уже нового. Но по сравнению с их прошлой моделью birdbot - текущая не очень впечатляет как ходит.
Проблема этих opensource проектов пока в том, что все они при сборке очень дорогие. Тут только печать занимает несколько месяцев, и не считая затрат на все остальное. Пока соберешь, оказывается что там куча недостатков и на видео все красивей.
Все они требуют множества дорогих моторов. Пробовал печатать разные разновидности моторов, но их надо потом встраивать и значит переделывать корпус и механику.
Но все равно классно, что появляется множество таких открытых проектов. Жаль что в наших вузах, таких не делают. Китайцы быстро собирают на базе opensource и потом продают на алике/алибабе за 0,45-1,5 млн руб. Хотя сборки робособак так на разный вкус от 10 тыс руб до 200 тыс руб. на основе тоже opensource.
Я не потянул такое содержать, чтобы развернуть публично. Слишком дорого обходится сервера, а в платных подписчиков веры как то у меня нет. Надеюсь гугл доведет свое до ума.
У Сбера вообще gigachat max 2 как был тупым у lite, так и остался тупым в новой. Только воды больше льет. Не понимаю, что они постоянно в статьях бенчмарками хвалятся и сравнивают. После этого пропадает доверие ко всем этим бенчмаркам. Так как по факту модель осталась очень глупой.
Это ладно. Она легко ломает уже рабочий код. Недавно решил задокументировать его, попросив написать к нему комментарии, описать параметры, что делает класс. Потом смотрю, класс перестал работать. Потратил кучу времени, на то, чтобы сопоставить что она сделала. Оказалось, что она внесла в код небольшие изменения сама (просил только комментарии) и все перестало работать, логика сломалась. А ещё может переименовывать переменные и объединить что то и все, ищи потом ошибку.
Это касается сложного кода. Хотя даже из простого может выкинуть что то, упростив код.
Плюс, заметил, что сетки не вникают в код, если рядом комментарий. Пофиг, что он старый и уже не отражает логику. Например, есть тензор [batch, num, hidden_dim, seq_len]. В коде в прежней строке мы к нему приводим. Но остался старый комментарий, что тут # [batch, dim, seq_len]. И сетке пофиг на логику, она считает что информация из комментария важнее и строит логику на этом.
Поэтому с ними надо аккуратнее. Пока они очень тупые. И не могут держать разные контексты (логика кода и комментарии например) и переключаться между ними.
В реальном мозге нет разделения на графы памяти в виде чётких слоёв. Ассоциативные зоны не являются базовым слоем памяти. Память распределена сложнее: участвуют кора, гиппокамп, миндалины и многие другие структуры. И связь между ними — это не просто "слоистый граф", а динамическая сеть с параллельными и перекрёстными путями, обратной связью. модуляциями.
Один нейрон = один элемент памяти ("нейрон бабушки")
Концепция «нейрона бабушки» — это уже давно опровергнутая гипотеза. рекомендую посмотреть лекции Роберта Сапольского, где где то с 15-23 лекцию рассказывается об истории бабушкиного нейрона. Память распределённая, иначе потеря одного нейрона стирала бы целую память.
Перемещение активности по графу
Вы упростили это понятие до примитивизации. Передача сигнала включают обратные связи, модуляцию, торможение и нейромодуляторы, ритмы.
Вы ввели КУ1, КУ2 — время воздействия/пропускная способность
В реальности время передачи между нейронами фиксировано и зависит от типа нейрона, а не от "суммарного времени воздействия".
Типы элементов — типы нейронов
Да, в ассоциативных зонах есть разные типы нейронов, но их классификация сложнее — интенсификаторы, модуляторы, тормозные клетки и так далее.
Про пирамидальные нейроны - это всего лишь один тип нейронов, и во многих областях их может не быть совсем или очень мало. Их задача связать соседние колонки или дальние колонки (другие области). В тех же ассоциативных областях есть звездчатые нейроны. А кроме ассоциативных областей, есть другие, которые так же обобщают сигналы и там могут преобладать другие типы клеток.
Миндалина = распознавание паттернов
Миндалевидное тело не занимается распознаванием паттернов в общем смысле. Оно участвует в оценке стимулов. Распознавание паттернов происходит в сенсорных и ассоциативных корковых зонах. А амигдала делает оценку этого распознанного стимула (от начальных рефлексов, до более сложных).
Инстинкты-паттерны, передача возбуждения
Нет такого понятия как "инстинкт-паттерн" в нейробиологии. К реальной модели мозга отношения не имеет.
Паттерновое привыкание как стабилизация синапса
Стабилизация синапса действительно происходит при долговременном потенцировании (LTP), но вы делаете из этого прямолинейные выводы о "выключении" из инстинктов, чего нейробиология не подтверждает.
Подкрепления = нейроны мезокортикального пути
Мезокортикальный путь, например дофаминергические нейроны, участвуют в обучении через подкрепление. Но "подкрепления появляются в результате срабатывания обучающих инстинктов" — вы путаете причины и следствия. На самом деле речь идёт о системах оценки вознаграждения (VTA, nucleus accumbens, PFC).
Дофаминовая яма
Депрессия включает множество факторов, не только дофамин. Посмотрите лекции Роберта Сапольского, там целые лекции посвящены этой теме
Как итог, вы используете термины нейробиологии, но смешивает их так, как вам удобно для построения своей модели, без соблюдения реальных функциональных связей. Делаете необоснованные аналогии типа "миндалина = распознавание паттернов", "один нейрон = один элемент памяти", "пропускная способность синапса" и т.д. Местами цепляетесь за реальные факты (пирамидальные нейроны, клетки места, дофамин), но выводите из них неправильные следствия.
Это из той же оперы:
LLM называть ИИ - это не шизофрения. 🤷♂️
Верить, что LLM себя осознает- это не шизофрения. 🤷♂️
Верить, что уже "скоро" LLM заменит всех - это не шизофрения. 🤷♂️
Верить, что LLM может рассказать внутреннюю информацию на данных, которых она явно не обучалась - это не шизофрения. 🤷♂️
Общаться с LLM, где она отвечает ему, что он мессия или обладает супер-способностями - это шизофрения. 🤯
Где заканчивается первая граница шизофрении и начинается не шизофрения? 🤔 Для меня резкой границы между этими случаями нет, разница лишь в форме.
Раз человек что-то спрашивает, то получает в ответ то что "наиболее вероятно" хочет услышать. То что он хочет услышать, формируется на основе прогнозирования продолжения наиболее вероятных токенов. То есть фраза, колобок колобок я тебя.... съем (продолжилась в наибольшей вероятностью). И ни кто не говорит, что LLM смогла рассказать о существовании колобков и их гибели. Но вот в других областях, уверенно переносят такие рассказы на реальность.
По-моему Сапольский в своих лекциях приводил как довод, что шизофрения в разной форме присутствует везде. Он приводил пример, одной африканской деревни, где его привезли посмотреть на случай шизофрении к одной женщине. Местные говорили, что она ненормальная. На его вопрос, в чем это проявляется, они ответили что она говорит с духами всегда вместо определенных дней и убила козу. Он спросил, но ведь они тоже убивают же коз. На что ему ответили, что он не видит разницы что ли? Они убивают коз для жертвы и общаются с духами только в определенные для этого дни, а ненормальная женщина не по этим дня. Женщина реально была с шизофренией. Но случай был показателен тем, что местное племя не смущало остальное ненормальное поведение женщины, но вот козу забить не в тот день и общаться с духом не в тот день - это уже нездоровое поведение. Хотя для нас, поведение племени, тоже мягко говоря не здоровое по современным меркам.
Поэтому каждый раз, читая такие статьи или комментарии о том, что LLM уже не отличимые от сознания или близки к этому или делятся с ними секретами - я вспоминаю эту женщину из африканского племени и козу/духов по неправильным дням.
Они на самом деле отличаются. По крайне мере режимы простая, рассуждающая и исследования. Каждый имеет свои плюсы и минусы.
1) обычная - не плохо улавливает контекст, но плохо находит подкрепление написанному.
2) рассуждающая - легко теряет контекст, после ответа уже практически не возможно ссылаться на ранние сообщения диалога, даже если они были только что. Может вытащить что то из "памяти" (которую они сделали). Но лучше прорабатывает конкретный ответ.
3) исследование - хорошо собирает материалы по вопросу, но практически бесполезен в плане рассуждений и связей внутри них. Зато отлично анализирует множество источников исследований и даёт по ним выжимку и ссылки, что можно посмотреть. Из минусов: надо смотреть историю его исследования, там порой такой бред (может взять срач с какого то форума или же древние). Использую его как поисковик.
Проблема в том, что эти режимы практически не совместимы. После исследования, у меня часто перестают работать другие режимы. Не может порой обобщить или зависает.
В плане выбора самих моделей, то я увидел только разницу в стиле оформления ответа.
Поэтому самой частой практикой у меня является откатить ответ. Получил, учел, перегенерировал с другим сообщением.
В целом они все страдают удержанием контекста. Но продвинутые режимы, приводят к тому, что контекст прежних сообщений теряется ещё быстрее. И помогает только откат к старым для продолжение диалога с них.
Но надо отдать должное, тот же qween вообще несёт полную пургу. Гораздо хуже deepseek. Сегодня спрашивал про неокортекс, он путает слои 5 и 6, утверждает о наличии связей которых нет. При этом если спрашиваешь его, ты уверен? Пишешь правильно ему, просишь сказать есть ли ошибка. Он снова гнет свою линию. И лишь приведя ему исследования, он извиняется и корректирует свой ответ. Какой толк от такого бредо-генератора я не знаю. В том что он уверено несёт бред и даже просьба проверить свой ответ на основе исследований или перепроверить его не помогает и даже написание правильного.
Deepseek в этом плане гораздо лучше. Но из за того что они оптимизировали матрицы внимания, это явно проявляется в деталях. Например, в тех же слоя неокортекса, он может писать верно и в какой то момент одна галлюцинация и он уже перепутал слои мозга. Указываешь ему на ошибку и он забыл важный контекст в прежних сообщениях.
Но в целом у всех моделей проблемы с контекстом. Так как они берут только самые яркие детали. У того же ChatGPT обсуждали мозг человека, через несколько сообщений "человека" уже не важная деталь и он в ответе подсовывает редкий случай отличия мозга какого-нибудь редкого животного (у которого что то обнаружили по этой теме). И если сам не знаешь, то понять что "человек" уже не учитывается не сможешь. Все таки люди держат в голове в гиппокамп несколько контекстов сразу.
Как человек, который запустил разные стартапы, вставлю свои 5 копеек на конкретных примерах.
1) разработка компонентов для реализации полноценного текстового редактора trichview.com (,он использовался в первых версиях skype, the bat). Проект был направлен на закрытие конкретных проблем пользователей, так как его разработка и улучшение требует года работы, то его проще купить. Первая разработка заняла год, и сразу запуск. Сырой продукт, глюченый, который улучшался многие годы в ответ на обобщение проблем и багов пользователей . Как итог, тысячи клиентов. Большую роль сыграл маркетинг
2) очки gepse, и ряд других очков.
https://youtu.be/zRW4T0DwYWw?si=dpc2hpm4EXIHZBQH
Проблема, на тот момент хоть и привлек внимание, но по сути стоимость продукта и сложности без конкретных юзер кейсов не позволили пока закончить проект.
3) очки glazz, был продект из Microsoft. Но отсутствие рынка в РФ и стоимость проекта, таки не позволили выпустить пока их
https://navigator.sk.ru/orn/1123845?ysclid=mabh0l8c7s164908111&utm_referrer=https%3a%2f%2fya.ru%2f
4) школьный конструктор AR очков под нос сектор образования.
https://habr.com/ru/articles/828760
Проблемы в том, что гос сектор требует множества лицензирования, сложности продвижения и времени. Как итог, я пока должен государству ~1,5 мое руб. И пока не могу получить гос сектор, так как без хороших связей наверху это проблема (не на уровне топ менеджеров). Кроме того, работа с гос сектором очень опасна, тебя ещё и посадить могут в итоге, за нецелевое расходование
5) проект тянущейся электроники. Разработка технологий, материалов , тех процесса, стендового оборудования
https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanusheisya-elektroniki-gflex
Рынок только зарождается в виде робототехники. Остальные рынки как оказалось это единичные экспериментальные стартапы, на которых бизнес не построишь. Как итог проект пылиться.
6) приложение для изучения иностранных языков , онлайн репетитор. Разработаны собственные технологии управляемого синтеза речи, поведением модели и много всего. Конечная себестоимость проекта оказалась на сегодняшний день очень высокой, а снижать качество желания нет.
Это часть проектов. По ним видны целый ряд проблем: юзер кейс, реклама, стоимость разработки, себестоимость, целевая аудитория, рынки сбыта.
Поэтому нельзя рассматривать, что то одно в отрыве от остального.
И ещё, некоторые из них требуют разное время на mvp и затраты. Например, проект тянущейся электроники занял 4 года предварительных исследований, прежде чем была отработана идея и проверены вручную этапы, прежде чем был создан первый MVP. А школьные очки потребовали год на разработку, но много миллионов вложений. Даже онлайн репетитор, потребовал 2 года, на исследования разработку и создание нужных технологий и все это время сервера gpu и не только сжирали прилично денег ежемесячно, так как отлаживать проект на одной машине было уже невозможно и требовало комплексного подхода создания микроархитектуры и распределенных gpu серверов.
Тут все равно есть проблема, в том что в используется температурах.
В трансформерах температура и стохастический выбор частично заменяют top-down модуляцию слоя 5, но не эквивалентны ей.
Приведем пример, где в биологической модели разные зоны (зрение, моторика, слух) модулируют сигнал слоя 5. В трансформере же только температурный порог и случайность влияют на выход, что приближённо, но не точно отражает такой процесс.
FFN в трансформерах обобщает признаки, как слой 5. Но в слое 5 есть модуляция top-down. В трансформере ее нет. Формально, температура задаёт диапазон вероятных признаков из FFN из которых модель может выбрать. Случайная компонента выбирает один из признаков, который попал в этот диапазон. Это не прямой эквивалент top-down модуляции, а скорее его альтернатива, где из наиболее вероятных обобщенных признаков выбирается один.
Для понимания, представим, что на слой 5 с разным весом на сигнал влияли бы зрение, моторика, слух. В итоге мы отбросили часть менее вероятных, которые оказали меньшее влияние. Например, зрение оказало влияние 0.5, моторика 0.3, слух 0.1. Мы задали диапазон (аналогично температуре на уровне 0.2) и откинули слух. А затем случайно выбрали модуляцию между зрением или моторикой (хотя моторика оказывает меньшее влияние на сигнал). И теперь на выходе у нас признак не с усилением зрения, а моторики. И вместо выбора слова "вижу", мы выбираем слово "иду". Это косвенная связь, чтобы провести аналогию с искусственным инженерным решением при отсутствии top-down модуляции слоя 5. Хотя механизмы безусловно разные. Поэтому выбор не учитывает контекста.
Этим легко управлять. Я использовал данный подход как часть эмоциональной модели. Со статическим характером.
https://t.me/greenruff/2240?single
Это небольшая часть. Полностью, там ещё небольшая сеть (упрощённый прототип амигдалы), которая учитывает ещё
Голос ответа пользователя
Контекст пользователя (текст)
Контекст ответа модели (текст)
Заданный статический характер
В дополнение делал регулировку архитектуры на уровне сигнал/шум. Аналог норадреналина - уменьшает разницу отношения, серотонина - изменяет контрастность сигнала. Это лучше, чем просто случайно полагаться на температуру, так как создаёт понимание поведения модели и ответов.
Вы по-моему смешали три понятия:
Галлюцинации
Бред
Проблемы конфликтов блоков, из за того что при обучении не учитывает разница влияния глобальной ошибки при классическом методе обратного распространения
Все три пункта по разному проявляются , хоть могут быть схожи. Но будет интересно почитать, в чем вы видите причину.
Одна из главных проблем галлюцинаций , как была температура, так и осталась. Но она не единственная причина конечно. Их несколько, и люди часто путают, считая все три проявление галлюцинациями и одним и тем же.
На примере неокортекса, в тех же ассоциативных зонах, возникают такие же проблемы.
Например, отсутствие обратной связи внутри блока (аналог 6 слоя неокортекса), а так же отсутствие полноценной модуляции слоя 5 (в трансформерах эту роль играет FFN), который должен выбирать итоговое усиление сигнала (внимание) исходя из внешнего контекста (зрение, моторные зоны и другие) приводят к галлюцинации.
Нехватка связей в FFN, аналог нехватка связей в своей 5 неокортекса (малая плотность нейронов, например деменция или не сформировались у ребенка ещё) приводит к бреду или словесной окрошке.
Отсутствие чувствительности блоков у глобальной ошибке и отсутствие учёта локальной ошибки приводит к конфликту блоков. Когда в целом глобальная ошибка выдала уменьшение, но в реальности блок 1 наоборот хуже справил, а остальные верно. Это приводит к тому, что в блоке 1 ошибка будет нарастать и это приводит к накоплению противоречий. Локальная ошибка, как раз корректирует эту проблему. А так же разделение обучения не классическим методом обратного распространения, а обучения глобальной ошибке индивидуально каждого блока. При правильном механизме, эта проблема исчезает. https://t.me/greenruff/2257
Тут выкладывал примеры backward, там новый метод обучения с правильным учётом глобальной ошибки и учётом локальной ошибки. Они превосходят классический метод обратного распространения ошибки.
Через промпт, вы можете лишь перенаправить предсказание токенов по другому маршруту. Связанному с определенным паттерном.
https://t.me/greenruff/2240?single
Но, интересно почитать, что вы получили. И как трактуете. Возможно, я не правильно вас понял, поэтому с удовольствием почитаю вашу статью.
Вот про SSM не понял. В статье написано, что они плохо обучаются - это так. Но выше это та же SSM, только измененная немного. LinOSS так и расшифровывается Linear Oscillatory State-Space models.
Вообще хорошо бы прилагать ссылку на саму работы https://openreview.net/pdf?id=GRMfXcAAFh
и на GitHub чтобы не искать: https://github.com/tk-rusch/linoss/tree/main
Если я правильно понимаю, то в оригинальной SSM матрица состояния инициализируется методов типа HiPPO. Где ее значения вещественные и отрицательные.
А вот у Oscillatory SSM матрица состояния A — это комплексные числа с ненулевой мнимой частью. Это позволяет модели генерировать осцилляции (например, синусоиды). Амплитуда осцилляций контролируется вещественной частью, а частота — мнимой частью.
В частности приводится пример, на задаче PPG-DaLiA (предсказание пульса по данным с датчиков) LinOSS-IM показал MSE = 6.4×10⁻² , что в 2 раза лучше Mamba и LRU. Это связано с тем, что пульс человека — периодический сигнал , который LinOSS эффективно моделирует.
Собственно у них там 3-и доработки (модели):
S5 : Как пружина, которая быстро затухает.
LinOSS-IM : Как маятник, который колеблется, но со временем останавливается.
LinOSS-IMEX : Как маятник без трения — колебания продолжаются бесконечно.
Вот на LLM было бы интересно проверить, так как у текста тоже должна быть периодичность (на основе дыхательных циклов).
Показывал и писал об этом
https://t.me/greenruff/2240?single
Разработал данный подход, где то 1,5-2 года назад. Но только недавно подробно объяснил, что за ним стоит.
Видимо тоже надо написать статью, а то ещё долго будут доходить до этого. Видимо без публикации на площадках, это так и останется локальным исследованием.
По-сути рассуждения, направления ответов и другие механизмы, перенаправляют прогнозирование модели на каждом шаге. Так как рассуждения так же построена на дополнениях ответов, с учётом накопленных данных. Формально их можно считать микродиалогами
С каких пор машинное обучение стало называться ИИ? И чем так плоха формулировка ML? То что перечислено, это именно машинное обучение, где модель учиться по входным данным находить/выделять признаки.
Просто вы написали, что ML инженер, но при этом называете это ИИ. Плохо вяжется это.
Вы серьезно это написали про промпт? Вы понимаете, как вообще промпт оказывает влияние на предсказание токенов и что, чем дальше текст от начала (текста промпта), тем меньше влияния он будет оказывать? А так же, если мы вы распишите в нем 100 деталей, то он возьмет самые "весомые" и будет искать связи с ними.
Garbage in, garbage out - вы серьезно? Что вы черт возьми такое пишете? В жизни вы будете смотреть код, где будет множество таких комментариев. И если вы не смотрите логику кода, то вы точно занимаетесь программированием?
Возможно дело в задачах. Я вполне допускаю, что у вас очень простые задачи. Сетки хорошо справляются накидать структуру, построить график, всякие простые обработчики в том же JS или накидать первичный код.
Когда я говорю про "тупость", то речь идет про разрыв между хвалебными опусами в статьях и реальностью. Поэтому мне всегда интересно, что за примитивный код должен писать разработчик, хвалебных статьей и комментариев.
Я всегда говорил, что LLM это инструмент, но очень ограниченный, хотя и очень полезный. Он может сделать простые рутинные вещи. Но разработка это прежде всего решение задач, а не написание кода.
Нельзя, тут к примеру тревожность. Вот это мы можем определить по аудио паттерну https://t.me/greenruff/1895
Вы можете определить базовое восприятие, которое ближе к рефлексам https://t.me/greenruff/1851 и связано с биологией строения слухового аппарата. Но ни о каком страхе, радости и так далее нет. Доминирование? Да, но это не является когнитивной эмоцией. Тревожность? Да. Волнение/активность/возбуждение? Да.. но это не являет когнитивной эмоцией, а своего рода прото-эмоцией. Базовые восприятия, которые помогали и помогают выживать. Которые построены на биологических особенностях (размеры тела, приводящие к размеру голосового тракта и следовательно к возникновению механизма реагирования на низкие звуки при оценке размеров особи для выживания).
https://t.me/greenruff/1847
Здесь я делал исследование, на анализ аудио паттернов речи. Множество эмоций имеет одинаковые. Более того, некоторые имеют разные паттерны в разных контекстах. Поэтому привычные нам когнитивные эмоции так распознать нельзя.
https://t.me/greenruff/1855
https://t.me/greenruff/1852
Я не просто так показал, на примере самого же Сбера что это не работает. С таким же успехом можно бросать монетку. Это просто работает иначе.
https://t.me/greenruff/1924
Выше к примеру описано как звуковые паттерны влияют на когнитивное восприятие эмоций.
https://t.me/greenruff/2059
Тут исследование пауз речи, которое объясняет почему нельзя распознать по звуковых паттернам когнитивные эмоции, которые зависят от смысла
У них вообще беда с моделями. Они продают сервис оценки эмоций (4е эмоции) обученные на данных Душа (по-моему так назывался). Но это не работает, потому что там совсем не то, что должно быть. Нельзя только по звуку определить те эмоции. Так как они зависят от смыслового контекста + аудио паттернов, а не только от звука (аудио речи).
Я им в бывшем комьюнити сбера об этом писал и разбирал и показывал на их же синтезе как пример.
https://t.me/greenruff/1857?single
Я взял синтезировал два их аудио. Выровнял их тон и форманты обрезал (звонкие звуки). Затем наложил одинаковые шаблоны на речь. Затем поместил их в разные контексты (реальную речь и внешние звуки). У речи одинаковый шаблон наложен звуковой, разный только смысл (контекст). Так вот мозг сам достраивает соответствие контексту, где в одном случае один и тот же шаблон речи будет восприниматься либо как страх в голосе либо как радость.
Я впервые столкнулся с этим, когда анализировал эмоции в речи. И оказалось что многие противоположенных эмоции в плане звуковых шаблонов одинаковые. Для меня это было откровением и неожиданностью. Тесты показали, что мозг опирается на смысловой контекст + базовые прото-эмоции в звуке. Прото-эмоции это не страх, радость и другие - это тревожность, волнение и другие базовые. И при анализе мозг уже выстраивает общую картину об эмоции на основе этих двух факторов: базы в звуке и смысла в контексте. Но только по голосу ни какого страха определить нельзя. Достаточно взять речь на неизвестном языке (например я не знаю итальянский) и нельзя точно понять ругаются там или с каким то волнением рассказывают новость.
И Сбер это продает как сервис для коллцентров для оценки звонков клиента. И пофиг, что им на примере показали что это не работает, и что можно определить реально.
Так что gigachat с их бенчмарками не вызывает ни какого доверия.
Мы же говорили о GPU. О каких конкретно разных задачах идёт речь?
В ray serve можно запускать готовые LLM. Загрузив их через 20-30 строчек кода и получив при этом возможность автоматически распараллелить и видеть логи llm через мониторинг.
Или вы имеете ввиду не совсем LLM, а обертки вроде Gradio? Если так, то gradio ближе к обычным cpu серверам, а gpu лучше выносить отдельно. Если конечно один gpu сервер, то разницы нет. Но тогда и k8s избыточный.
Хочется понять, когда k8s оправдан с gpu, против ray serve. Не могу придумать ни одного сценария. Какие сценарии вы видите, в которых k8s с нейронками даёт преимущества или делает то, что не позволяет делать ray serve? И при этом k8s не избыточен.
Надо смотреть сколько стоит такая сборка. А то я до этого собирал их ноги birdbot. Так там один серво стоит 70 тыс руб, а их надо 4 шт. Вот этого https://youtu.be/PXXdaqseHis
Только одного почти дособирал, осталось пара моторов, а тут беркли уже нового. Но по сравнению с их прошлой моделью birdbot - текущая не очень впечатляет как ходит.
Проблема этих opensource проектов пока в том, что все они при сборке очень дорогие. Тут только печать занимает несколько месяцев, и не считая затрат на все остальное. Пока соберешь, оказывается что там куча недостатков и на видео все красивей.
Все они требуют множества дорогих моторов. Пробовал печатать разные разновидности моторов, но их надо потом встраивать и значит переделывать корпус и механику.
Но все равно классно, что появляется множество таких открытых проектов. Жаль что в наших вузах, таких не делают. Китайцы быстро собирают на базе opensource и потом продают на алике/алибабе за 0,45-1,5 млн руб. Хотя сборки робособак так на разный вкус от 10 тыс руб до 200 тыс руб. на основе тоже opensource.
Какие преимущества у разворачивания в k8s моделей перед ray serve?
Надеюсь что гугл сделает такое
https://habr.com/ru/articles/905454/comments/#comment_28239034
Я не потянул такое содержать, чтобы развернуть публично. Слишком дорого обходится сервера, а в платных подписчиков веры как то у меня нет. Надеюсь гугл доведет свое до ума.
У Сбера вообще gigachat max 2 как был тупым у lite, так и остался тупым в новой. Только воды больше льет. Не понимаю, что они постоянно в статьях бенчмарками хвалятся и сравнивают. После этого пропадает доверие ко всем этим бенчмаркам. Так как по факту модель осталась очень глупой.
У Яндекс получше с этим. Но тоже слабо.
Это ладно. Она легко ломает уже рабочий код. Недавно решил задокументировать его, попросив написать к нему комментарии, описать параметры, что делает класс. Потом смотрю, класс перестал работать. Потратил кучу времени, на то, чтобы сопоставить что она сделала. Оказалось, что она внесла в код небольшие изменения сама (просил только комментарии) и все перестало работать, логика сломалась. А ещё может переименовывать переменные и объединить что то и все, ищи потом ошибку.
Это касается сложного кода. Хотя даже из простого может выкинуть что то, упростив код.
Плюс, заметил, что сетки не вникают в код, если рядом комментарий. Пофиг, что он старый и уже не отражает логику. Например, есть тензор [batch, num, hidden_dim, seq_len]. В коде в прежней строке мы к нему приводим. Но остался старый комментарий, что тут # [batch, dim, seq_len]. И сетке пофиг на логику, она считает что информация из комментария важнее и строит логику на этом.
Поэтому с ними надо аккуратнее. Пока они очень тупые. И не могут держать разные контексты (логика кода и комментарии например) и переключаться между ними.
Я выложил полностью новый механизм обучения.
Вы можете посмотреть его в папке backward
https://t.me/greenruff/2257
Он применим к любой архитектуре. Там есть все, от примера выше до реализации обучения по блокам глобальной ошибке с учётом обучения локальной ошибке
Граф памяти и слои = нейронные сети мозга:
В реальном мозге нет разделения на графы памяти в виде чётких слоёв. Ассоциативные зоны не являются базовым слоем памяти. Память распределена сложнее: участвуют кора, гиппокамп, миндалины и многие другие структуры. И связь между ними — это не просто "слоистый граф", а динамическая сеть с параллельными и перекрёстными путями, обратной связью. модуляциями.
Один нейрон = один элемент памяти ("нейрон бабушки")
Концепция «нейрона бабушки» — это уже давно опровергнутая гипотеза. рекомендую посмотреть лекции Роберта Сапольского, где где то с 15-23 лекцию рассказывается об истории бабушкиного нейрона. Память распределённая, иначе потеря одного нейрона стирала бы целую память.
Перемещение активности по графу
Вы упростили это понятие до примитивизации. Передача сигнала включают обратные связи, модуляцию, торможение и нейромодуляторы, ритмы.
Вы ввели КУ1, КУ2 — время воздействия/пропускная способность
В реальности время передачи между нейронами фиксировано и зависит от типа нейрона, а не от "суммарного времени воздействия".
Типы элементов — типы нейронов
Да, в ассоциативных зонах есть разные типы нейронов, но их классификация сложнее — интенсификаторы, модуляторы, тормозные клетки и так далее.
Про пирамидальные нейроны - это всего лишь один тип нейронов, и во многих областях их может не быть совсем или очень мало. Их задача связать соседние колонки или дальние колонки (другие области). В тех же ассоциативных областях есть звездчатые нейроны. А кроме ассоциативных областей, есть другие, которые так же обобщают сигналы и там могут преобладать другие типы клеток.
Миндалина = распознавание паттернов
Миндалевидное тело не занимается распознаванием паттернов в общем смысле. Оно участвует в оценке стимулов. Распознавание паттернов происходит в сенсорных и ассоциативных корковых зонах. А амигдала делает оценку этого распознанного стимула (от начальных рефлексов, до более сложных).
Инстинкты-паттерны, передача возбуждения
Нет такого понятия как "инстинкт-паттерн" в нейробиологии. К реальной модели мозга отношения не имеет.
Паттерновое привыкание как стабилизация синапса
Стабилизация синапса действительно происходит при долговременном потенцировании (LTP), но вы делаете из этого прямолинейные выводы о "выключении" из инстинктов, чего нейробиология не подтверждает.
Подкрепления = нейроны мезокортикального пути
Мезокортикальный путь, например дофаминергические нейроны, участвуют в обучении через подкрепление. Но "подкрепления появляются в результате срабатывания обучающих инстинктов" — вы путаете причины и следствия. На самом деле речь идёт о системах оценки вознаграждения (VTA, nucleus accumbens, PFC).
Дофаминовая яма
Депрессия включает множество факторов, не только дофамин. Посмотрите лекции Роберта Сапольского, там целые лекции посвящены этой теме
Как итог, вы используете термины нейробиологии, но смешивает их так, как вам удобно для построения своей модели, без соблюдения реальных функциональных связей. Делаете необоснованные аналогии типа "миндалина = распознавание паттернов", "один нейрон = один элемент памяти", "пропускная способность синапса" и т.д. Местами цепляетесь за реальные факты (пирамидальные нейроны, клетки места, дофамин), но выводите из них неправильные следствия.