Pull to refresh
58
0.6
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

Send message

Вчера полез смотреть, в чем именно отличие архитектуры DeepSeek

https://planetbanatt.net/articles/mla.html

Они и вправду неплохо оптимизировали саму архитектуру за счет изменения матрицы механизма внимания через ее разложение(был MHA  стал MLA ). Где в принципе получаются две более простые матрицы. При этом они сделали их сжатие по rank (размеру матрицу), что отчасти приводит к потере информации. Но теряется как раз менее значимая информация, которая как раз ближе к шуму.

А так же совместили это с RoPE для кодирования позиционирования слов.

Так что теперь понятно, почему компании в штатах начали суетится. Дело не в данных и крутизны модели. Данная архитектура должна быстрее обучаться (так как разложение матрицы отбрасывает слабые значения - то есть шум), съедает гораздо меньше памяти и делает больше упор на вычисления GPU вместо ее размера. Это означает более быстрое обучение модели (откидывает шумные данные), меньше требования к памяти видео карт и их мощности.

Все обвязки строятся на том, что LLM знает структуру БД. Я это учитываю конечно и сначала скармливаю ее. Без этого результат еще хуже. Но это не панацея. Как я уже сказал, там несколько проблем на уровне самих LLM.
1) они на больших запросах легко выкидывают детали, особенно после нескольких итераций обработки
2) есть некоторые момент перевода с которыми они просто не справляются и ходят по кругу. Для примера динамические запросы для отчета:
with Roles as (SELECT [SELECT_UNION_BY_NAME] FROM WP_ROLES ts WHERE QMS$DELETED = 0 AND BRANCH_ID = 0 [PARAM_ROLES_FILTER]) select @name = RTRIM(ISNULL@namee, '') + ',[' + [VARS_UNION_BY_NAME] + ']'), @sum_name = RTRIM(ISNULL@sum_namee, '') + ', sum([' + [VARS_UNION_BY_NAME] + '])') [PARAM_VAR] from Roles order by [ORDER_UNION_BY_NAME]

где она не может конвертировать правильно

SELECT string_agg('"' || rservices."SERVICE_NAME" || rservices."SERVICE_ID" || '"', ',') INTO val_name FROM ( SELECT DISTINCT LEFT("S"."SERVICE_NAME", 120) AS "SERVICE_NAME", "S"."SERVICE_ID" FROM "SERVICES" "S" WHERE "S"."QMS_DELETED" AND "S"."BRANCH_ID" = 0 AND "S"."SERVICE_ID" > 0 [SR_SERVICE_ID] ) rservices;

причина в том, что она пытается конвертировать сразу два параметра в одном запросе. Но в PG нельзя так использовать два string_aggи надо разбивать на два запроса. И тут LLM входят в бесконечный цикл. Пытаются исправить ошибку и снова приходят к этому же ошибке. И только когда ручками укажешь что надо разбить, они это делают.

И таких проблемных мест очень много там. Так что не верю что там делает LLM. А Миграционные программы из MS SQL в PG я и так использую, которые и без всяких LLM отлично справляются с большой частью данные и заодно еще правильно могут сконвертировать значения некоторых полей. Но вот только он не могут конвертировать хранимые процедуры и функции.

Например тут, при растягивании в слове молоко , вторая О не тянется, так как на уровне звука ЛО это один звук, который мы не может растянуть в данном случае.

https://t.me/greenruff/2007?single

Поэтому токенизация изначально играет важную роль. И не совсем понятно, до какого момента нам надо кодировать буквы и их сочетания, чтобы обеспечить полное соответствие речи (и следовательно текста, как производного от речи).

На самом деле вы подняли хорошую тему начальной токенизации данных.

У людей там сложнее. Так и буквы и сочетания букв и даже целые слова. То есть все, что встречается чаще всего после обращения звуков в зоне А3 слуховой коры.

Современные модели используют два подхода в основном (если я правильно помню). Они все сводятся к частоте сочетаний букв, по разному правда но итог один и тот же. Но у людей эти сочетания основаны не на тексте, а на связях со звуками. И тут интересно и не до конца понятно. Например, недавно я исследовал речь и оказалось что некоторых "букв" в слове нет, а некоторые звуки это вообще сочетания букв.

Например, я анализировал разное произнесение слова молоко. Оказалось, что в одних случаях есть отдельно звук М и О или Л и О, а в других есть отдельный звук МО и отдельный ЛО. То есть на уровне звука их нельзя разбить на буквы. То есть формально, это должны быть отдельные буквы. Но мозг их связывает с последовательностью М - О. То есть не считает их отдельными буквами, а считает их двумя буквами МО/ЛО.

К чему я это. При токенизации должны быть закодированы и отдельные буквы и их сочетания. Я не совсем понял, в вашем случае как я понимаю изначально токенизация не учитывала какие то сочетания и поэтому не могла правильно их интерпретировать? Или проблема была другой?

Делал не так давно разбор, как появился тональный и нетональный язык.

https://t.me/greenruff/2034?single

Достаточно посмотреть, чем это было обусловлено биологически. Сейчас конечно произошло много заимствований друг у друга и нужно время, чтобы новые слова в каждом языке приняли оптимальную форму.

Но изначально тональный язык был про:

  • Передачу сигнала в водной среде

  • Для быстрой передачи сигнала на суше, так как использование тона для одного слова позволяет ускорить передачу сигнала

  • Нетонический сигнал, так же был связан со средой и послужил основой для многообразия сложности языка и грамматики. И упор на точность передачи информации, чем на ее скорость.

  • В основе лежит механизм оптимизации затрат энергии на артикуляцию.

Сколько я использую разные LLM, пока ни одна не может нормально справиться со сложными SQL. Хуже только то, что они забывая контекст начинают выкидывать из него детали (какое то сравнение или условие в WHERE и так далее). Ну и самое главное - они справляются с простыми запросами. Тут либо Uber в отчетах врет и хотелось бы посмотреть конкретные примеры и разборы от их разработчика. Либо там SQL очень простой без сложных запросов и хранимых процедур (в чем я сомневаюсь).

Я сейчас мигрирую с Microsoft SQL Server на PostgreSQL, и могу сказать что LLM на сложных запросах безумно тупят. Вы получите на выходе совсем не то, что было изначально. Опять же речь про сложные процедуры с кучей деталей. К простым вопросов нет. То есть когда идут отличия на уровне SQL команд, вот тут начинается сложность и LLM совсем не справляются, даже если указывать им возвращаемые ошибки. И я говорю про сильные LLM.

Почему LLM выбирают слова случайно, а мозг – осознанно?
Почему LLM выбирают слова случайно, а мозг – осознанно?

Только сегодня как раз закончил описывать в чем ОДНА из проблем галлюцинаций LLM https://t.me/greenruff/2090

Разбирал работу таламуса и там как раз связи привели к тому, что в LLM выбор слова происходит случайно через top-k/nucleus sampling, а в мозге через механизм внимания. Где модуляция сигнала происходит от ядер таламуса (фильтрация важной информации) и ряда зон мозга. То есть выбор слова из множества не случайный, а зависит от того какое слово в множестве будет усилено.

Странно, что я раньше не додумался до такого очевидного. Только когда буквально по клеткам и связям досконально разобрал сигналы. Хотя сейчас это кажется очевидным. Ведь новое слово выбирается на основе механизма внимания. Так почему конкретное слово из этого множества должно опираться только на диапазон вероятностного распределения, который задается температура? Нет и не должно там быть случайного выбора. Все тот же механизм внимания, только теперь не к выбору последовательности слов, а к конкретному слову из множества слов на выбор. Пришел сильный сигнал от эмоциональной нейронки? Значит выбор будет в пользу эмоционального слова. Пришел выбор от зрительной? значит выбор будет в пользу слова близкого к зрительному образу и так далее. Зависит от того какие дополнительные модели (зоны мозга) будут оказывать влияние на выбор механизма внимания при выборе слова из множества.

В мозге есть механизм, аналогичный обратного распространения ошибки. Так как это просто механизм минимизации энтропии. Весь мозг механизм на том, чтобы минимизировать энтропию.
1) Ингибирующие интернейроны - через механизм торможения и усиления, влияют локально и глобально на различные нейроны. Модулируя их сигнал и влияя на него. Так же там есть специальные клетки, которые доставляют питание. И они нацелены минимизировать затраты на энергопотребление, чтобы снизить энтропию.

2) в мозге все кишит механизмом обратной связи. В нем есть и аналоги dropout или batch normalization. При чем именно dropout или batch normalization - это урезанные версии биологических механизмов. Я сейчас заменяю некоторые механизмы в некоторых зонах на их урезанные аналоги в виде dropout.

DeepSeek лишь показал, что он обучился на какому то общем тексте в интернете. И в реальности, выдал вам то что вы просили в том ключе. Попросите его покритиковать, то что он выдал и он выдаст вам уже противоположенные аргументы.

Я уже молчу про то, что в нейронках пока не реализованы релейные нейроны. Это особые нейроны, которые могут переключаться в два режима под воздействием механизма внимания. Первый обычный и второй импульсный. Эти нейроны, в отличие от привычным нам - не искажают сигнал. То есть он был на входе 1, и на выходе он будет 1. 1 -1 -1- 1 - 1 (а у обычных нейронов тут будут веса). У него особенность в том, что механизм внимания (Ингибирующие интернейроны) усиливают или ослабевают сигнал и получаем например так 1 - 1 - 1 - 0.5 (торможение сигнала) - 0.5 - 0.5.. Этот механизм играет огромную роль, так как играет роль фильтра. Это Таламус. Второй его особенностью является импульсный режим, когда он усиливает сигнал за счет его повторения был 1 и стал 1 1 1 1 при этом за то же самое время. Это позволяет мозгу обратить внимание на данный сигнал. А так же создает тета ритму ( 1 1 1 1 это 4 сигнала на время T) и гамма ритмы - повторение тета ритмов. А ритмы играют важную роль в сихронизации данных и выделении важных фрагментов (то что сделано в трансформерах на уровне выделения ключевых слов - это те самые ритмы через косинусы и синусы задающие позицию на вход в трансформер).

Все что описано выше делают и нейроны мозга. Или они что, работают последовательно? Все нейроны работают независимо друг от друга одновременно. Включая зрение.

В реальности, самые крутые нейросети по работе с изображениями копируют работу биологии. Просто у них нет ограничений размеров, энерго-эфективности. Например, Swin Trasformer реализует пространственную графовую модель механизма внимания, как это сделано у людей. Механизм внимания - attention, так это основа всех биологических слоев. Ингибирующие интернейроны, это клетки модулятора. Это и есть механизм внимания. Он не изменяет сигнал напрямую. а модулирует его через торможение или усиление.. Выступает в роли регулятора.
Он модулирует активность нейронов, усиливая или ослабляя их реакцию на определенные входы за счет влияния на апикальные дендриты пирамидальных клеток.

Таким образом- информация не уничтожается не убирается, но отдельная важная усиливается или ослабляется.

Тоже самое касается самих трансформеров в целом. Там можно все механики разобрать и показать как они копируют биологические.

У человека есть множество зон, которые гораздо важнее для выживания. Тот же таламус, огромный модулятор с множеством ядер. Где каждое ядро обучается фильтровать сигналы, и через механизмы внимания каждое ядро влияет на другое. И затем уже сигнал поступает на верх. Так как человеку важно, температура тела, боль и так далее. Как только решать сетки встроить в робототехнику, теже самые проблемы всплывут и так.

Можно убрать какие то зоны. Можно улучшить какие-то, так как они все развиваются по нескольким сценариям. Так как мы не ограничены тут физическими размерами зон мозга и энергоэффективностью. Но сами механики, все равно остаются те же самые.

Я не говорю о том, что нейронные сети плохие. У них ест свои преимущества. И вы выделили очень важное, это возможность сохранения данных. Нет биологической деградации, так как всегда можно заменить оборудование. Это огромный плюс.

Поэтому я указал на разницу в самом механизме. Который говорит о том, что сетки еще долго будут развиваться. То что у них есть задел в итоге обойти человека по всем параметрам - это да. Вопрос в энергоэффективности только.

Например, я сейчас переношу на нейронные сети архитектуру кохлеарного ядра. Оно первично у слуха, и выделяет закономерности в интенсивности сигнала. Позволяя усиливать/ослаблять интервалы, выделять паузы. помогает дальше для определения в пространстве истопника звука (в других зонах). И вот уже буквально тут есть архаичная реализация зоны VCN и DCN. VCN - для анализа низких частот, а DCN высоких частот. DCN немного сложнее, требует больше ресурсов, так как ее задача как раз помогать определять сигнал в пространстве по интенсивности. На ней основана эхолокация. У человека DCN слабо развита, не было потребности. А VCN вообще очень простая, так как требовалось лишь быстро сделать анализ интенсивности самым простым способом. Мозг не развивал у людей, так как нет потребности и нет места для роста этого участка (не в ущерб другим зонам). У нейронных моделей таких ограничений нет, и можно сразу эту часть проектировать сложной, на уровне эхолокации. Что позволяет искусственному слуху лучше распознавать не только речь, но звуки, которые он до этого не слышал (звуки эхолокации дельфинов, летучих мышей, сов).

Так что, нейронные сети будут развиваться и вероятно в будущем обойдут людей по всем параметрам. Но, при рассмотрении механизмов работы зон мозга и LLM, последние пока реализовали лишь несколько базовых вещей. Важных, но не достаточных для возведения их пока на Олимп.

Здесь дело не первом попавшемся ответе.

У человека есть механизм разделения на локальные и глобальные маршруты. Когда вы просите быстро ответить, то лимбическая система доминирует (сильное волнение) и выдаётся ответ локального маршрута (эмоциональная , сигнальная речь).

Для генерации глобальных маршрутов мозгу нужно больше времени и дофамин (мотивация), который усиливает переключение на глобальные маршруты. Которые как раз и связаны с глубокими знаниями человека, связью различных зон мозга.

В случае LLM, причина другая. У нее всегда глобальные маршруты. (Сейчас пробуют сделать аналог через longformer). И причина llm, в том что она случайно выбирает вариант. В то время как у человека это вариант не случайный, а зависит от влияния других зон мозга или лимбической системы. Получается такая хаотичная система, но не случайная. Хаотичная, потому что предсказать ее нельзя (мы не знаем все состояния сигналов в мозге). Но при этом, и не случайная, так как значение лежит в определенном пространстве вариантов возможных связей с другими зонами мозга.

Так что разница тут огромная , хотя результат кажется схожим.

Пока не будет доработан механизм внимания.

https://t.me/greenruff/2078?single

Говорить о следующем шаге мало смысла.

Так же , речь подобно зрению имеет графовую структуру, но последовательную. Я недавно проводил исследования, пытаясь связать паузы с когнитивными способностями речи, но провал. Зато оказалось, что речь имеет графовую модель, чего сейчас нет у современных LLM.

https://t.me/greenruff/2064?single

Это не решит всех проблем, но сама архитектура трансформеров реализует лишь базовую часть модулятор через атеншен, глобальные маршруты (изначально так построена), ритмы учтены только на уровне частоты слов.

Поэтому, жду изменения архитектуры в корне. Тем более что первые сдвиги есть SSM и longformer.

Вы правильно написали, llm это ПОСЛЕДОВАТЕЛЬНАЯ модель. Так как информация формирует последовательный граф со связями (речь разделенная паузами). Но например зрение это пространственная модель, которая позволяет связывать последовательные цепочки между собой. LLM частично реализовала последовательную модель, но не способна связывать две последовательные модели, чтобы находить закономерности. Поэтому llm не может связать закономерности в химии с закономерностями в физике. Или даже в рамках программирования. Поэтому ограничения LLM, это архитектурные ограничения. Объем данных, какие то дополнения - принципиально проблемы не исправят.

Здесь надо сочетание как последовательной модели llm, так и связь с пространственной моделью. И нет, это не решит проблему AGI, но без этого шага llm на новый уровень возможности не перейдет.

Но кое что в llm сейчас мелькает в плане прогресса, это разделение механизма внимания на длинные и короткие маршруты. Как это делает лобная доля (тот же механизм внимания, только больше), переключаясь между локальными и глобальными маршрутами. Локальные в пределах одной зоны мозга (например для речи это в основном эмоциональные фразы), и глобальные которые длинные и могут проходить через несколько зон мозга. Но это пока в зародыше у llm, и лишь позволит снизить ресурсы и ускорить, но принципиально проблему не решит.

Так я к компании отношения не имею. Просто рассказал, что вероятно в случае большой компании и хорошего юридического отдела, выгоднее решать дела через такие компании. Так как они должны взять на себя проблемы и растаможки, и сроков и остальные. И если компания не уложилась, то отдел юристов стрясет у них неустойки. Насчет ошибок, согласен.. обычно закладываю ~3-и итерации на доработки партии, и соответственно первые идет скорее штучно, и ближе к 3ей уже больше (когда вроде больше косяков не нашли).

У меня было один раз когда запороли партию, так как чип поставили не тем боком. Предложили прислать обратно , чтобы они переделали. Я посчитал, решил что мне быстрее и проще простить их, а взамен они изготовят меньшее кол-во но переделают правильно. На том и сошлись.

С нашими компаниями работал только с резонитом. Что то Резонит все же делает в РФ. Но конечно разница в цене получается слишком большая для меня. Я думал что сроки в этом случае будут быстрее, но нет, из система обработки заявок может занять неделю или две. В то время как с Китаем я обговорю все за день, тут же оплачу партию и завтра они уже начнут делать.

Я лишь предположил, что в договоре можно прописать неустойки и прочие вещи. И потом через суд требовать. Но это для крупных заказчиков.

И да и нет. Я предпочитаю заказывать изготовление плат в Китае, но порой они могут другой стороной припаять чип и это становиться головной болью. Плата частично работает, а частично нет. После разборов, китайцы предлагают отправить платы им на переделку. А это время, накладные расходы на логистику. В такой момент фирмы прокладки имеют смысл, как страховые компании. По принципу решайте проблемы с китайцами, следите за ними, это ваша теперь головная боль, а у меня в договоре указан срок с вами и неустойки. Но я пока не так богат, чтобы мог на небольших тиражах так не экономить. Поэтому сам заказываю и решаю головную боль с Китаем. Решением будет либо огромная партия, либо посредники объединяют несколько партий в крупную и тогда больше рычагов давления на китайцев. Иначе, косяки там постоянно у них, от срыва сроков до неправильно припаянных чипов.

Все что вы пишите, то что так же говорили и писали про AR в свое время, про крипту (веб3, ICO, и прочие вещи), VR, теперь про сетки. Сетки полезная вещь, но там до полноценного развития еще не один десяток лет. В том состоянии как сейчас, это очень ограниченный инструмент. При чем самые "продвинутые" сетки очень тупые. И дело не в объемах данных, или обещаниях. Дело в архитектуре самих LLM. Это последовательные предсказания, которые в своей основе просто не могут связывать параллельные предсказания. Текст как и речь построены на последовательных графах пауз, а например зрение на пространственных графах. Где каждые уровни дают разную детализацию. А механизм внимания - позволяет переключаться между разными уровнями. Так вот сама архитектура последовательных предсказаний - не позволяет по ним делать пространственные предсказания, связанные друг с другом. А по простому абстрактное мышление. Поэтому сейчас сетки не могут нормально работать ни с кодом, ни с БД... все что получается это очень примитивно.

Вопрос веры - это религия. Эмоции всегда мешают посмотрет на вещи под другим углом. И не важно - религия бога, или вера в нейронные сети, крипту, VR или что то еще. LLM хороший инструмент - классный, но весь хайп не стоит конечно тех денег. Он строится ради капитализации компаний. Пройдет хайп - будут новые инструменты на основе LLM и мешура спадет. И дальше годы улучшения. А компании уцепятся за новую "веру" людей про роботов, нейро чипы или что то еще.

А зачем кому-то верить на слово. Верить или не верить. Нейросети превращаются в какую то религию. Если тесно не работать с ними и не развивать их, то выбор стороны значения не имеет. Я лишь указал - то подобный пиар был и раньше, это не вопрос к технологиям и веры. Для них это напрямую связано с капитализацией.

Как мне это все напоминает бум AR, когда статьи про световые поля, пространственные вычисления и другую ерунду от magic leap (привлекшей тогда 2 млрд$ на обещания), google их преувеличенным маркетингом google glass, и куча других подобных пиаров. Более сотен стартапов делающих очки, огромные инвестиции, обещания. Ещё больше тех, кто делал будущий софт, притянутый за уши в этой сфере.

Затем VR и крипта. Сейчас время нейронок и все 1 в 1. При этом все перечисленное важно, но настолько переоценено.

Не будет в нейронках ни завтра, ни через 5 лет бегающих разумных, да даже виртуальных систем.

Тех, кто ни разу не пытался понять, что делают сетки, в чем их проблема. Как делает мозг, почему отличается и в чем. Будут как и в прошлом кричать о новой эре.

Я сейчас шаг шагом, разбираю в чем отличие конкретных сеток и зон мозга, чтобы изменить архитектуру. И сложность даже не только в понимании (сейчас накоплено много исследований, на основе которых мы можем понять и трансформеры как аналогию и разобрать разные реальные зоны мозга на архитектуры), а том что очень много разных важных функций. Для примера распознавание речи. Сейчас из всей цепочки по сути реализовали зоны слуховой коры и то криво. А в реальности, при разборе зон мозга мы видим, что сначала спектр делиться на интервалы. Дальше кохлейное ядро работает с интенсивностью, чтобы выделить паузы, динамику интенсивности, и другие мелочи. При этом две зоны (сетки), где одна быстрая простая для низких частот и другая немного сложнее для верхних частот (чтоб детализировать интенсивность, для эхолокации например или других моментов). Затем зоны определение звука в пространстве и так далее. Где уже в систему распознавания приходит сигнал с множеством доп информации о положении, ритме, темпе, паузах, интенсивности, типе звука и так далее. Что позволяет распознавать речь в шуме, выделять ее, отличать качественно. А ни как сейчас Whisper, шаг в сторону и перестал работать.

Я часто слышу, что можно продавить мощностями и деньгами. Нет, нельзя! Мозг все равно придется включать и пытаться разобраться. Поэтому тут прежде всего требуется кропотливо изучать и переносить. А это долго, требует времени прежде всего , а не денег. И на сегодня это почти не делают.

Можно потратить триллион долларов, скормить всю информацию в мире и выхлоп будет 0.

Текущие LLM прежде всего показали, не свой интеллект. Он у них низкий, так как построен на частотной выборке слов + механизмов внимания усиления связей между частотными словами. В нем нет на сегодня ни пространственного абстрагирования, ни реальной модели кратковременной памяти. Так вот, текущие LLM на самом деле показали, что в среднем интеллект людей очень низкий и за несколько тысяч лет развился слабо.

Не может абстрагировать и не могут такое составить, так как для этого надо понимать с чем сравнивать. В этом и есть смысл абстрагирования, когда ты видишь общие закономерности например на уровне физики и биологического процесса и на молекулярном уровне. Нейронки на трансформерах по своей природе не могут это сделать.

Можно сколько угодно приводить бенчмаркеров. Сама архитектура трансформеров последовательная, как язык, так как речь последовательная.

Абстрагирование это пространственное восприятие, которое досталось нам от зрения. Которое не последовательно, а пространственное и связывает разные события друг с другом.

Я на днях мучился с паузами речи, пытаясь с помощью них сделать какую то оценку о языке. Все разбилось, так как в итоге после долгих мучений, заметил что паузы образуют языковой граф с разным уровнем детализации речи. Это схоже с графом детализации у зрения. Но есть одно важное отличие, речь последовательная и граф там тоже, механизм внимания перемещается между узлами чтобы либо найти смысл, эмоциональное выражение, слова, слоги, общение, бит. В то время как у зрения этот граф сложнее, он не последовательный а пространственный (близко к swin сеткам зрения).

Так вот абстрактное мышление , связано с пространственным представлением сеток. У llm в основе трансформеры - это речь, с последовательным представлением связей в виде текста. И хоть агенты, хоть триллион параметров не сделают из llm трансформеров - пространственную модель. Тут надо усложнять архитектуру сеток.

Information

Rating
1,779-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity