Может быть по разному. Каждый может попробовать угадать исходя из своего опыта. Например я видел как может бюрократия полностью сожрать разработку. В малых коллективах творчество, херак херак и в продакшен, куча багов но и кучу нового. Компания растёт - и всё. Приоритетом становятся отчёты. Внедрять новое никто не будет - за ошибки бъют больно. За новшества просто платят зарплату. Главный приоритет у всех становится видимость работы.
Опять же сама архитектура может быть тупиковой. Вон качественный скачок в выдаче псевдопохожей осмысленной речи произошёл благодаря увеличению векторного пространства, до этого был на выходе бред. Никто не знает почему это произошло. Нету теории. И вот опять текущие LLM упёрлись в стену. Тупое увеличение мощностей в лучшем случае не делает хуже, а часто даже наоборот.
Из за того что предыдущий шаг был сделан наугад, без стройной теории, следующий шаг сделать не могут.
Я например вижу противоречии в самом принципе трансформера. Пытаюсь тут время от времени его высказывать. Получаю в карму.
Я не считаю мои взгляды каким то ноухау - вполне внятные алгоритмические претензии. Возможно это тоже тупиковый вариант. Но я например не встречал сегодня что где то ведутся подобные разработки.
Возможно где то в недрах DARPA уже скрестили ежа с ужом LLM с архитектурой SOAR и ACT-R но держат это за 7 печатями тайны.
Там нужно смотреть минимум 4 лекции. По часу полтора - зато реально уникальная информация. Такого качества информации в русскоязычном секторе не найдёте. Если найдёте - буду благодарен за ссылку.
Вообще не претендую на интерпретатора подобных лекций, но всё же могу выделить суть. Там многое сделано наугад, т.к. сами разработчики не понимают сути происходящего (как например нету точной теории сути происходящего в нейронной сети головного мозга, не отдельного нейрона а всех нейронов вместе взятых), зато есть много вычислительных мощностей. Вот и пробуют всё подряд. А удачные решения идут дальше.
Одно из таких решений это придумали так называемые головы - типо ключевые слова в тексте. Один из способов поиска - попросту ищут существительные которые встречаются реже всего. Вобщем пробуют всё подряд и смотрят что получится.
А векторные поля, по сути поля эмбедингов, строятся исключительно только на обучающем тексте. В отличие от человека который имеет дело с реальностью и зрением. И внутренняя структура строится на понятии объектов. Опять же быстрая память - в которой строится текущая модель простанства. LLM же это просто предсказатель следующего слога. Внутри есть чоткий вектор движения типо "мысли" закодированный в эмбединг. Короче много различий с сильным ИИ. Писать опять про различия не хочу.
Опять начинается. Одно и тоже каждый раз. Каждый раз оппонент обвиняет меня в том что я неуч при этом не подкрепляя ничем свои доводы. Я отвечаю. Заканчивается слитой кармой. Надоело.
P.S. Я прекрасно знаю как устроена современная LLM и в частности трансформеры. Я сам писал перцептронные нейросети для распознавания образов. Современная LLM это не веса нейронов в перцептронной сети, хотя там и есть нейронные поля. Современная LLM главным образом это архитектура трансформера. И это вообще не нейроны. А векторные многомерные поля.
Что касается "маркетингово" подсчёта параметров в современных LLM невериете мне, может поверите человеку который как раз и разрабатывает эти LLM прямо сейчас. Вот вам ссылка на свежие лекции. Больше не отвечаю.
Вы читали как они параметры считают? Это достаточно обсурдный показатель. Например на входе у нас есть токенизатор который может дать 100000 всех возможных вариантов. Далее векторная матрица которая также обладает 100000 всех варианнтов. Оно просто перемнажают первое на второе.
Короче берут максимальное количество возможных вариантов в каждом слое и всё это перемножают. Там конвеер например из 10-20 относительо небольших модулей, но перемножение всего этого даёт астрономические цифры.
Короче этот параметр вообще странно сравнивать с количеством соединений нейрона. Это как сравнивать тёплое с мягким.
А вообще я тут часто писал что архитектура современного LLM - трансформер это хороший поисковик но вообще не сильный ИИ. Мне тут за 1 комент сразу карму сливают даже без диалога. Так что зарёкся писать что то.
Понятно что не каждый нейрон столь разветвлён. Когда то давно читал мол какие то специфические могут иметь столько.
LLM говорит что:
Клетки Пуркинье в мозжечке — чемпионы по количеству входных синапсов. Их сильно разветвленное дендритное дерево предназначено для получения информации от сотен тысяч параллельных волокон. Один нейрон Пуркинье может иметь более 100 000 (до 200 000) синаптических входов.
кора от 1мм до 3 приблизительно. Не писал про это уточнение - просто показал соотношение коры и белого вещества. И конечно понятно что нейроны не только в ней содержатся - т.к. кора считается что появилась относительно недавно. В голове есть более древние структуры которые как бы мозг в себе.
Я не собирался спорить по поводу нейробиологии - неблагодарное это дело тут вообще. Просто хотел приблизительно показать в чём принципиальное отличие современных кремниевых микросхем от мясного мозга.
Ответ прост - это невозможно. В мозгу человека нейроны это тонкая прослойка в 1мм в коре головного мозга. Остальная же часть объёма это белое вещество. Аксоны и дендриты. ФИЗИЧЕСКИ соединяющие все нейроны друг с другом. При этом 1 нейрон может содержать сотни тысяч таких соединений. А общее количество соединенений триллионы.
И что же невозможного в этой картине? А то что эти соединения физические каждый день перестраиваются. Сотни тысяч, миллионов появляются новых контактов. И также столько же отмирают.
Как вы понимаете - современная БИС это монолитный статический пирог. А соединения этого гигантского графа - эмулируются.
В современных LLM нашли неплохой метод эмуляции - по средством перемножения матриц из виртуального векторного пространства.
Вы правы если организовать работу под конвеер то можно приблизится к скорости конвеера. Я же в те давании времена паял с позиции радиолюбителя. Один и максимально ручная работа. Паяльных станций и вакуумных пинцетов не было.
P.S. Это времена МП42, планстинчатых трансформаторов везде и трубчатых конденсаторов...
Я занимался растановкой SMD в своё время на прототипах. Был молод и много свободной энергии которую нужно было куда то девать. И скажу так - плата 20 на 20 см со средней рассыпухой будет занимать от дня до 3. А потом ещё и проверять не накосячил где с номиналами. А после серии на плат 10 - месяц сидеть расплавленный припой нюхать - это реально ад. И хочу заметить что паять прототипы - это нудная однообразная работа которая ещё больше усложняет этот процесс. Не путать например с разработка новой платы - это интересно и творчество.
P.S. SMD расставлял маленьким пинцетом
P.S.S. Вы пишите что 1000 компонентов в час. Это примерно компонент в 3 секунды. Я не помню что там у меня занимало время. Но выдрать вручную SMD из ленты на стол. Взять его пинцетом, найти на плате где его припаять, а потом паять это паяльником. Наверно минимум минуту занимает. Микросхемы паять это вообще минут 10 паяльником. При этом периодически надо чистить плату от флюса. А потом наступает очередь выводных компонентов...
Колесо не появилось потому что не существовало дорог. Вот и вся правда. Если бы планета была плоская как дорога - то поверьте, существовали бы тучи всяких живых существ с всякими косными шариками-роликами и даже со смазкой из какой нибудь железы.
Вот за этот комментарий мне какой то альтернативно-одарённый влепил минус в карму. Желаю что бы на этом чудесном сайте остались только статьи сгенерированные ИИ.
Как вы надоели. Я не буду в очередной раз поднимать вопросы что архитектура трансформера и AGI это разные вещи. Потому что не увижу рассуждений на эту тему в подобных рекламных статьях.
Я предложу свой железобетонный способ определения AGI.
Когда ИИ сможет спокойно заменить бабу Клаву на кассе - вот тогда и настанет то самое светлое будущее.
Представьте - чуть ли не половина (а может и процентов 90) населения уйдёт в утиль. Потому что кроме болтологии ничего не делают.
Не надо от AGI никаких нобелевских изобретений. Достаточно что бы просто мог нормально понимать бред очередного тупого мясного AGI.
Сейчас же что имеем? На 1-2 вопроса отвечает вроде норм. А дальше начинаешь видеть что это тупая машина не держащая контекст разговора. А из самой сути трансформера - это бесконечный генератор следующего слога, ответы которого исскуственно надо резать. Либо по размеру ответа либо по стоп токену. Короче если сравнивать детали - то вообще всё не так работает как у человеческого ИИ.
Заинтересовал вопрос - а что же они там собрались такое патентовать? По ссылке следующее:
Технология «Вжух» — полностью российская разработка, на неё скоро будет получен патент. Мы написали свой собственный программный продукт, который работает как на терминале, так и на устройстве пользователя и использует «железное» решение самого смартфона, в частности Bluetooth.
Программу запатентовать нельзя. Железо - телефон, bluetuth и его API нельзя. Алгоритмы как таковые тоже не патентуются. Так что они там патентовать собрались?
Помучал LLM вопросами - и ввод такой. Нельзя патентовать алгоритм. Но можно патентовать способ решения чего то. И само описание этого способа будет содержать алгоритм. И вообще там очень тонкий лёд словоблудия и вилами по воде писнно.
Типо если дадут на лапу повезёт и зарегистрируют твой способ, а в реальности это будет тупое описание программы - которая сама по себе не патентуется.
Так вот самый цирк с конями начнётся далее. Сама программа - может быть изменена 100500 разными способами и на выходе давать такое же поведение. И как отличать новый способ-программу от старого? Если учесть что всё это будет работать на одном железе, на одном bluetuth. С общим API - которое не подлежит патентованию. Мутно это всё.
За то вы хорошо знаете. Воспринимаете как догму и не видите противоречий. Однородность пространства и закон сохранения энергии это аксиомы одного уровня. Они не доказывают друг друга а я являются одним и тем же проявлением. 2 стороны одной монеты. Равномерное движения тела не меняется т.к. физические законы не меняются по ходу движения. Но как мы доказываем что физические законы не меняются? А всё тем же равномерным движением. Раз оно равномерно - значит не меняется.
Я же говорил что сам этот закон - это первичный закон природы. Он не содержит в себе более низкоуровневых составных законов. Может они и есть но не то что вы определили.
Под нижестоящими законами я подразумеваю следующее - например в законе архимедовой силы, главную роль играет гравитация. В центробежных силах - главную роль играет как раз закон сохранения импульса. А вот в законе сохранения импульса (движения, энергии) главную роль играет - "Боженька". Надеюсь что это утверждение временно.
Что по поводу лифта - и вам не мешало бы почитать учебники.
Находясь в лифте можно определить гравитация это или ускорение. Гравитация имеет градиент искривления времени. У пола медленнее идёт. Вот этот градиент и меряем. При ускорении - время у пола не будет отличатся от времени у потолка. Так же гравитация имеет радиальное направление к центру масс. Ускорение нет.
Если создать измеритель с точностью как в эксперименте по гравиволнам то с такой чудовищной чувствительностью и в лифте смогут найти эти отклонения гравитации.
P.S. За сим откланиваюсь. Мне тут лупят только минусы. Нету никакого желания что то дальше тут писать. Хотел написать рассуждения по теме однородности пространства, чёрные дыры там, тёмная материя, как хорошо нет ОТО работает в квантовой физике, но чувствую меня тут вообще разорвут.
Проблема в том что формулы НЕ отвечают на этот вопрос ВООБЩЕ. Физика это как раз формулы. Формулы просто могут дать расчёт одного от другого. И всё. Для физиков это аксиома настолько используемая что они вообще не упоминают этот факт в рассуждениях.
И на этом недопонимании существует армия полу-физиков, блогеров, ютуберов. Которые говорят что всё объяснено - формулы есть. Они точны. И ВСЁ объясняют.
Стоит тебе робкий вопрос задать - а что именно они тебе объясняют. Тебя жёстко гнобят, обзывают альтернативщиком (что бы это не значило), и загоняют в минусы. Мне пофиг на минусы - мне не пофиг что я потратил время на писанину, а выхлопа 0. Никто из минусующих не ответит на мои сомнения и вопросы.
Вон ниже вообще разделили физику. Которая и не должна что то объяснять. И философию - которая пытается объяснять но признана лженаукой, т.к. не оперирует математикой.
Как по мне философия должна оперировать логикой. Если физическое явление объяснено логикой и не придраться ни с какой стороны, то это определение и будет истинно. Если логика хромает или вообще отсутствует - то это определение лишь гипотеза. Ждущая появлению новых фактов которые либо подтвердят гипотезу либо опровергнут.
Тут могут придраться -а что же такое логика? Логика это набор фундаментальных правил основанных за наблюдением реальности. Аксиомы реальности. Ну например. Закон сохранения импульса. Физическая аксиома, насколько я знаю нету более глубокой теории объясняющий сей факт на более низком уровне. Набор таких наблюдений-аксиом будет создавать фундамент логического объяснения.
В противоположность этому - математика, это чистая абстракция. Где к числам привязаны реальные физические явления. И допуск того что операции с числами - прямо проецируются на реальность. Математика настолько гибка - что в ней можно очень легко натягивать сову на глобус в любой ситуации. Если что то не совпадает, попросту навешать поправочных коэффициентов или вообще выдумать несуществующие понятие.
Как пример комплексные числа - это пример антилогики. Но так как это математика, можем нафигачить кучу таких антилогичных понятий, главное что бы в выводе это всё сократить согласно математическим законам.
Гибкость математики - не равна гибкости реальности. Как по мне это будет одна из аксиом в логике.
Подвожу итог. Всё моё возмущение вызвано фактом что я хочу больше логики в объяснениях. А противоположная сторона говорит - философия (лженаука) не нужна. Достаточно только формулы.
С начала накатал тут порятнку по устройству LLM, про ОТО, а потом удалил. ДА кому это надо.... Кроме минусов ничего не будет. Вывод пожалуй только оставлю.
Меня тут прям постоянно называют каким то альтернативщеком. Мантра такая походу. Повторяю - я не предлагаю никаких новых теорий. Я не опровергаю ОТО. Я вообще физикой не занимаюсь - просто мне интересны всегда детали. Проф деформация программиста.
Я просто вижу конкретно для себя (для построения внутреннего видения устройства мира) - объяснение реальности (не математика) это гипотеза не имеющая доказательств. Есть ряд наблюдений. По типу замедления времени. На эти наблюдения наложили математику. Но что мы получили ? Просто зависимость массы объектов на коэффициент замедления времени. Как это объясняет реальность? А ни как. Объяснение реальности - это просто отдельное объяснение.
Оно даже не говорит что первично гравитация порождает искривление времени (в таком случае гравитация это поле), либо искривление времени поражает гравитацию. Уравнения симметричны. Оно вообще не объясняет почему искривление времени порождает гравитацию. Просто на сегодня из наблюдаемых фактов есть гравитация, замедление времени. Всё! (основные наблюдения, есть и второстепенные) Значит надо натянуть сову на глобус и объяснить одно другим. Даже порядок что чем объяснять - не удосужились как то обосновать.
Даже попросил найти минусы в моём ответе у LLM (ща за это я тут реальных минусов нахватаю, потому как использовать LLM - это позор). Короче приведу одну строку которая мне понравилась. Так как чуть чуть расширяет мой кругозор.
Ваше требование "объяснить реальность" — это требование не к физике, а к философии. Физика создает инструменты, философия — их интерпретации.
Ну к счастью мы живём в век LLM которые собрали и аппроксимировали за нас все эти статьи.
Я за 10 минут порасспросил и про то почему нейтрино видно в воде - они бьются в ядра вызывая черенковое излучение, и как устроены детекторы в измерители гравиволн - измеряют отклонение фазы лазера, и как определили что это не шум - штук 10видов шумов включая местное изменение гравитации - туча сверху прошла (а туча может весить огого), почему нейтрино не могут вызывать искажения в детекторах - потому как сигнал имеет чёткую форму "чирп" и что был случай когда сначала волны пришли а потом от туда уже и весь спектр всяких излучений при как при слиянии чёрных дыр. Узнал что теория про грави волны это лишь наиболее распространённое предположение укладывающееся в формулы ОТО и что при желании можно натянуть сову на глобус.
Короче за 10 минут - узнал тучу инфы которую особо и не хотел знать. Вернее я и так знал что вы сказали - глубоки объяснения природы это почти всегда гипотеза. Я не против гипотез. Я против того что забывают что это гипотеза и готовы сожрать любого кто например косо посмотрит на ОТО. А математика - это просто математика.
Единственно непонятно - почему с наличием LLM кто то ещё пытается что то объяснять поверхностно и неинтересно.
P.S. Допуская что есть вероятность что некоторые фундаментальные вещи не объяснить более глубокими фундаментальными вещами, т.к. они могут быть попросту первичными кирпичиками природы.
Спросите у LLM - вам ответят на все ваши вопросы. Можете скинуть свой пост целиком и увидеть экспертное мнение.
Что касается гравиволн я например и без LLM знаю как их ловят. Тупо ставят 2 перпендикулярных лазера и на расстоянии смотрят какой из них запаздывает какой нет. Отталкиваясь что мол скорость света ни при каких обстоятельствах не может изменится - значит сжимается пространство.
Но как по мне я с вами согласен. Всё это зиждется на настолько малых фактах что можно напридумывать ещё кучу всяких теорий. Что учёные с удовольствием и делают.
Я вот всегда возмущаюсь почему досконально не рассказывают про устройство экспериментов. Ловят в тех же поисках гравиволн всякие нано и пико отклонении во времени, но на таких масштабах на детекторы может повлиять вообще что угодно. Поток каких нибудь нейтрино. Знаю знаю - нейтрно может пролетать звёзды насквозь не задерживаясь, на то они и нейтрино. Но вот детекторы человеческие (тупо басеин воды) какие то нейтрино не пролетают. Чудо -чудное.
Весь смысл векторов что они лежат рядом друг с другом по смыслу. И типо если взять координаты вектора "столица Парижа" то по идее по соседству будут лежать координаты всех других столиц.
Это как бы основа работы LLM. Она берёт рядом стоящие вектора и складывает слоги из словоря по этим векторам. И получается псевдо интеллектуальный текст полученный вообще не интеллектуальным путём. В этом и есть чудо!
И весь спор в том - считать ли этот новый путь интеллектом или не считать. Потому как сама работа получается путём перемножения матриц.
В мясном же ИИ - работа заключается в передачи частотно изменчивых импульсов от нейрона к нейрону. Инфа передаётся количеством импульсов от конкретного нейрона. По типу вогнали иглу в нейрон и он начал выдавать 100 импульсов в секунду. Вместо 1.
Короче архитектуры вообще разные. На выходе вроде что то одинаковое.
Но что меня вообще выбивает из колеи что вектора не содержат понятие парижа и прочего. там будут просто объёмные области векторов которые будут в себе содержать размазанное понятие Парижа. И в зависимости с какой стороны придёшь можно на выходе получить что угодно. Вобщем я не до конца владею деталями. Сейчас как раз изучают тему подробно. Хочу раз и навсегда в коде увидеть эту магию и понять как реально работает, а не обобщенные не связанные с реальностью рекламные статьи.
Я бы сказал что обучение LLM вывернуто наизнанку по сравнению с обучением человека. Человек обучается на рельности. Он знает что такое город. И париж он будет ассоциировать с городом.
LLM же все свои понятия определят просто взаимосвязью слов в тексте. И понятие времени, обёма, вообще физического пространства там нету. Только частота распределения слов.
Получился какой то эрзац кадавр - который работает. Ну как работает. Текст выдаёт. Выдаёт по слогам.
Можно сказать что мозг тоже хрен пойми как работает. Но! Есть вещи которые мы чётко знаем что они есть. Это внутренние мечтание. Да сны в конечном счёте. Мозг явно модулирует внутри себя окружающую среду. Мы можем воображать.
Я вообще не спорил с вами что комп работает как жёсткий автомат полностью подчиняясь булевой алгебре. Я с вами в этом согласен. Это другой товарищ вверху вроде что то другое говорил.
А что косается температуры в LLM - это как раз не кор механика, а самый настоящий костыль. У них на выходе получается пачка векторов с вероятностями. Как по мне - бери самый высокий и будет норм. Ведь я пользуюсь LLM как машиной поиска точной инфы.
Без этого костыля на одинаковый промт всегда будет одинаковый выход
Но разработчики хотят что бы LLM проявляла креативность. Что бы не была похоже на бездушную машину (но она и есть бездушная машина).
Вот и прицепили этот рандомизатор.
Я даже раньше интересовался у LLM - могу ли я задавать процент этого рандомизатора? Что бы сам мог управлять шкалой <Точные данные.......Бред>. Сказало что это жёстко зашитый параметр и управлять нельзя. Только если я локально запущу LLM и буду её исходники править.
А вот кор-механика это упаковка через перцептроны всего промта в маленький вектор и далее поиск соседнего вектора в векторном пространстве - и (по мне ИМХО тупой способ) - склеивание куска предыдущего вектора и нового (типо что бы сохранить контекст) вот этот механизм везде неизменен. И это работает -что удивительно.
P.S. Почему я говорю что это тупой способ? Потому как передача контекста должна идти через построение карты объектов обсуждения. И должна быть локальная память для этой карты для текущего обсуждения. У человека это быстрая память.
Когда я читал про это склеивание и про расчёт коэффициентов Q,K,V - то постоянно слышал - что это вообще наугад сделали и оно каким то хреном заработало.
Под работает я подразумеваю что на выходе получается осмысленный текст, а не осмысленный и логичный(в деталях) но в общей картине - бред.
Изначально как раз работало как бредогенератор. И никто не верил openAI что тупое увеличение векторного пространства даст качественный скачок. А они упорно продвигались в деле увеличения мощностей. И у них получилось!
И когда они говорят - что не понимают как это работает, имеется ввиду что не понимают почему произошёл этот качественный скачок только из за увеличение мощностей.
Это непонимание как раз и является краеугольным камнем преткновения который не даёт сделать следующий качественный скачок.
LLM в своих возможностях на данном этапе упёрлись в невидимую стену. Чудесный способ который помог на предыдущей итерации - в этот раз не помог - gpt5 оказался тупее.
Поэтому и разработка сейчас идёт методом тыка.
Погуглил "теорема аппроксимации для трансформеров" - разумеется ничего путного нет. Ok спросил у LLM. Она как всегда выдала ответ (хз выдумала или нет) Вот приведу кусок:
Скрытый текст
3. Что это значит на практике и какие есть ограничения?
Теорема — это мощная гарантия "мощности" архитектуры, но у нее есть важные практические ограничения:
Размер модели: Теорема гарантирует, что для аппроксимации любой функции существует трансформер достаточно большого размера (достаточно большое количество голов внимания, размерность embedding'а и т.д.). Но этот размер может быть астрономически большим и недостижимым на практике.
Обучение: Даже если такой трансформер существует, алгоритм обратного распространения ошибки (backpropagation) может не найти оптимальные веса из-за проблем с локальными минимумами, затухающими градиентами и т.д.
Контекстное окно: Теоремы часто предполагают фиксированную длину последовательности. Хотя на практике трансформеры могут обрабатывать последовательности разной длины (благодаря маскированию и позиционным кодировкам), обобщение на значительно более длинные последовательности, чем те, что были в обучающих данных, — это отдельная проблема.
Вычислительная сложность: "Достаточно большая" модель может требовать нереальных вычислительных ресурсов. Полносвязное внимание имеет сложность O(n²), что делает обработку очень длинных последовательностей крайне дорогой.
Как я понял - это теорема доказывает что имея безграничные возможности для трансформера можно произвести упаковку любой информации в маленький вектор который в векторном пространстве опять же безграничном найдёт точный ответ.
Ну хз что с этой информацией делать... Метематика не запрещает, но как нам это на практике то поможет? Уже сейчас практически достигли потолка мощностей - а LLM не то что новый качественный скачок не показывают, они деградировать начали. Что говорит об одном - архитектура не подходящая для нового скачка.
Может быть по разному. Каждый может попробовать угадать исходя из своего опыта. Например я видел как может бюрократия полностью сожрать разработку. В малых коллективах творчество, херак херак и в продакшен, куча багов но и кучу нового. Компания растёт - и всё. Приоритетом становятся отчёты. Внедрять новое никто не будет - за ошибки бъют больно. За новшества просто платят зарплату. Главный приоритет у всех становится видимость работы.
Опять же сама архитектура может быть тупиковой. Вон качественный скачок в выдаче псевдопохожей осмысленной речи произошёл благодаря увеличению векторного пространства, до этого был на выходе бред. Никто не знает почему это произошло. Нету теории. И вот опять текущие LLM упёрлись в стену. Тупое увеличение мощностей в лучшем случае не делает хуже, а часто даже наоборот.
Из за того что предыдущий шаг был сделан наугад, без стройной теории, следующий шаг сделать не могут.
Я например вижу противоречии в самом принципе трансформера. Пытаюсь тут время от времени его высказывать. Получаю в карму.
Я не считаю мои взгляды каким то ноухау - вполне внятные алгоритмические претензии. Возможно это тоже тупиковый вариант. Но я например не встречал сегодня что где то ведутся подобные разработки.
Возможно где то в недрах DARPA уже скрестили
ежа с ужомLLM с архитектурой SOAR и ACT-R но держат это за 7 печатями тайны.Там нужно смотреть минимум 4 лекции. По часу полтора - зато реально уникальная информация. Такого качества информации в русскоязычном секторе не найдёте. Если найдёте - буду благодарен за ссылку.
Вообще не претендую на интерпретатора подобных лекций, но всё же могу выделить суть. Там многое сделано наугад, т.к. сами разработчики не понимают сути происходящего (как например нету точной теории сути происходящего в нейронной сети головного мозга, не отдельного нейрона а всех нейронов вместе взятых), зато есть много вычислительных мощностей. Вот и пробуют всё подряд. А удачные решения идут дальше.
Одно из таких решений это придумали так называемые головы - типо ключевые слова в тексте. Один из способов поиска - попросту ищут существительные которые встречаются реже всего. Вобщем пробуют всё подряд и смотрят что получится.
А векторные поля, по сути поля эмбедингов, строятся исключительно только на обучающем тексте. В отличие от человека который имеет дело с реальностью и зрением. И внутренняя структура строится на понятии объектов. Опять же быстрая память - в которой строится текущая модель простанства. LLM же это просто предсказатель следующего слога. Внутри есть чоткий вектор движения типо "мысли" закодированный в эмбединг. Короче много различий с сильным ИИ. Писать опять про различия не хочу.
Опять начинается. Одно и тоже каждый раз. Каждый раз оппонент обвиняет меня в том что я неуч при этом не подкрепляя ничем свои доводы. Я отвечаю. Заканчивается слитой кармой. Надоело.
P.S. Я прекрасно знаю как устроена современная LLM и в частности трансформеры. Я сам писал перцептронные нейросети для распознавания образов. Современная LLM это не веса нейронов в перцептронной сети, хотя там и есть нейронные поля. Современная LLM главным образом это архитектура трансформера. И это вообще не нейроны. А векторные многомерные поля.
Что касается "маркетингово" подсчёта параметров в современных LLM невериете мне, может поверите человеку который как раз и разрабатывает эти LLM прямо сейчас. Вот вам ссылка на свежие лекции. Больше не отвечаю.
Вы читали как они параметры считают? Это достаточно обсурдный показатель. Например на входе у нас есть токенизатор который может дать 100000 всех возможных вариантов. Далее векторная матрица которая также обладает 100000 всех варианнтов. Оно просто перемнажают первое на второе.
Короче берут максимальное количество возможных вариантов в каждом слое и всё это перемножают. Там конвеер например из 10-20 относительо небольших модулей, но перемножение всего этого даёт астрономические цифры.
Короче этот параметр вообще странно сравнивать с количеством соединений нейрона. Это как сравнивать тёплое с мягким.
А вообще я тут часто писал что архитектура современного LLM - трансформер это хороший поисковик но вообще не сильный ИИ. Мне тут за 1 комент сразу карму сливают даже без диалога. Так что зарёкся писать что то.
Понятно что не каждый нейрон столь разветвлён. Когда то давно читал мол какие то специфические могут иметь столько.
LLM говорит что:
Клетки Пуркинье в мозжечке — чемпионы по количеству входных синапсов. Их сильно разветвленное дендритное дерево предназначено для получения информации от сотен тысяч параллельных волокон. Один нейрон Пуркинье может иметь более 100 000 (до 200 000) синаптических входов.
Вот тут немного про количество
кора от 1мм до 3 приблизительно. Не писал про это уточнение - просто показал соотношение коры и белого вещества. И конечно понятно что нейроны не только в ней содержатся - т.к. кора считается что появилась относительно недавно. В голове есть более древние структуры которые как бы мозг в себе.
Я не собирался спорить по поводу нейробиологии - неблагодарное это дело тут вообще. Просто хотел приблизительно показать в чём принципиальное отличие современных кремниевых микросхем от мясного мозга.
Ответ прост - это невозможно. В мозгу человека нейроны это тонкая прослойка в 1мм в коре головного мозга. Остальная же часть объёма это белое вещество. Аксоны и дендриты. ФИЗИЧЕСКИ соединяющие все нейроны друг с другом. При этом 1 нейрон может содержать сотни тысяч таких соединений. А общее количество соединенений триллионы.
И что же невозможного в этой картине? А то что эти соединения физические каждый день перестраиваются. Сотни тысяч, миллионов появляются новых контактов. И также столько же отмирают.
Как вы понимаете - современная БИС это монолитный статический пирог. А соединения этого гигантского графа - эмулируются.
В современных LLM нашли неплохой метод эмуляции - по средством перемножения матриц из виртуального векторного пространства.
Вы правы если организовать работу под конвеер то можно приблизится к скорости конвеера. Я же в те давании времена паял с позиции радиолюбителя. Один и максимально ручная работа. Паяльных станций и вакуумных пинцетов не было.
P.S. Это времена МП42, планстинчатых трансформаторов везде и трубчатых конденсаторов...
Я занимался растановкой SMD в своё время на прототипах. Был молод и много свободной энергии которую нужно было куда то девать. И скажу так - плата 20 на 20 см со средней рассыпухой будет занимать от дня до 3. А потом ещё и проверять не накосячил где с номиналами. А после серии на плат 10 - месяц сидеть расплавленный припой нюхать - это реально ад. И хочу заметить что паять прототипы - это нудная однообразная работа которая ещё больше усложняет этот процесс. Не путать например с разработка новой платы - это интересно и творчество.
P.S. SMD расставлял маленьким пинцетом
P.S.S. Вы пишите что 1000 компонентов в час. Это примерно компонент в 3 секунды. Я не помню что там у меня занимало время. Но выдрать вручную SMD из ленты на стол. Взять его пинцетом, найти на плате где его припаять, а потом паять это паяльником. Наверно минимум минуту занимает. Микросхемы паять это вообще минут 10 паяльником. При этом периодически надо чистить плату от флюса. А потом наступает очередь выводных компонентов...
Колесо не появилось потому что не существовало дорог. Вот и вся правда. Если бы планета была плоская как дорога - то поверьте, существовали бы тучи всяких живых существ с всякими косными шариками-роликами и даже со смазкой из какой нибудь железы.
Вот за этот комментарий мне какой то альтернативно-одарённый влепил минус в карму. Желаю что бы на этом чудесном сайте остались только статьи сгенерированные ИИ.
Как вы надоели. Я не буду в очередной раз поднимать вопросы что архитектура трансформера и AGI это разные вещи. Потому что не увижу рассуждений на эту тему в подобных рекламных статьях.
Я предложу свой железобетонный способ определения AGI.
Когда ИИ сможет спокойно заменить бабу Клаву на кассе - вот тогда и настанет то самое светлое будущее.
Представьте - чуть ли не половина (а может и процентов 90) населения уйдёт в утиль. Потому что кроме болтологии ничего не делают.
Не надо от AGI никаких нобелевских изобретений. Достаточно что бы просто мог нормально понимать бред очередного тупого мясного AGI.
Сейчас же что имеем? На 1-2 вопроса отвечает вроде норм. А дальше начинаешь видеть что это тупая машина не держащая контекст разговора. А из самой сути трансформера - это бесконечный генератор следующего слога, ответы которого исскуственно надо резать. Либо по размеру ответа либо по стоп токену. Короче если сравнивать детали - то вообще всё не так работает как у человеческого ИИ.
Заинтересовал вопрос - а что же они там собрались такое патентовать? По ссылке следующее:
Технология «Вжух» — полностью российская разработка, на неё скоро будет получен патент. Мы написали свой собственный программный продукт, который работает как на терминале, так и на устройстве пользователя и использует «железное» решение самого смартфона, в частности Bluetooth.
Программу запатентовать нельзя. Железо - телефон, bluetuth и его API нельзя. Алгоритмы как таковые тоже не патентуются. Так что они там патентовать собрались?
Помучал LLM вопросами - и ввод такой. Нельзя патентовать алгоритм. Но можно патентовать способ решения чего то. И само описание этого способа будет содержать алгоритм. И вообще там очень тонкий лёд словоблудия и вилами по воде писнно.
Типо если
дадут на лапуповезёт и зарегистрируют твой способ, а в реальности это будет тупое описание программы - которая сама по себе не патентуется.Так вот самый цирк с конями начнётся далее. Сама программа - может быть изменена 100500 разными способами и на выходе давать такое же поведение. И как отличать новый способ-программу от старого? Если учесть что всё это будет работать на одном железе, на одном bluetuth. С общим API - которое не подлежит патентованию. Мутно это всё.
За то вы хорошо знаете. Воспринимаете как догму и не видите противоречий. Однородность пространства и закон сохранения энергии это аксиомы одного уровня. Они не доказывают друг друга а я являются одним и тем же проявлением. 2 стороны одной монеты. Равномерное движения тела не меняется т.к. физические законы не меняются по ходу движения. Но как мы доказываем что физические законы не меняются? А всё тем же равномерным движением. Раз оно равномерно - значит не меняется.
Я же говорил что сам этот закон - это первичный закон природы. Он не содержит в себе более низкоуровневых составных законов. Может они и есть но не то что вы определили.
Под нижестоящими законами я подразумеваю следующее - например в законе архимедовой силы, главную роль играет гравитация. В центробежных силах - главную роль играет как раз закон сохранения импульса. А вот в законе сохранения импульса (движения, энергии) главную роль играет - "Боженька". Надеюсь что это утверждение временно.
Что по поводу лифта - и вам не мешало бы почитать учебники.
Находясь в лифте можно определить гравитация это или ускорение. Гравитация имеет градиент искривления времени. У пола медленнее идёт. Вот этот градиент и меряем. При ускорении - время у пола не будет отличатся от времени у потолка. Так же гравитация имеет радиальное направление к центру масс. Ускорение нет.
Если создать измеритель с точностью как в эксперименте по гравиволнам то с такой чудовищной чувствительностью и в лифте смогут найти эти отклонения гравитации.
P.S. За сим откланиваюсь. Мне тут лупят только минусы. Нету никакого желания что то дальше тут писать. Хотел написать рассуждения по теме однородности пространства, чёрные дыры там, тёмная материя, как хорошо
нетОТО работает в квантовой физике, но чувствую меня тут вообще разорвут.Проблема в том что формулы НЕ отвечают на этот вопрос ВООБЩЕ. Физика это как раз формулы. Формулы просто могут дать расчёт одного от другого. И всё. Для физиков это аксиома настолько используемая что они вообще не упоминают этот факт в рассуждениях.
И на этом недопонимании существует армия полу-физиков, блогеров, ютуберов. Которые говорят что всё объяснено - формулы есть. Они точны. И ВСЁ объясняют.
Стоит тебе робкий вопрос задать - а что именно они тебе объясняют. Тебя жёстко гнобят, обзывают альтернативщиком (что бы это не значило), и загоняют в минусы. Мне пофиг на минусы - мне не пофиг что я потратил время на писанину, а выхлопа 0. Никто из минусующих не ответит на мои сомнения и вопросы.
Вон ниже вообще разделили физику. Которая и не должна что то объяснять. И философию - которая пытается объяснять но признана лженаукой, т.к. не оперирует математикой.
Как по мне философия должна оперировать логикой. Если физическое явление объяснено логикой и не придраться ни с какой стороны, то это определение и будет истинно. Если логика хромает или вообще отсутствует - то это определение лишь гипотеза. Ждущая появлению новых фактов которые либо подтвердят гипотезу либо опровергнут.
Тут могут придраться -а что же такое логика? Логика это набор фундаментальных правил основанных за наблюдением реальности. Аксиомы реальности. Ну например. Закон сохранения импульса. Физическая аксиома, насколько я знаю нету более глубокой теории объясняющий сей факт на более низком уровне. Набор таких наблюдений-аксиом будет создавать фундамент логического объяснения.
В противоположность этому - математика, это чистая абстракция. Где к числам привязаны реальные физические явления. И допуск того что операции с числами - прямо проецируются на реальность. Математика настолько гибка - что в ней можно очень легко натягивать сову на глобус в любой ситуации. Если что то не совпадает, попросту навешать поправочных коэффициентов или вообще выдумать несуществующие понятие.
Как пример комплексные числа - это пример антилогики. Но так как это математика, можем нафигачить кучу таких антилогичных понятий, главное что бы в выводе это всё сократить согласно математическим законам.
Гибкость математики - не равна гибкости реальности. Как по мне это будет одна из аксиом в логике.
Подвожу итог. Всё моё возмущение вызвано фактом что я хочу больше логики в объяснениях. А противоположная сторона говорит - философия (лженаука) не нужна. Достаточно только формулы.
О как вас заплюсовали а мне минусов наставили.
С начала накатал тут порятнку по устройству LLM, про ОТО, а потом удалил. ДА кому это надо.... Кроме минусов ничего не будет. Вывод пожалуй только оставлю.
Меня тут прям постоянно называют каким то альтернативщеком. Мантра такая походу. Повторяю - я не предлагаю никаких новых теорий. Я не опровергаю ОТО. Я вообще физикой не занимаюсь - просто мне интересны всегда детали. Проф деформация программиста.
Я просто вижу конкретно для себя (для построения внутреннего видения устройства мира) - объяснение реальности (не математика) это гипотеза не имеющая доказательств. Есть ряд наблюдений. По типу замедления времени. На эти наблюдения наложили математику. Но что мы получили ? Просто зависимость массы объектов на коэффициент замедления времени. Как это объясняет реальность? А ни как. Объяснение реальности - это просто отдельное объяснение.
Оно даже не говорит что первично гравитация порождает искривление времени (в таком случае гравитация это поле), либо искривление времени поражает гравитацию. Уравнения симметричны. Оно вообще не объясняет почему искривление времени порождает гравитацию. Просто на сегодня из наблюдаемых фактов есть гравитация, замедление времени. Всё! (основные наблюдения, есть и второстепенные) Значит надо натянуть сову на глобус и объяснить одно другим. Даже порядок что чем объяснять - не удосужились как то обосновать.
Даже попросил найти минусы в моём ответе у LLM (ща за это я тут реальных минусов нахватаю, потому как использовать LLM - это позор). Короче приведу одну строку которая мне понравилась. Так как чуть чуть расширяет мой кругозор.
Короче философ я походу....
Ну к счастью мы живём в век LLM которые собрали и аппроксимировали за нас все эти статьи.
Я за 10 минут порасспросил и про то почему нейтрино видно в воде - они бьются в ядра вызывая черенковое излучение, и как устроены детекторы в измерители гравиволн - измеряют отклонение фазы лазера, и как определили что это не шум - штук 10видов шумов включая местное изменение гравитации - туча сверху прошла (а туча может весить огого), почему нейтрино не могут вызывать искажения в детекторах - потому как сигнал имеет чёткую форму "чирп" и что был случай когда сначала волны пришли а потом от туда уже и весь спектр всяких излучений при как при слиянии чёрных дыр. Узнал что теория про грави волны это лишь наиболее распространённое предположение укладывающееся в формулы ОТО и что при желании можно натянуть сову на глобус.
Короче за 10 минут - узнал тучу инфы которую особо и не хотел знать. Вернее я и так знал что вы сказали - глубоки объяснения природы это почти всегда гипотеза. Я не против гипотез. Я против того что забывают что это гипотеза и готовы сожрать любого кто например косо посмотрит на ОТО. А математика - это просто математика.
Единственно непонятно - почему с наличием LLM кто то ещё пытается что то объяснять поверхностно и неинтересно.
P.S. Допуская что есть вероятность что некоторые фундаментальные вещи не объяснить более глубокими фундаментальными вещами, т.к. они могут быть попросту первичными кирпичиками природы.
Спросите у LLM - вам ответят на все ваши вопросы. Можете скинуть свой пост целиком и увидеть экспертное мнение.
Что касается гравиволн я например и без LLM знаю как их ловят. Тупо ставят 2 перпендикулярных лазера и на расстоянии смотрят какой из них запаздывает какой нет. Отталкиваясь что мол скорость света ни при каких обстоятельствах не может изменится - значит сжимается пространство.
Но как по мне я с вами согласен. Всё это зиждется на настолько малых фактах что можно напридумывать ещё кучу всяких теорий. Что учёные с удовольствием и делают.
Я вот всегда возмущаюсь почему досконально не рассказывают про устройство экспериментов. Ловят в тех же поисках гравиволн всякие нано и пико отклонении во времени, но на таких масштабах на детекторы может повлиять вообще что угодно. Поток каких нибудь нейтрино. Знаю знаю - нейтрно может пролетать звёзды насквозь не задерживаясь, на то они и нейтрино. Но вот детекторы человеческие (тупо басеин воды) какие то нейтрино не пролетают. Чудо -чудное.
Весь смысл векторов что они лежат рядом друг с другом по смыслу. И типо если взять координаты вектора "столица Парижа" то по идее по соседству будут лежать координаты всех других столиц.
Это как бы основа работы LLM. Она берёт рядом стоящие вектора и складывает слоги из словоря по этим векторам. И получается псевдо интеллектуальный текст полученный вообще не интеллектуальным путём. В этом и есть чудо!
И весь спор в том - считать ли этот новый путь интеллектом или не считать. Потому как сама работа получается путём перемножения матриц.
В мясном же ИИ - работа заключается в передачи частотно изменчивых импульсов от нейрона к нейрону. Инфа передаётся количеством импульсов от конкретного нейрона. По типу вогнали иглу в нейрон и он начал выдавать 100 импульсов в секунду. Вместо 1.
Короче архитектуры вообще разные. На выходе вроде что то одинаковое.
Но что меня вообще выбивает из колеи что вектора не содержат понятие парижа и прочего. там будут просто объёмные области векторов которые будут в себе содержать размазанное понятие Парижа. И в зависимости с какой стороны придёшь можно на выходе получить что угодно. Вобщем я не до конца владею деталями. Сейчас как раз изучают тему подробно. Хочу раз и навсегда в коде увидеть эту магию и понять как реально работает, а не обобщенные не связанные с реальностью рекламные статьи.
Я бы сказал что обучение LLM вывернуто наизнанку по сравнению с обучением человека. Человек обучается на рельности. Он знает что такое город. И париж он будет ассоциировать с городом.
LLM же все свои понятия определят просто взаимосвязью слов в тексте. И понятие времени, обёма, вообще физического пространства там нету. Только частота распределения слов.
Получился какой то эрзац кадавр - который работает. Ну как работает. Текст выдаёт. Выдаёт по слогам.
Можно сказать что мозг тоже хрен пойми как работает. Но! Есть вещи которые мы чётко знаем что они есть. Это внутренние мечтание. Да сны в конечном счёте. Мозг явно модулирует внутри себя окружающую среду. Мы можем воображать.
В LLM такого точно нету.
Я вообще не спорил с вами что комп работает как жёсткий автомат полностью подчиняясь булевой алгебре. Я с вами в этом согласен. Это другой товарищ вверху вроде что то другое говорил.
А что косается температуры в LLM - это как раз не кор механика, а самый настоящий костыль. У них на выходе получается пачка векторов с вероятностями. Как по мне - бери самый высокий и будет норм. Ведь я пользуюсь LLM как машиной поиска точной инфы.
Без этого костыля на одинаковый промт всегда будет одинаковый выход
Но разработчики хотят что бы LLM проявляла креативность. Что бы не была похоже на бездушную машину (но она и есть бездушная машина).
Вот и прицепили этот рандомизатор.
Я даже раньше интересовался у LLM - могу ли я задавать процент этого рандомизатора? Что бы сам мог управлять шкалой <Точные данные.......Бред>. Сказало что это жёстко зашитый параметр и управлять нельзя. Только если я локально запущу LLM и буду её исходники править.
А вот кор-механика это упаковка через перцептроны всего промта в маленький вектор и далее поиск соседнего вектора в векторном пространстве - и (по мне ИМХО тупой способ) - склеивание куска предыдущего вектора и нового (типо что бы сохранить контекст) вот этот механизм везде неизменен. И это работает -что удивительно.
P.S. Почему я говорю что это тупой способ? Потому как передача контекста должна идти через построение карты объектов обсуждения. И должна быть локальная память для этой карты для текущего обсуждения. У человека это быстрая память.
Когда я читал про это склеивание и про расчёт коэффициентов Q,K,V - то постоянно слышал - что это вообще наугад сделали и оно каким то хреном заработало.
Под работает я подразумеваю что на выходе получается осмысленный текст, а не осмысленный и логичный(в деталях) но в общей картине - бред.
Изначально как раз работало как бредогенератор. И никто не верил openAI что тупое увеличение векторного пространства даст качественный скачок. А они упорно продвигались в деле увеличения мощностей. И у них получилось!
И когда они говорят - что не понимают как это работает, имеется ввиду что не понимают почему произошёл этот качественный скачок только из за увеличение мощностей.
Это непонимание как раз и является краеугольным камнем преткновения который не даёт сделать следующий качественный скачок.
LLM в своих возможностях на данном этапе упёрлись в невидимую стену. Чудесный способ который помог на предыдущей итерации - в этот раз не помог - gpt5 оказался тупее.
Поэтому и разработка сейчас идёт методом тыка.
Погуглил "теорема аппроксимации для трансформеров" - разумеется ничего путного нет. Ok спросил у LLM. Она как всегда выдала ответ (хз выдумала или нет) Вот приведу кусок:
Скрытый текст
3. Что это значит на практике и какие есть ограничения?
Теорема — это мощная гарантия "мощности" архитектуры, но у нее есть важные практические ограничения:
Размер модели: Теорема гарантирует, что для аппроксимации любой функции существует трансформер достаточно большого размера (достаточно большое количество голов внимания, размерность embedding'а и т.д.). Но этот размер может быть астрономически большим и недостижимым на практике.
Обучение: Даже если такой трансформер существует, алгоритм обратного распространения ошибки (backpropagation) может не найти оптимальные веса из-за проблем с локальными минимумами, затухающими градиентами и т.д.
Контекстное окно: Теоремы часто предполагают фиксированную длину последовательности. Хотя на практике трансформеры могут обрабатывать последовательности разной длины (благодаря маскированию и позиционным кодировкам), обобщение на значительно более длинные последовательности, чем те, что были в обучающих данных, — это отдельная проблема.
Вычислительная сложность: "Достаточно большая" модель может требовать нереальных вычислительных ресурсов. Полносвязное внимание имеет сложность O(n²), что делает обработку очень длинных последовательностей крайне дорогой.
Как я понял - это теорема доказывает что имея безграничные возможности для трансформера можно произвести упаковку любой информации в маленький вектор который в векторном пространстве опять же безграничном найдёт точный ответ.
Ну хз что с этой информацией делать... Метематика не запрещает, но как нам это на практике то поможет? Уже сейчас практически достигли потолка мощностей - а LLM не то что новый качественный скачок не показывают, они деградировать начали. Что говорит об одном - архитектура не подходящая для нового скачка.