Интересно. Если опубликуете, дайте знать. Я эту идею несколько раз высказывал в комментариях на различных площадках типа ВК в районе 2018/2019 года, но подробно не исследовал. А тут на Новогодних выходных прочитал несколько новостей по квантовой физике и вдруг вспомнилось.
Я так понимаю из вашего комментария, тут две проблемы: как от "зернистого" пространства перейти к гладкому и, ещё сложнее, определиться с функцией выбора без указания правил её построения. Есть чему устрашиться, получается надо допустить, что в такой модели должны существовать процессы, которые принципиально невычислимы - происходят, но мы не можем каким-либо образом просчитать как именно.
Но что, если пойти другим путём? Не строить континуум из точек, а сразу работать с алгебраическими структурами (операторами), для которых гладкость и континуум — вторичные свойства. Я имею ввиду применение оператора Нийенхейса. Он работает в дифференциальной геометрии, но алгебраичен по своей сути. Точки тогда возникают как вторичные объекты, а пространство определяется алгеброй наблюдаемых. Можно закодировать гладкость в свойствах операторов. Если фундаментальная алгебра операторов имеет дискретный спектр, то наблюдаемый нами континуум - это низкоэнергетическая аппроксимация, которая работает только для наблюдаемых с малыми импульсами. Получается приближение алгебры с дискретным спектром к алгебре с непрерывным спектром. В такой алгебраической формулировке квантовой механики состояние системы - это не волновая функция, которая требует бесконечного множества значений в точках, а линейный функционал на алгебре наблюдаемых. Поляризация вакуума при появлении частицы - это изменение этого функционала на определённых операторах. Такой процесс может быть полностью алгоритмическим и конструктивным, если динамика алгебры (уравнения Гейзенберга) задана локальными правилами. Тогда становится не нужно выбирать одну конфигурацию из бесконечного множества. Мы просто вычисляем корреляционные функции операторов, которые могут быть определены через функционал интеграл по путям с дискретным временем и пространством. Этот интеграл может быть конечномерным аппроксимирован и вычислен без привлечения Аксиомы Выбора.
Остаётся правда проблема лоренц-инвариантности. Если фундаментальная алгебра дискретна, то полная лоренц-инвариантность нарушается на планковских масштабах. Однако это не означает, что обязательно нужно модернизировать СТО. Можно допустить, что СТО - эффективная низкоэнергетическая симметрия, возникающая из более фундаментальной, возможно дискретной симметрии. Для этого нужно всего лишь доказать, что в континуальном пределе нарушение симметрии становится ненаблюдаемым для всех современных экспериментов.
Довольно интересные наблюдения. А что, если эти менее важные слои использовать для дообучения модели на новых доменах? Остальные слои заморозить, а в этих чтобы накапливались новые знания. Может быть это смягчит проблему катастрофического забывания?
Декарт в "Принципах философии" объяснял гравитацию и движение тел через вихри эфира — материальной, механической субстанции, заполняющей пространство. Однако опытным путём наличие эфира подтвердить не удалось. Хотя картина и была хороша своей интуитивной ясностью, но учёным пришлось пойти дальше другим путём в построении моделей реальности.
Но почему бы не попытаться построить что-то похожее на эту картину по форме, но очень другое по содержанию, на стыке квантовой физики и теории относительности? Может быть это поможет разрешить проблемы, имеющиеся сейчас у других подходов в построении теории квантовой гравитации и интерпретации квантовых явлений?
Возьмём за основу предсказание существования зернистости пространства ("квантовой пены") на планковском масштабе (1,616255 × 10⁻³⁵ м.) из принципа неопределённости Гейзенберга. А также принцип запрета Паули.
Посмотрим, вооружившись этими концепциями, на пространство, в котором нет частиц, имеющих массу. Там бурлят себе в вакууме виртуальные пары (электрон-позитрон, кварк-антикварк и т.д.). Обычным образом возникают и преходят, как белый шум. И вдруг в их компанию попадает реальный фермион. Это обстоятельство запрещает (в соответствии с прицнипом Паули) виртуальным фермионам с теми же квантовыми числами появляться в этом же состоянии, как бы экранируя окрестности. Получается "дырка" или перераспределение в виртуальном облаке, которое создаёт вокруг реальной частицы поляризацию вакуума, в результате обычные вакуумные флуктуации становятся скоррелированы по-новому, образуя некоторый геометрический узор в окрестностях частицы вместо белого шума.
В такой модели пространство-время и материальная частица образуют единую квантовую систему. Корреляции между её материальными степенями свободы и геометрическими формируют "след" частицы. Волновую функцию можно интерпретировать как пространственное распределение геометрического следа, создаваемого частицей, усреднённое по квантовой неопределённости её положения. Это отличает модель от "пилот-волны" де-Бройля Бома, потому что нет отдельного скрытого поля ψ, но есть физическая структура σ_y^z, которую можно (в принципе) измерить. Она устраняет коллапс Копенгагенской интерпретации, потому что всё унитарно и "измерение" - просто локальное считывание σ_y^z, которое разрушает когерентность следа.
Что может дать такая модель.
Избавляемся от мистичности коллапса. Когда квантовая частица (например, электрон в суперпозиции) взаимодействует с макроскопическим прибором, она на самом деле сначала взаимодействует с геометрией пространства между ними. Информация о состоянии частицы "утекает" в степени свободы H_геометрии, геометрия запутывается с частицей и волновая функция всей системы (материя+ геометрия) остаётся унитарной. Никакого коллапса нет. Для наблюдателя, который тоже состоит из материи, частица кажется локализованной, потому что информация о её суперпозиции "размазалась" по многим квантовым степеням свободы пространства и считать её обратно мы не можем, поэтому мы видим классический результат. Вместо ветвления "миров" (как в Многомировой интерпретации) здесь кодируется микроструктура самого пространства.
Если "атомы" пространства действительно подчиняются принципу запрета Паули, то это открывает путь к преодолению сингулярности, потому что, когда масса сжимает пространство (как чёрная дыра), она пытается заставить кванты геометрии занять одно состояние. Однако принцип Паули для геометрии создаёт колоссальное давление отталкивания и таким образом вместо сингулярности появляется "упругое" ядро пространства.
Объясняет гравитацию. Вместо механического вихря Декарта, материальная частица в такой модели создает вокруг себя облако запутанности. Если две частицы находятся рядом, их "облака" (корреляции с геометрией) начинают перекрываться. Геометрия стремится минимизировать общую квантовую сложность (или действие). Сближение тел уменьшает "натяжение" в запутанной сети пространства. Это мы и воспринимаем как гравитацию.
Решает проблему иерархии. В стандартной квантовой теории поля расходимости возникают из-за вкладов виртуальных частиц со сколь угодно высокими импульсами. Однако в новой модели пространство на планковских масштабах не является гладким континуумом. Если предгеометрия имеет структуру квантовой пены с характерным масштабом L_P, то интегрирование по импульсам виртуальных частиц автоматически обрезается на p_max ~ ħ / L_P. Это не введённый от руки регулятор, а следствие фундаментальной структуры пространства. Квантовые поправки к массе Хиггса перестают быть пропорциональными M_Planck^2. Они становятся пропорциональны квадрату характерной энергии взаимодействия частицы с предгеометрией, которая может быть много меньше M_Planck. Если кванты геометрии подчиняются аналогу принципа Паули, то виртуальная частица с огромной энергией пытается создать сильное локальное возмущение геометрии. Но если «состояния» геометрии в данной области уже "заняты" другими флуктуациями (из-за статистического запрета), это процесс подавляется. Чем выше энергия виртуального процесса, тем сильнее он нарушает "порядок" в геометрии, тем менее вероятен. Это создаёт эффективную зависимость констант связи от энергии.
Возможные предсказания модели.
Зависимость интерференции от статистики. Бозоны (в условиях высокой плотности, близкой к конденсации) должны демонстрировать более "размытую" или "мягкую" интерференционную картину по сравнению с фермионами или разреженными бозонами. Картина может терять чёткость, контраст (видимость полос) может падать. Это связано с тем, что слишком большое число бозонов в одном состоянии начинает "насыщать" локальную геометрию. У пространства заканчиваются степени свободы для описания их фазы. В результате геометрия больше не может линейно передавать информацию о фазе каждого бозона и интерференционная картина теряет контраст.
В классической ОТО у черной дыры есть горизонт событий, из-под которого ничего не возвращается. Но если пространство "упругое" и сопротивляется бесконечному сжатию (из-за принципа Паули), то вместо сингулярности внутри образуется сверхплотное ядро. Когда две черные дыры сливаются, гравитационные волны должны не просто затухать, а отражаться от этой плотной структуры геометрии, создавая "эхо" — повторные всплески сигнала через равные промежутки времени.
Если гравитация возникает из корреляций, то на очень больших расстояниях, где запутанность ослабевает или меняет структуру, закон тяготения может отличаться от ньютоновского. Это могло бы объяснить вращение галактик без привлечения тёмной материи и привело бы к аномалиям развития ранних галактик (сформировались слишком быстро или слишком массивны).
А вроде нет ответа. Предполагают, что связь между энергией фотона и поправкой к его скорости может определяться не размером ячейки, а динамикой "спиновой пены".
Не опровергнута, но получила более жёсткие ограничения модели, в которых эффект дисперсии был бы достаточно сильным, чтобы быть наблюдаемым на доступных нам расстояниях и энергиях. Характерный энергетический масштаб квантования гравитации должен быть меньше планковской энергии в 100 или более раз.
Протестировал модель GigaChat3-10B-A1.8B. Квантованная до q4 работает с приемлемой для домашнего использования скоростью (60 т/c) на ускорителе CMP 50HX (соответственно чего-то подобного или лучше можно ожидать от 2080). Для сравнения YandexGPT-5-Lite-8B квантованная тоже до q4 даёт примерно 20 т/c на том же ускорителе. Модель по умолчанию не редко даёт ответы на английском. Но если в промпте явно указать насчёт русского языка, тогда всегда на русском. В ответах есть характерные для Qwen и Deepseek маркеры "**" и "##". Но китайские коллеги иногда в русских словах допускают ошибки и неточности, а в этой модели, на тестах этого не выявлено. Я думаю для создания чат-ботов и вопросно-ответных систем, а также агентов с разными моделями, эта разработка Сбера может быть полезной прежде всего по этим причинам - хороший уровень русского языка из коробки и небольшие требования к вычислительной мощности.
Я запускал на двух машинах (одна с NVIDIA 1080, другая с cmp50hx) скрипт для обучения небольшой gpt2 модели. Для cmp50hx: scaler = torch.amp.GradScaler('cuda') ... scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() optimizer.zero_grad()
Для NVIDIA 1080 optimizer = optim.AdamW(model.parameters(), lr=1e-5)
loss = outputs.loss loss.backward() optimizer.step() optimizer.zero_grad()
Сравнение производительности NVIDIA 1080 и cmp50hx в машинном обучении
По расчётному времени на обучение я определил, что cmp50hx 1.5 раза быстрее. Сейчас перепроверил. Разница получилась не такой значительной cmp50hx быстрее считает всего в 1.17 раза (причём в FP16, тогда как 1080 - в FP32). Моя ошибка видимо в том, что 1080 у меня перегревается и в первый раз она была ограничена до 90 Вт вместо штатных 180 Вт, а сейчас я и там и там сделал сопоставимое ограничение (-10 Вт от максимума).
Ну, эти 13% скорее всего люди, любящие немного приукрашивать свой потенциал, просто потому что им нравится так себя видеть со стороны, или с расчётом что-то материально от этого выгадать. Но 1.5-2 раза рост производительности, мне кажется достичь за счёт ИИ реально. Только это может оказаться отложенными на потом проблемами. Т.к. имея такой мощный "процессор заклинаний" снижается стимул напрягаться самому чтобы что-то эдакое соорудить. А нет напряжения, нет и новых связей между нейронами - всё ведь получается итак с меньшими затратами энергии на мозг. Ещё одна проблема на будущее - разрыв в цепочке передачи опыта, т.к. под нож идут прежде всего новички, которые могли бы вырасти на решении реальных задач по мере роста их сложности и перенимая опыт у старших. Но в новой реальности старшим дали ИИ вместо джунов, и эта эстафета прерывается.
На мой взгляд в таком режиме работать не комфортно. Потому что не решённые задачи в "бэкграунде" словно гири на шее. Пока с ними не порешать, они частично отвлекают от текущей работы. А если таких задач больше двух и это становится постоянным режимом работы, думаю будет ускоренное выгорание.
Мне кажется было бы полезно сопоставить с прибылью компаний. Быть может там есть какой-нибудь значительный рост? Тогда ожидания связанные с ростом продуктивности от технологий ИИ по-видимому насчёт именно прибыли, а не чего-либо другого. Если один программист с ИИ ассистентом может делать столько же, сколько два без него, то одного можно уволить, половину его зарплаты оставить себе, а половину отдать оставшемуся программисту. Отсюда же и объяснение почему нет никакого прироста конечной продукции - это и не нужно, перенасыщать рынок. Нужно (владельцам бизнеса) максимизировать прибыль. Если же повышения продуктивности программистов действительно нет, то сокращение штата должно привести к падению темпов выпуска новой продукции и падению прибыли.
Если использовать AMP (Automatic Mixed Precision) в Pytorch, который значительную часть работы переводит в FP16, то обучение модели на CMP 50HX получается примерно в 1.5 раза быстрее чем на NVIDIA RTX 1080 в режиме FP32 (8 часов на датасет в 2 Гб против 12 часов).
Также в CMP 50HX получается запихнуть в 1.5 больше батчей за раз и она меньше греется (67 градусов против 83 градусов у 1080). Создаётся впечатление, что NVIDIA в драйверах ограничивает загрузку этой карты, снижая частоты или отключая часть вычислительных ядер. Потому что при TDP карты 250 ВТ, nvidia-smi показывает нагрузку не выше 167 Вт. Для RTX 1080 та же задача легко грузит карту по её заводской максимум - 180 Вт.
Проверял на p104-100. С помощью штатной утилиты nvidia-smi можно ограничить мощность этой видеокарты. При лимите 130 Вт ожидаемая потеря производительности 20%, что увеличит время выполнения задачи и в итоге существенной экономии не получится. Это имеет смысл делать для снижения температуры при длительных высоких нагрузках. Например Pytroch в задаче машинного обучения прогревает эту видеокарту до 73 градусов. За сутки прогона выше температура не поднималась. Минимальное значение, которое можно установить - 90 Вт. А без ограничений она может слега переваливать за 83 градуса.
Уже базовый школный курс даёт некоторые основы, позволяющие выстраивать картину мира крупными блоками без магии. А потребность, связанная с профессиональной деятельностью и доступность информации позволяют любой из этих блоков детализировать настолько, насколько человек способен. Пример со смартфоном: устройство связи, предназначенное для работы в сотовых сетях, состоящее из интерфейса пользователя (сенсорный экран, микрофон, динамик, датчики ускорения и поворота), модема для приёмо-передачи сообщений, устройства хранения, центрального процессора, осуществляющего скоординированную работу всех частей по заданной программе - это позволяет как-то ориентироваться, выбирать модель, выполнять какие-то осмысленные действия с ней. Другой пример - автомобилист. Ему для вождения вовсе не обязательно знать устройство автомобиля во всех деталях, но крупными мазками он знает как оно устроено, зачем руль, педали, коробка передач, аккумулятор, двигатель внутреннего сгорания. Если надо - может сделать некоторый ремонт, например заменить колесо. Это не чёрный ящик для него и он вполне осознаёт, что едет не на синей магии уходящей в трубу, а за счёт сжигания бензина.
Большая LLM с сотнями миллиардов параметров работает точно также, как и малая на несколько сотен миллионов параметров, если у них аналогичная архитектура. Поэтому, изучение изменения весов, распределения внимания, применение методов понижения размерностей типа PCA или t-SNE, создание проекций с помощью UMAP, дают возможность из отдельных частей складывать представление о том, что происходит с данными, попадающими в модель, какую "форму" (топологию) они принимают (кластеров, циклов, мостов, связностей и т.д.) Это в перспективе может привести нас к новому уровню, на котором мы будем проектировать и работать с моделями не как чёрным ящиком, а полностью спроектированными нами до последнего винтика "думающими машинами", с такими параметрами и свойствами, которые требуются для выполнения конкретной задачи.
Чтобы не закончить как древние египтяне и другие наши предшественники, ни на каком этапе своих достижений мы не должны почивать на лаврах. Нужно всё время стремиться проникнуть в суть на ещё большую глубину. Для этого не нужно становиться киборгами. Нужно углублять технические знания человечества, сделав думающие машины внешним продолжением нашего мозга - множителем его возможностей проникновения в тайны материи.
Конкретно к теме вашей статьи. Нам нужны технические знания в том числе чтобы делать более совершенные модели ИИ, потому что текущий уровень - не вершина эволюции. И любой другой нами достигнутый не будет вершиной. А будет только приближением. И процесс этого приближения (к разуму человека, сверхразуму) может быть устремлён к бесконечности. Вряд-ли удастся достигнуть предела, когда можно будет сказать - лучше уже не может быть.
Ну это, как мне кажется, человеческие цивилизации уже много раз проходили. На примере Древнего Египта. Где-то читал, что на позднем этапе жрецы уже не понимали что за наследие им оставили в древних свитках, но учили как определённые ритуалы повторять некоторую последовательность действий. Итог всем известен. От этой древней цивилизации остался только след в истории, а эстафету прогресса приняли другие. Человек должен понимать, что он делает, а не надеяться на чудо из коробки. Для этого нужны фундаментальные технические знания. Без этого не обойтись.
Спасибо за такой развёрнутый ответ. Мне кажется это довольно интересная затея и я ближе к сентябрю/октябрю, наверное, начну с этим экспериментировать. Как раз должны освободиться вычислительные мощности. Сейчас у меня на завершающем этапе создание русско-английской языковой модели с чистого листа по классической схеме. Вот она-то, думаю, и послужит подопытным, в силу своего простого устройства и уже кое-каких усвоенных закономерностей. Для начала хотя бы надо будет попробовать воспроизвести вручную то, что описано в статьях насчёт SAE для анализа активаций и получения признаков. А если получится - уже можно будет перейти и к изменению базовой архитектуры модели. Ещё предстоит придумать, какую задачу будет решать эта новая модель, чтобы можно было проконтролировать её прогресс. Текущая модель предназначена для написания текстов по описанию пользователя и ответу на вопросы по тексту, а также переводу. Но в новой наверное нужно будет что-то, требующее рассуждений.
Интересно, нельзя ли имитировать рефлексию в трансформерных моделях за счёт дополнения механизма внимания разрежёнными автокодировщиками (Sparse Autoencoders, SAE). Например, обучить SAE на выходах промежуточных слоев трансформера (активациях FFN). Затем использовать его выходы как дополнительный вход для декодера. Этот механизм по идее создаёт дополнительный источники признаков для декодера и служит "бутылочным горлышком" для сжатия контекста, отключая большую часть активаций скрытых нейронов и учась находить в них главное (может быть получится что-то вроде семантических понятий?).
Т.е. данные после дискретизации, став внутренними представлениями трансформера, с помощью этого дополнительного механизма сжимаются в "семантически очищенные" признаки для обратной подачи в декодер, как дополнительный источник информации. Мне кажется этот процесс может быть похож на рефлексивную фильтрацию, когда модель как бы внешне "обдумывает" свои внутренние состояния и оставляет только те из них, которые повышают её точность.
Мне кажется упущено что-то существенное. Перечисленные: дискретизация, рекурсия, рефлексия в машине - это уже запущенные по какой-то внешней причине процессы. Они не нужны самой машине до запуска. Покрутившись некоторое число итераций и достигнув первоначально поставленной цели - они не нужны ей и после. Возможно, условие, которое лежит в основе возникновения сознания - потребности, присущие живой материи, например клеткам мозга. Они так устроены, что им нужно искать друг с другом связи. А сигналы от всех органов тела вносят коррективы, каким связям закрепляться, а каким распадаться. Дальше всё зависит от среды. Если организму для достижения своих потребностей требуется разрешение сложных противоречий среды и есть время для приобретения опыта от взаимодействия с ней - в мозгу формируются сложные связи. И уже на каком-то уровне их сложности появляются эти паттерны, организм приобретает способность действовать осознанно.
Имитировать сознание в машине наверное можно, но это всё-таки скорее будет некоторое приближение, позволяющее подняться ещё на одну ступень автоматизации обработки информации. Зависящее от потребностей живого организма, дающего начальный импульс и последующие, при переходе от одной задачи к другой.
Я тоже с этим экспериментирую - пытаюсь обучить небольшую русско-английскую модель с нуля для написания длинных текстов по аннотации, названию, теме, плану, списку вопросов и т.д. Для этого учителями работают три модели: TinyLLaMA 1B и QWEN05B которые генерируют основной текст и YandexGPT Lite 8B которая формирует сжатую информацию (тема текста, ключевой вопрос и т.д.) для имитации вопросов пользователя. Русско-английский перевод делает моя модель-переводчик (https://huggingface.co/Vladniag/Requestor). Обучается чистый декодер на 8 млн. параметров (размер модели в формате FP32 всего 26 Мб). На 436 эпохе обучения на одной NVIDIA 1080 пока что генерации получаются вот такими: https://disk.yandex.ru/i/Wx5k0rpgb_ryNQ
Сколько нейронов у современных моделей сложно сказать сходу, потому что в искусственных нейронных сетях это абстракция, а работа ведётся с матрицами весов, отражающих связи между слоями. Условно аналогами "нейронов" в них можно считать активации (выходы слоёв), например векторы в скрытых слоях модели. А число параметров, которыми характеризуют сложность модели - это приблизительный аналог связей между нейронами в биологическом мозгу. Чтобы понимать разницу чисто количественно и приблизительно: - число параметров самых современных и крупных моделей ИИ составляет 1-2 трлн. - в мозгу среднестатистического человека таких связей порядка 100 трлн. Причём они постоянно обновляются в процессе приобретения жизненного опыта. А в модели ИИ - "застывают" после завершения цикла обучения, который очень затратен и по этой причине не может быть непрерывным.
Интересно. Если опубликуете, дайте знать. Я эту идею несколько раз высказывал в комментариях на различных площадках типа ВК в районе 2018/2019 года, но подробно не исследовал. А тут на Новогодних выходных прочитал несколько новостей по квантовой физике и вдруг вспомнилось.
Я так понимаю из вашего комментария, тут две проблемы: как от "зернистого" пространства перейти к гладкому и, ещё сложнее, определиться с функцией выбора без указания правил её построения. Есть чему устрашиться, получается надо допустить, что в такой модели должны существовать процессы, которые принципиально невычислимы - происходят, но мы не можем каким-либо образом просчитать как именно.
Но что, если пойти другим путём?
Не строить континуум из точек, а сразу работать с алгебраическими структурами (операторами), для которых гладкость и континуум — вторичные свойства. Я имею ввиду применение оператора Нийенхейса. Он работает в дифференциальной геометрии, но алгебраичен по своей сути.
Точки тогда возникают как вторичные объекты, а пространство определяется алгеброй наблюдаемых. Можно закодировать гладкость в свойствах операторов. Если фундаментальная алгебра операторов имеет дискретный спектр, то наблюдаемый нами континуум - это низкоэнергетическая аппроксимация, которая работает только для наблюдаемых с малыми импульсами. Получается приближение алгебры с дискретным спектром к алгебре с непрерывным спектром.
В такой алгебраической формулировке квантовой механики состояние системы - это не волновая функция, которая требует бесконечного множества значений в точках, а линейный функционал на алгебре наблюдаемых. Поляризация вакуума при появлении частицы - это изменение этого функционала на определённых операторах. Такой процесс может быть полностью алгоритмическим и конструктивным, если динамика алгебры (уравнения Гейзенберга) задана локальными правилами.
Тогда становится не нужно выбирать одну конфигурацию из бесконечного множества. Мы просто вычисляем корреляционные функции операторов, которые могут быть определены через функционал интеграл по путям с дискретным временем и пространством. Этот интеграл может быть конечномерным аппроксимирован и вычислен без привлечения Аксиомы Выбора.
Остаётся правда проблема лоренц-инвариантности. Если фундаментальная алгебра дискретна, то полная лоренц-инвариантность нарушается на планковских масштабах. Однако это не означает, что обязательно нужно модернизировать СТО. Можно допустить, что СТО - эффективная низкоэнергетическая симметрия, возникающая из более фундаментальной, возможно дискретной симметрии. Для этого нужно всего лишь доказать, что в континуальном пределе нарушение симметрии становится ненаблюдаемым для всех современных экспериментов.
Довольно интересные наблюдения. А что, если эти менее важные слои использовать для дообучения модели на новых доменах? Остальные слои заморозить, а в этих чтобы накапливались новые знания. Может быть это смягчит проблему катастрофического забывания?
Декарт в "Принципах философии" объяснял гравитацию и движение тел через вихри эфира — материальной, механической субстанции, заполняющей пространство. Однако опытным путём наличие эфира подтвердить не удалось. Хотя картина и была хороша своей интуитивной ясностью, но учёным пришлось пойти дальше другим путём в построении моделей реальности.
Но почему бы не попытаться построить что-то похожее на эту картину по форме, но очень другое по содержанию, на стыке квантовой физики и теории относительности? Может быть это поможет разрешить проблемы, имеющиеся сейчас у других подходов в построении теории квантовой гравитации и интерпретации квантовых явлений?
Возьмём за основу предсказание существования зернистости пространства ("квантовой пены") на планковском масштабе (1,616255 × 10⁻³⁵ м.) из принципа неопределённости Гейзенберга. А также принцип запрета Паули.
Посмотрим, вооружившись этими концепциями, на пространство, в котором нет частиц, имеющих массу. Там бурлят себе в вакууме виртуальные пары (электрон-позитрон, кварк-антикварк и т.д.). Обычным образом возникают и преходят, как белый шум. И вдруг в их компанию попадает реальный фермион. Это обстоятельство запрещает (в соответствии с прицнипом Паули) виртуальным фермионам с теми же квантовыми числами появляться в этом же состоянии, как бы экранируя окрестности. Получается "дырка" или перераспределение в виртуальном облаке, которое создаёт вокруг реальной частицы поляризацию вакуума, в результате обычные вакуумные флуктуации становятся скоррелированы по-новому, образуя некоторый геометрический узор в окрестностях частицы вместо белого шума.
В такой модели пространство-время и материальная частица образуют единую квантовую систему. Корреляции между её материальными степенями свободы и геометрическими формируют "след" частицы. Волновую функцию можно интерпретировать как пространственное распределение геометрического следа, создаваемого частицей, усреднённое по квантовой неопределённости её положения.
Это отличает модель от "пилот-волны" де-Бройля Бома, потому что нет отдельного скрытого поля ψ, но есть физическая структура σ_y^z, которую можно (в принципе) измерить. Она устраняет коллапс Копенгагенской интерпретации, потому что всё унитарно и "измерение" - просто локальное считывание σ_y^z, которое разрушает когерентность следа.
Что может дать такая модель.
Избавляемся от мистичности коллапса. Когда квантовая частица (например, электрон в суперпозиции) взаимодействует с макроскопическим прибором, она на самом деле сначала взаимодействует с геометрией пространства между ними. Информация о состоянии частицы "утекает" в степени свободы H_геометрии, геометрия запутывается с частицей и волновая функция всей системы (материя+ геометрия) остаётся унитарной. Никакого коллапса нет. Для наблюдателя, который тоже состоит из материи, частица кажется локализованной, потому что информация о её суперпозиции "размазалась" по многим квантовым степеням свободы пространства и считать её обратно мы не можем, поэтому мы видим классический результат. Вместо ветвления "миров" (как в Многомировой интерпретации) здесь кодируется микроструктура самого пространства.
Если "атомы" пространства действительно подчиняются принципу запрета Паули, то это открывает путь к преодолению сингулярности, потому что, когда масса сжимает пространство (как чёрная дыра), она пытается заставить кванты геометрии занять одно состояние. Однако принцип Паули для геометрии создаёт колоссальное давление отталкивания и таким образом вместо сингулярности появляется "упругое" ядро пространства.
Объясняет гравитацию. Вместо механического вихря Декарта, материальная частица в такой модели создает вокруг себя облако запутанности. Если две частицы находятся рядом, их "облака" (корреляции с геометрией) начинают перекрываться. Геометрия стремится минимизировать общую квантовую сложность (или действие). Сближение тел уменьшает "натяжение" в запутанной сети пространства. Это мы и воспринимаем как гравитацию.
Решает проблему иерархии. В стандартной квантовой теории поля расходимости возникают из-за вкладов виртуальных частиц со сколь угодно высокими импульсами. Однако в новой модели пространство на планковских масштабах не является гладким континуумом. Если предгеометрия имеет структуру квантовой пены с характерным масштабом L_P, то интегрирование по импульсам виртуальных частиц автоматически обрезается на p_max ~ ħ / L_P. Это не введённый от руки регулятор, а следствие фундаментальной структуры пространства. Квантовые поправки к массе Хиггса перестают быть пропорциональными M_Planck^2. Они становятся пропорциональны квадрату характерной энергии взаимодействия частицы с предгеометрией, которая может быть много меньше M_Planck. Если кванты геометрии подчиняются аналогу принципа Паули, то виртуальная частица с огромной энергией пытается создать сильное локальное возмущение геометрии. Но если «состояния» геометрии в данной области уже "заняты" другими флуктуациями (из-за статистического запрета), это процесс подавляется. Чем выше энергия виртуального процесса, тем сильнее он нарушает "порядок" в геометрии, тем менее вероятен. Это создаёт эффективную зависимость констант связи от энергии.
Возможные предсказания модели.
Зависимость интерференции от статистики. Бозоны (в условиях высокой плотности, близкой к конденсации) должны демонстрировать более "размытую" или "мягкую" интерференционную картину по сравнению с фермионами или разреженными бозонами. Картина может терять чёткость, контраст (видимость полос) может падать. Это связано с тем, что слишком большое число бозонов в одном состоянии начинает "насыщать" локальную геометрию. У пространства заканчиваются степени свободы для описания их фазы. В результате геометрия больше не может линейно передавать информацию о фазе каждого бозона и интерференционная картина теряет контраст.
В классической ОТО у черной дыры есть горизонт событий, из-под которого ничего не возвращается. Но если пространство "упругое" и сопротивляется бесконечному сжатию (из-за принципа Паули), то вместо сингулярности внутри образуется сверхплотное ядро. Когда две черные дыры сливаются, гравитационные волны должны не просто затухать, а отражаться от этой плотной структуры геометрии, создавая "эхо" — повторные всплески сигнала через равные промежутки времени.
Если гравитация возникает из корреляций, то на очень больших расстояниях, где запутанность ослабевает или меняет структуру, закон тяготения может отличаться от ньютоновского. Это могло бы объяснить вращение галактик без привлечения тёмной материи и привело бы к аномалиям развития ранних галактик (сформировались слишком быстро или слишком массивны).
А вроде нет ответа. Предполагают, что связь между энергией фотона и поправкой к его скорости может определяться не размером ячейки, а динамикой "спиновой пены".
Не опровергнута, но получила более жёсткие ограничения модели, в которых эффект дисперсии был бы достаточно сильным, чтобы быть наблюдаемым на доступных нам расстояниях и энергиях.
Характерный энергетический масштаб квантования гравитации должен быть меньше планковской энергии в 100 или более раз.
Протестировал модель GigaChat3-10B-A1.8B. Квантованная до q4 работает с приемлемой для домашнего использования скоростью (60 т/c) на ускорителе CMP 50HX (соответственно чего-то подобного или лучше можно ожидать от 2080). Для сравнения YandexGPT-5-Lite-8B квантованная тоже до q4 даёт примерно 20 т/c на том же ускорителе.
Модель по умолчанию не редко даёт ответы на английском. Но если в промпте явно указать насчёт русского языка, тогда всегда на русском. В ответах есть характерные для Qwen и Deepseek маркеры "**" и "##". Но китайские коллеги иногда в русских словах допускают ошибки и неточности, а в этой модели, на тестах этого не выявлено. Я думаю для создания чат-ботов и вопросно-ответных систем, а также агентов с разными моделями, эта разработка Сбера может быть полезной прежде всего по этим причинам - хороший уровень русского языка из коробки и небольшие требования к вычислительной мощности.
Вот как выглядит пример выдачи данной модели:
https://disk.yandex.ru/i/KM0wu4mqW7Nm2g
Есть ещё квантованная версия вот здесь:
https://huggingface.co/bartowski/ai-sage_GigaChat3-10B-A1.8B-GGUF/tree/main
Я скачал для теста "ai-sage_GigaChat3-10B-A1.8B-Q4_K_M.gguf". Свежий koboldcpp нормально с ней работает без каких-либо дополнительных действий.
Я запускал на двух машинах (одна с NVIDIA 1080, другая с cmp50hx) скрипт для обучения небольшой gpt2 модели.
Для cmp50hx:
scaler = torch.amp.GradScaler('cuda')
...
scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()optimizer.zero_grad()Для NVIDIA 1080
optimizer = optim.AdamW(model.parameters(), lr=1e-5)
loss = outputs.lossloss.backward()optimizer.step()optimizer.zero_grad()По расчётному времени на обучение я определил, что cmp50hx 1.5 раза быстрее.
Сейчас перепроверил. Разница получилась не такой значительной cmp50hx быстрее считает всего в 1.17 раза (причём в FP16, тогда как 1080 - в FP32). Моя ошибка видимо в том, что 1080 у меня перегревается и в первый раз она была ограничена до 90 Вт вместо штатных 180 Вт, а сейчас я и там и там сделал сопоставимое ограничение (-10 Вт от максимума).
Скрипт для обучения, который я использовал:
https://disk.yandex.ru/d/L2uttqXoVc3GXQ
Ну, эти 13% скорее всего люди, любящие немного приукрашивать свой потенциал, просто потому что им нравится так себя видеть со стороны, или с расчётом что-то материально от этого выгадать. Но 1.5-2 раза рост производительности, мне кажется достичь за счёт ИИ реально. Только это может оказаться отложенными на потом проблемами. Т.к. имея такой мощный "процессор заклинаний" снижается стимул напрягаться самому чтобы что-то эдакое соорудить. А нет напряжения, нет и новых связей между нейронами - всё ведь получается итак с меньшими затратами энергии на мозг. Ещё одна проблема на будущее - разрыв в цепочке передачи опыта, т.к. под нож идут прежде всего новички, которые могли бы вырасти на решении реальных задач по мере роста их сложности и перенимая опыт у старших. Но в новой реальности старшим дали ИИ вместо джунов, и эта эстафета прерывается.
На мой взгляд в таком режиме работать не комфортно. Потому что не решённые задачи в "бэкграунде" словно гири на шее. Пока с ними не порешать, они частично отвлекают от текущей работы. А если таких задач больше двух и это становится постоянным режимом работы, думаю будет ускоренное выгорание.
Мне кажется было бы полезно сопоставить с прибылью компаний. Быть может там есть какой-нибудь значительный рост? Тогда ожидания связанные с ростом продуктивности от технологий ИИ по-видимому насчёт именно прибыли, а не чего-либо другого. Если один программист с ИИ ассистентом может делать столько же, сколько два без него, то одного можно уволить, половину его зарплаты оставить себе, а половину отдать оставшемуся программисту. Отсюда же и объяснение почему нет никакого прироста конечной продукции - это и не нужно, перенасыщать рынок. Нужно (владельцам бизнеса) максимизировать прибыль.
Если же повышения продуктивности программистов действительно нет, то сокращение штата должно привести к падению темпов выпуска новой продукции и падению прибыли.
Если использовать AMP (Automatic Mixed Precision) в Pytorch, который значительную часть работы переводит в FP16, то обучение модели на CMP 50HX получается примерно в 1.5 раза быстрее чем на NVIDIA RTX 1080 в режиме FP32 (8 часов на датасет в 2 Гб против 12 часов).
Также в CMP 50HX получается запихнуть в 1.5 больше батчей за раз и она меньше греется (67 градусов против 83 градусов у 1080). Создаётся впечатление, что NVIDIA в драйверах ограничивает загрузку этой карты, снижая частоты или отключая часть вычислительных ядер. Потому что при TDP карты 250 ВТ, nvidia-smi показывает нагрузку не выше 167 Вт. Для RTX 1080 та же задача легко грузит карту по её заводской максимум - 180 Вт.
Проверял на p104-100. С помощью штатной утилиты nvidia-smi можно ограничить мощность этой видеокарты. При лимите 130 Вт ожидаемая потеря производительности 20%, что увеличит время выполнения задачи и в итоге существенной экономии не получится. Это имеет смысл делать для снижения температуры при длительных высоких нагрузках. Например Pytroch в задаче машинного обучения прогревает эту видеокарту до 73 градусов. За сутки прогона выше температура не поднималась. Минимальное значение, которое можно установить - 90 Вт. А без ограничений она может слега переваливать за 83 градуса.
Уже базовый школный курс даёт некоторые основы, позволяющие выстраивать картину мира крупными блоками без магии. А потребность, связанная с профессиональной деятельностью и доступность информации позволяют любой из этих блоков детализировать настолько, насколько человек способен. Пример со смартфоном: устройство связи, предназначенное для работы в сотовых сетях, состоящее из интерфейса пользователя (сенсорный экран, микрофон, динамик, датчики ускорения и поворота), модема для приёмо-передачи сообщений, устройства хранения, центрального процессора, осуществляющего скоординированную работу всех частей по заданной программе - это позволяет как-то ориентироваться, выбирать модель, выполнять какие-то осмысленные действия с ней. Другой пример - автомобилист. Ему для вождения вовсе не обязательно знать устройство автомобиля во всех деталях, но крупными мазками он знает как оно устроено, зачем руль, педали, коробка передач, аккумулятор, двигатель внутреннего сгорания. Если надо - может сделать некоторый ремонт, например заменить колесо. Это не чёрный ящик для него и он вполне осознаёт, что едет не на синей магии уходящей в трубу, а за счёт сжигания бензина.
Большая LLM с сотнями миллиардов параметров работает точно также, как и малая на несколько сотен миллионов параметров, если у них аналогичная архитектура. Поэтому, изучение изменения весов, распределения внимания, применение методов понижения размерностей типа PCA или t-SNE, создание проекций с помощью UMAP, дают возможность из отдельных частей складывать представление о том, что происходит с данными, попадающими в модель, какую "форму" (топологию) они принимают (кластеров, циклов, мостов, связностей и т.д.) Это в перспективе может привести нас к новому уровню, на котором мы будем проектировать и работать с моделями не как чёрным ящиком, а полностью спроектированными нами до последнего винтика "думающими машинами", с такими параметрами и свойствами, которые требуются для выполнения конкретной задачи.
Чтобы не закончить как древние египтяне и другие наши предшественники, ни на каком этапе своих достижений мы не должны почивать на лаврах. Нужно всё время стремиться проникнуть в суть на ещё большую глубину. Для этого не нужно становиться киборгами. Нужно углублять технические знания человечества, сделав думающие машины внешним продолжением нашего мозга - множителем его возможностей проникновения в тайны материи.
Конкретно к теме вашей статьи. Нам нужны технические знания в том числе чтобы делать более совершенные модели ИИ, потому что текущий уровень - не вершина эволюции. И любой другой нами достигнутый не будет вершиной. А будет только приближением. И процесс этого приближения (к разуму человека, сверхразуму) может быть устремлён к бесконечности. Вряд-ли удастся достигнуть предела, когда можно будет сказать - лучше уже не может быть.
Ну это, как мне кажется, человеческие цивилизации уже много раз проходили. На примере Древнего Египта. Где-то читал, что на позднем этапе жрецы уже не понимали что за наследие им оставили в древних свитках, но учили как определённые ритуалы повторять некоторую последовательность действий. Итог всем известен. От этой древней цивилизации остался только след в истории, а эстафету прогресса приняли другие.
Человек должен понимать, что он делает, а не надеяться на чудо из коробки. Для этого нужны фундаментальные технические знания. Без этого не обойтись.
Спасибо за такой развёрнутый ответ. Мне кажется это довольно интересная затея и я ближе к сентябрю/октябрю, наверное, начну с этим экспериментировать. Как раз должны освободиться вычислительные мощности. Сейчас у меня на завершающем этапе создание русско-английской языковой модели с чистого листа по классической схеме. Вот она-то, думаю, и послужит подопытным, в силу своего простого устройства и уже кое-каких усвоенных закономерностей. Для начала хотя бы надо будет попробовать воспроизвести вручную то, что описано в статьях насчёт SAE для анализа активаций и получения признаков. А если получится - уже можно будет перейти и к изменению базовой архитектуры модели. Ещё предстоит придумать, какую задачу будет решать эта новая модель, чтобы можно было проконтролировать её прогресс. Текущая модель предназначена для написания текстов по описанию пользователя и ответу на вопросы по тексту, а также переводу. Но в новой наверное нужно будет что-то, требующее рассуждений.
Интересно, нельзя ли имитировать рефлексию в трансформерных моделях за счёт дополнения механизма внимания разрежёнными автокодировщиками (Sparse Autoencoders, SAE). Например, обучить SAE на выходах промежуточных слоев трансформера (активациях FFN). Затем использовать его выходы как дополнительный вход для декодера. Этот механизм по идее создаёт дополнительный источники признаков для декодера и служит "бутылочным горлышком" для сжатия контекста, отключая большую часть активаций скрытых нейронов и учась находить в них главное (может быть получится что-то вроде семантических понятий?).
Т.е. данные после дискретизации, став внутренними представлениями трансформера, с помощью этого дополнительного механизма сжимаются в "семантически очищенные" признаки для обратной подачи в декодер, как дополнительный источник информации. Мне кажется этот процесс может быть похож на рефлексивную фильтрацию, когда модель как бы внешне "обдумывает" свои внутренние состояния и оставляет только те из них, которые повышают её точность.
Мне кажется упущено что-то существенное. Перечисленные: дискретизация, рекурсия, рефлексия в машине - это уже запущенные по какой-то внешней причине процессы. Они не нужны самой машине до запуска. Покрутившись некоторое число итераций и достигнув первоначально поставленной цели - они не нужны ей и после.
Возможно, условие, которое лежит в основе возникновения сознания - потребности, присущие живой материи, например клеткам мозга. Они так устроены, что им нужно искать друг с другом связи. А сигналы от всех органов тела вносят коррективы, каким связям закрепляться, а каким распадаться. Дальше всё зависит от среды. Если организму для достижения своих потребностей требуется разрешение сложных противоречий среды и есть время для приобретения опыта от взаимодействия с ней - в мозгу формируются сложные связи. И уже на каком-то уровне их сложности появляются эти паттерны, организм приобретает способность действовать осознанно.
Имитировать сознание в машине наверное можно, но это всё-таки скорее будет некоторое приближение, позволяющее подняться ещё на одну ступень автоматизации обработки информации. Зависящее от потребностей живого организма, дающего начальный импульс и последующие, при переходе от одной задачи к другой.
Я тоже с этим экспериментирую - пытаюсь обучить небольшую русско-английскую модель с нуля для написания длинных текстов по аннотации, названию, теме, плану, списку вопросов и т.д. Для этого учителями работают три модели: TinyLLaMA 1B и QWEN05B которые генерируют основной текст и YandexGPT Lite 8B которая формирует сжатую информацию (тема текста, ключевой вопрос и т.д.) для имитации вопросов пользователя. Русско-английский перевод делает моя модель-переводчик (https://huggingface.co/Vladniag/Requestor).
Обучается чистый декодер на 8 млн. параметров (размер модели в формате FP32 всего 26 Мб). На 436 эпохе обучения на одной NVIDIA 1080 пока что генерации получаются вот такими: https://disk.yandex.ru/i/Wx5k0rpgb_ryNQ
Сколько нейронов у современных моделей сложно сказать сходу, потому что в искусственных нейронных сетях это абстракция, а работа ведётся с матрицами весов, отражающих связи между слоями. Условно аналогами "нейронов" в них можно считать активации (выходы слоёв), например векторы в скрытых слоях модели. А число параметров, которыми характеризуют сложность модели - это приблизительный аналог связей между нейронами в биологическом мозгу.
Чтобы понимать разницу чисто количественно и приблизительно:
- число параметров самых современных и крупных моделей ИИ составляет 1-2 трлн.
- в мозгу среднестатистического человека таких связей порядка 100 трлн. Причём они постоянно обновляются в процессе приобретения жизненного опыта. А в модели ИИ - "застывают" после завершения цикла обучения, который очень затратен и по этой причине не может быть непрерывным.