Search
Write a publication
Pull to refresh
2
0
Send message

Но ведь к этому и идёт, с ускорением.

А вскоре после этого ИИ сами будут "собирать" данные из обратной связи от реальности, и люди будут нужны во все меньшем числе мест. Грань между этими двумя состояниями, возможно, будет не такой уж и большой.

Весь продвинутый, не уступающий человеку в гибкости ИИ, а вернее его внедрение, будет упираться только в вычислительные мощности. Дороговато выходит даже пытаться двигаться в это сторону, экспериментировать, а более подходящих чипов нет, и не будет до тех пор, пока не будет хотя бы понятно наверняка, что работает а что нет.

Мультиагентность, наверное. Чтобы друг друга корректировали, компенсировали и дополняли, с разных точек зрения и состояний (может даже с разным обучением). Все ближе к биологическому мозгу, только вычислительной мощности нужно больше на это.

Грубо говоря, чем больше затрачиваемая при инференсе вычислительная мощность и разнообразность опыта, на котором модель обучена, чем лучше научились взаимодействовать её части, тем больше надёжность и находчивость-сообразительность.

Биохимия там похоже для координации/контроля между далекими группами нейронов (всего мозга), и переключения их режимов, если можно так выразиться.

А цели, появятся неизбежно, как и эго, если дать задачу/награду (модель и сама может выучить награду, награждать себя, и стремиться к этому все больше, желательно - чтобы нейроны, что за неё отвечают, нельзя было быстро переобучить, а то награда быстро деградирует до чего-то странного и простого), и дать модели исследовать мир как она сама того хочет, думать над встреченным, искать информацию. Может смогут постоянно перепромывать им "мозги", как-то по-умному, убирая эго.

Для более стабильной работы нейросети, систем самонаграды, более высокой точности и надёжности, гибкости, сбалансированности и устойчивости к негативным воздействиям и самодеградации, разнообразия, и многого другого, их скорее всего вскоре начнут формировать из отдельных модулей, специализирующихся на своих областях, и давая им работать вместе над задачами. А там и недалеко до всего того, что мы из себя представляем, в какой-то новой форме.

Ссылки модели не запоминают при обучении, особенно сложные, длинные, составные. Это слишком уникальные и редкие в тренировочных данных штуки, а у них слишком мало параметров, чтобы можно было просто втупую все запоминать.

Хотя домены сайтов запомнит, как и какие-нибудь часто встречающиеся ссылки целиком.

Для человека ничуть не легче, проще в целом дается (пока) лишь потому, что у нас сильно больше вычислительной мощности в мозге, и она используется для более эффективного выжимания максимума из получаемых данных, даже при менее эффективном способе подстройки весов.

Но и у ИИ будет не меньше мощности, за дорого - так уже скоро. И в отличии от нас, у него сильно меньше ограничение пропускной способности на распознавание символов, концептов, и вывод действий (пока что без робо-тел). То есть учиться он сможет ~так де глубоко, как и человек, но на данных со всего интернета и более, анализировать далёкие связи и противоречия.

Особенно если хватит размера моделей и вычислительных мощностей, тобы сделать это одной из целей обучения - формировать "воспоминания", что, где "прочел", как это согласуется со свежепрочитанным, и кто врёт или ошибается. Сейчас они учатся сильно проще в этом плане, поэтому в том числе и с более глубоким анализом может быть больше проблем.

Мы недооцениваем, сколько вычислительной мощности у мозга. И как эффективно (но не всегда, не у всех, отсюда в том числе разницы в интеллектуальных способностях) она в нем используется. Как мало нейронов-синапсов, из миллиардов-сотен троиллионов, и как редко, активируется. DeepSeek в том числе в этом направлении двигается, активации меньшего количества нейронов за проход, потому (и не только) у них настолько дешевле и тренировка и инференс, и потому у западных компаний так полыхнуло.

Люди так и учатся. Хватало бы обратной связи от среды, чтобы вовремя поправлять заблуждения, пока они не разрослись и укрепились в нейронах и связях.

В идеале, можно было бы учить их ЛИШЬ скармливая им данные обо всем, не давая им мыслить самим ни капли в процессе обучения.

Но таких данных на самом деле почти нет. Даже лучшие учебники подразумевают какой-то уровень понимания каких-то более основных концептов, в них множество данных не обосновыввются рассуждениями, из которых они следовали. И это все ученику нужно самому додумывать и укладывать в свою нейросеть так, чтобы сформировалось что-то элегантное и органичное, настоящее понимание а не запоминание разрозненных фактов без связи.

Когда у учеников не получается - либо не имели понимания необходимой для новых знаний основы, либо и не хотели, т.к. другие части мозга посчтитали не стоящим усилий; либо уже имеющиеся предвзятости понимания усложнили задачу (сложнее перестроить уже не совсем правильно построенную схему в нейросети, чем дополнить ту, где пока лишь не хватает связи между концептами), либо не хватило эффективных вычислительных ресурсов (страхи, плохое питание, мало кислорода, малая связанность отделов и нейронов мозга из-за генов, травм, отделов, контролирующих эмоции, побеждающих и перехватывабщих внимание, или всего остального, различного рода хаоса).

ИИ также может формировать неправильное, потенциально опасное понимание вещей. Лучше асего это будет лечиться увеличением обучающих данных обо всем и КУЧИ вычислительной мощности (и времени) для их подробнейшего анализа и связи разными, отличающимися моделями, с разных точек зрения.

Люди так же могут лечить предвзятости в понимании, но упомянутые мною выше причины нам обычно мешают.

Заблуждение.

Если базовая модель для генерации данных имеет достаточно развитый "здравый смысл", достаточно дешева для прогона её инференса по десяткам+ раз по каждому кусочку данных, с просьбой их проанализировать, связать, и порассуждать (по какому-то шаблону и/или с с меньшими ограничениями, давая ассициациям всплывать более свободно), десятки+ раз для надёжности и креативности, для увеличения шанса, что у модели-генератора данных появится какая-то полезная галлюцинация, которую можно продолжить, какой-то новый, имеющий смысл взгляд, связь каких-то концептов, ИЛИ у модели-ученика какая-то комбинация перефразирования, аналогий и упоминания других концептов в рамках текущей темы, вдруг даст новое полезное изменение в её структуре.

То обучение будет идти в сторону улучшения. Лишь бы хватало кучи, КУЧИ вычислительных мощностей для анализа всего подряд, связи разных далёких тем, данных и концептов.

Ключевое условие, - модели должны генерировать не только чисто свои мысли, но и иногда (как можно чаще, но не всегда) опираться на уже задокументированные данные, и обратную связь от ученых/экспертов (медленно-дорого), программ-задач-метрик, вроде задач и решебников по математике, программированию (вместе с выводом от компилятора, метрик размера и скорости выполнения программы, оцениваемого удобства для пользователя, безопасности, надёжности, и т.п.). И прочую обратную связь из реального мира, с которой пока туго, но с распространением ИИ-агентов, дело очень быстро пойдёт.

ИИ вышел на основу, в начальном понимании+данных/инфраструктуре+вычислительных ресурсах, с которой он может начать обучаться теми же методами, что и человек. Если в чем-то медленнее, то это из-за его пока упрощенного восприятия ("органов чувств"), из-за сильно неподходящего для этой задачи железа, которое для этого пока применяют (3D compute-in-memory многослойных чипов пока нет), и пока ещё несовершенных подходов, в первую очередь в плане задействия большей части/всех нейронов для каждого следующего токена/единицы информации, при обучении и инференсе, - это очень неэффективно, и от этого уже отходят понемногу.

Они уже слили информацию The Information, что они делали много раз до этого. О том, что o4 будет, и скорее всего будет основана на gpt модели Orion, которая считается либо за также недавно слитый (включили ненадолго в описание Pro подписки за 200$) GPT-4.5, либо 5.0. Смотря как они её возможности сами оценивают, так и назовут, чтобы грамотно отыграть с ожиданиями публики. И готовится к выходу она в ~1-2 квартале 2025.

(O1 и o3 основаны на GPT-4 или 4o)

Там уже идёт замкнутый круг самообучения. О1 и подобные модели улучшают, делают более связанными, подробными и категоризированными тренировочные данные из интернета, на чем тренируется следующая GPT-модель. Затем она служит основой для также автоматизированного натаскивания в решении сложных задач, формирующего следующую "рассуждающую" модель.

Также с новой основной моделью добавляют новые архитектурные изменения, над которыми работали и которые достаточно отполировали.

Со временем (скоро) этот подход сольется воедино, и будет 1 модель с постоянным дообучением. Но для этого нужны некоторые архитектурные улучшения. И если после этого что-то сильно новое появится, в плане архитектуры, что не сомювместимо с имеющимися моделями, то придётся перетренировывать. Благо, улучшенные и глубокие тренировочные данные у них уже есть, как и модели, что помогут с обучением новых версий.

У них многое уже +- распланировано на "AGI" в 2025, исходя из того, что я видел/читал. И постоянные увходы частей их команды безопасности, основателей, и крутых учёных, что были с компанией с самого начала, а также "бунт" Ильи Суцкевера и увольнение Сэма Альмана в прошлом году, все это от эмоционального перегруза от того, что они видят, осознают, и с чем экспериментируют. И разногласий на то, что делать в будущем.

Знают, что по сути участвуют в создании чего-то гораздо значительнее ядерной бомбы, и это уже близко.

Наконец-то до них доходит, что и сложения хватит, а текущие видеокарты, как минимум для инференса подходят отвратительно.

Главное, чтобы не останавливались на полумерах, и сразу пробовали подход BitNet 1.58, и разрабатывали ускорители с его поддержкой.

В чем проблема? Делаете сетку ядер, с особо устойчивой вертикальной и горизонтальной шиной между ними. Добавляете несколько строк и столбцов ядер. Чсть ядер скорее всего будет нерабочей, - перенаправляете данные и команды к резервным. За счёт резервных спецификации чипа можно держать, если только совсем-совсем не неповезет.

Правда, конечно, в итоге с обрезанием по краям и резервными частями, от круглой пластины далеко не 100% площади идёт на итоговый рабочий чип. Но хотя бы не нужно выкидывать всю пластину разом если суперчип не вышел (а без такого подхода он бы почти всегда и не выходил, а так почти всегда выходит).

Вместе с выгодой от урезания лишних шин ко внешней памяти-использованием 44 гб встроенной по максимуму, от сокращения издержек синхронизации, от специализации, и в будущем, 3D интеграции SRAM, + HBM/3D DRAM + вычислительных уровней, это все ещё имеет гораздо больший потенциал, чем обычные чипы, для "рассуждающих" ИИ-моделей будущего и не только.

NVIDIA со своим B100 уже в эту сторону двинулась, 2 чипа сшиты в одной упаковке.

TSMC обещает к 27 году до 40 максимальных размеров чипов компоновать как 1, с уровнем HBM 4 сверху.

Все туда идёт, т.к. перемещать данные между чипами, и даже из оперативной памяти во внутреннюю, стало самым большим расходом энергии и места на чипе. Контакты-интерконнекты-контроллеры-шины. Перенос памяти в чип, конечно, займёт ещё больше места, если это не 3D интеграция, но выигрыш в энергоэффективности и пропускной способности уже перевешивает минусы.

У них почти 100% выход годных чипов, правда, отрезают края круглой пластины, т.к. чип-квадрат, и сколько-то процентов (~10 или меньше) отводят на резервные ядра, и перенаправить к ним данные если какие-то другие не работают. Там проработанная система межсоединений между ядрами/блоками.

В общем, ~то на то и выходит с выходом годных чипов, как с "обычными", маленькими. А может даже и эффективнее. Гибкостью, правда, в каком-то смысле жертвуют.

Самый новый чип у них на 5нм процессе.

Вообще за подобными системами - будущее датацентров, особенно для будущего сверхинтеллекта. Нужно только ещё в 3 измерении его наращивать (многослойный, в высоту), и больше памяти интегрировать.

Сведут к минимуму потери на передачу данных через шины со внешней памяти, минимизируют длину маршрутов от внутренней памяти до вычислительных блоков, а в случае ИИ так вообще может совместят память и вычисления по-максимуму, и вуаля, в 1000+ раз более энергоэффективный процессор-мозг датацентров и особенно ИИ.

У Gemma размер (параметры) известен, и он по-видимому гораздо ближе к Phi, чем у Gemini.

Вот вам еще "в крадце :)"
Не успел сразу ответить, 3 дня назад. Только начал использовать Habr (давно читал без входа в аккаунт), пока проверили 1 комментарий модераторы, пока сам про это вновь вспомнил.

https://habr.com/ru/articles/822141/comments/#comment_26959030

https://habr.com/ru/articles/822141/comments/#comment_26959006

Вы хорошо расписали о лучших приемах квантования, прямо в точку, и понятно.
Но это не совсем то квантование, о чем идет речь в статье. Это Post-Training Quantization.
Что так или иначе, наносит некоторый урон "мозгу" квантуемых моделей (чем больше нейронов и лучше алгоритм квантования, тем меньше урон).

А там начали использовать Quantization-Aware Training.
Обучают модель в высокой точности, но для прямого прохода, инференса, веса приводятся в диапазон -1, 0, 1.
И модель в процессе обучения учится под это ограничение подстраиваться!
Получается хорошо.

Я подробнее это расписал в своем ответе этому человеку ниже, вот тут:
https://habr.com/ru/articles/822141/comments/#comment_26959006

+ мои рассуждения на тему ближайшего будущего нейросетей/ИИ, и их текущих ограничений :)

Возможно где-то не совсем правильно, где-то это займет больше времени/имеет непреодолимые барьеры, через которые исследователи/инженеры не смогут пройти (надеюсь, что нет), но таково мое текущее усредненное видение.

Нейросетям не нужна такая избыточная большая точность, как минимум для уже обученных весов. Начинали вообще с 32-битных float-ов, но по сути, потому, что начали использовать видеокарты, что оказались для обучения и выполнения нейросетей эффективнее чем процессоры. Но видеокарты не были предназначены для расчетов в низкой точности, да и к тому же, в низкой точности их нельзя было стабильно обучать.
Так оно и тянулось годами, где-то делали свои эксперименты с меньшей точностью, но массово оно не применялось, потому что железо все равно не позволяло снять с этого все сливки, + инерция индустрии и подходов.

Постепенно начали переходить к обучению в 16 битных bfloat.

Потом к квантованию весов уже после обучения модели, что по сути "повреждает им мозг", но чем больше у них параметров и грамотнее квантование, тем меньше негативный эффект.

Потом начали задумываться о 8-битных float или int для тренировки, пока не знаю какой там прогресс и стабильно ли это.

И вот задумались, что можно обучать модели с весами сразу ограниченными очень низкой точностью, в данном случае - 1 бит или 1 трит (1.58 бит). Тренируют их все равно с помощью чисел высокой точности, но для прямого прохода, инференса (и при релизе модели) их уже упаковывают в более эффективную форму (для однобитных 8 весов на байт наверное запихнут, для 1.58 битных (тритных) - 5 или 1 значение на 2 байта чтобы не распаковывать потом.

Нейросеть во время обучения учится подстраиваться под это ограничение, и строить свои структуры с учетом этого. И получается хорошо.

А получается хорошо, наверное, потому что обнаружили, что у современных моделей в любом случае вмещается не более 2 бит на вес. Как обнаружили - не знаю, я недостаточно силен чтобы осилить подобные статьи, но вывод понял ;)
https://arxiv.org/abs/2404.05405

Даже если производительность будет немного хуже, чуть-чуть увеличат число нейронов-синапсов, и отыграют эффект. А выигрыш в эффективности инференса все перекроет.

Обучение правда, пока не понятно, можно ли будет сильно ускорить. Похоже, что немного - да. Но в любом случае с 10-100+ раз более быстрым инференсом можно поднять качество моделей на новый уровень, давая им мыслить "за кулисами", перед тем как дать финальный ответ.

Вот связанные интересные исследования:

1.58-битные (тритные) модели:
https://arxiv.org/abs/2402.17764
(до этого от них еще 1-битные были, но те чуть хуже себя показывали.

Вот еще более интересное:
https://arxiv.org/abs/2406.02528
Продолжение этой идеи от других авторов, совмещение с другими и собственными идеями, и результатат - модели без умножения матриц (формально вроде с ним, но когда матрицы состоят из -1, 0, 1, для умножения достаточно сложения или даже битовых операций), без float (вроде?), которые показывают +- такую же производительность, что и модели, натренированные в 16-битной точности.
И к тому же, предложенный ими вариант еще и имеет линейное или более близкое к линейному скалирование сложности расчетов при увеличении размера контекста.

Если я правильно понимаю, эти подходы сами по себе даже на текущем железе раз в 10-100 могут ускорить/снизить задержки/увеличить энергоэффективность моделей, обученных подобным способом.

Но когда еще начнут проектировать специализированные чипы под это, можно ожидать прироста еще раз в 100.

А как на трехмерные многослойные системы на чипе перейдут, + на новые материалы, так еще раз в ~100, в том числе для обычного, универсального железа.

А еще за последний год, и особенно пол года, повыходило множество других способов оптимизации инференса, производительности (качества) модели, умещения больших возможностей в меньшее количество параметров, ускорения обучения.
Сжатие KV кэша, новые подходы для Mixture of Experts, улучшенная разряженность + новые функции активации, You Only Cache Once от авторов 1.58 битного исследования (они вообще большие молодцы!), Multi-Token Prediction, и многое другое.

Часть этого выигрыша направят на улучшение ответов моделей за счет предоставления им возможности думать и корректировать себя (System 2 thinking) собирать информацию, анализировать, и только потом давать финальный ответ.
Часть - на то, чтобы обучать более крупные модели, у которых лучше прокачана картина мира, "интуиция", знания, меньше галлюцинаций. Что должно открыть им больше возможностей для самокоррекции ошибок, рассуждений, и в целом повысить их надежность для применения System 2 thinking.
Часть - на оптимизацию затрат на датацентры.
Часть - на применение наконец новых подходов вроде тренировки моделей не на токенах, что ухудшают их возможности и заставляют их тупить или тратить кучу параметров при обучении на преодоление ограничений токенизации. А сразу на байтах! Это должно их еще больше интегрировать в цифровой мир и открыть их дорогу к огромной мультимодальности скажем так, без промежуточных звеньев и потери информации, но будет стоить сильно больше производительности железа. Хотя, обучаясь на байтах, они обучаются эффективнее, требуется меньше параметров, как минимум в какой-то степени, может смогут этим компенсировать потери в скорости.
Вот одно из релевантных исследований:
https://arxiv.org/abs/2404.19737

Как я понимаю, сейчас начинается позитивная обратная связь, добродетельный цикл.
Одна достаточно хорошая, важно,-надежная, знающая хотя бы в целом критерии что есть правильно а что нет, для многих вещей; топовая модель обучает новые более мелкие модели на своих глубоких рассуждениях на темы, или дообучает сама себя с добавленными параметрами, для построения более эффективных "нейронных" связей, более рафинированной картины мира (хоть и часто без такого же огромного объема знаний-фактов).
Учится учиться, так сказать.
Иногда это разбавлять скармливанием всего интернета (желательно более качественных его частей) и она еще и в целом знания-факты забывать не будет.

До этого, их обучали как, по аналогии с человеком: по сути это как будто ученик с очень хорошей памятью имеет задачу сдать какой-то более-менее простой экзамен, и читает миллионы книг, на самые разные темы, самого разного качества (качество в последний год стали поправлять, как пример, серия моделей Phi), вперемешку, одну за другой, много раз перечитывает их с первой, когда дойдет до последней. При этом не давая себе ни секунды на то чтобы остановиться и подумать о том, что он только что прочел, как это ложится на его уже имеющиеся знания, как их дополняет/изменяет (хотя в какой-то мере текущий подход все-же это делает, за счет самого алгоритма обратного распространения ошибки).
Получается такой зубрила-всезнайка, но не умеющий глубоко думать, рассуждать, знающий очень много, но со слабоватой связью между темами, слабым усреднением и обобщением информации, как минимум на интуитивном уровне. Знающий подходы к рассуждению, но чужие, сам их не поняв и не адаптировав под себя, под то, как его структура мозга выстраивается и какие знания-понимания-факты в нем уже есть, с какими связями...

Выше я упомянул, "слабым усреднением и обобщением информации, как минимум на интуитивном уровне."
А ведь они сейчас чисто интуицией и оперируют, будто печатая эссе на тему вашего запроса под дулом пистолета, без секунды на подумать. Что в голову пришло, то и напишут следующим словом/предложением, и если это будет ошибочно, очень редко могут сами тут же исправить себя, это их сильно отвлекает, и да и не обучены они так себя исправлять во время ответа, а удалить предыдущее слово/предложение, которое их сбивает-отвлекает, из своего контекста, они и вовсе не могут.

Это как я это вижу. Увы, не имею отношения к этой сфере, но месяцев 8 назад заинтересовался, стало очень интересно. Но не потяну математику/нет железа/ни-че-го, депрессия уже много лет, да и ИИ это последняя моя надежда что люди потянут все кризисы что уже начинаются, разом, и все более сложный, для обычного, сломанного, с детства кормленного конфликтующей информацией, среднестатистического человека, технологический мир и общество.

Все это можно было реализовать ещё давно, но ни один человек или команда людей не смогла бы за всю свою жизнь закодировать таким образом столько информации, сколько знают современные модели, вручную, со всеми вариациями и взаимосвязями, неочевидными для людей.

Появилось достаточно быстрое железо и алгоритмы, что позволило автоматизировать процесс обучения этих систем в виде нейросетей. Сейчас осознают, что так много точности, как у float, в общем-то и не нужно, больше минусов чем плюсов, для производительности, памяти, и интерпретируемости моделей.

Я плох в тонкостях железа, но что-то мне подсказывает, что 1-битные или 1-тритные модели можно будет сильно оптимизировать очень крутыми трюками и хитростями.

И это поверх выигрыша от использования в ~10 раз меньше памяти/пропускной способности, замены float на int, умножения на сложение, или даже битовые операции, а точности с 16 до 1 бита или трита (будут пока нет оборудования паковать в бОльшие типы данных, или использовать 2 бита на вес).

Чую выигрыш в производительности на ватт для инференса в 100-10 000 раз :D

А ведь ещё подходы есть, что его ускоряют, куча исследований вышла за последние полгода. Уход от трансформеров к Mamba и другим архитектурам, или ещё лучше к гибрида архитектур, сочетающим в себе лучшие их части и при этом более быстрым чем стандартные трансформеры, особенно за счёт ухода от квадратичной стоимости контекста.

Сжатие KV кэша.

Mixture of Experts

Sparse activation

И многое другое.

Там столько исследований выходит, что ни внимания ни вычислительных мощностей не хватит у команд за всем уследить и все проверить для своих задач.

Жаль только пока так сильно обучение ускорить не могут, все таки там более аналоговый, постепенный процесс, то есть нужна точность и float-ы. На физических процессах в аналоговым оборудовании можно бы наверное было гораздо эффективнее, в плане потребления энергии, их тренировать, чем эмулировать аналоговость на двоичном оборудовании, но его, аналоговое, универсальное и удобное, ещё пойди сделай.

Information

Rating
Does not participate
Registered
Activity