Обновить

Комментарии 55

Красным должен быть
Красным должен быть

Это Apple m6ai будет красным.

Чтоб быстрее? Тогда ещё шашечки надо. И надпись "WAAAGH!!!"

Тоже думал о таком направлении, зачем хранить матрицу в памяти, если можно сделать ее в кремнии/стекле и перемножать на логическом уровне.


Жду когда туда запечатают модель аля GLM или QWEN на 500-1000B в 16 битах, чтобы было хотябы 250,а лучше 1000ток/сек и будут продавать по 100$.

А если и LoRA будет доступна, вообще щик.
Интересно, а как там LoRA устроена? Отдельный универсальный вычислитель для нее?

Транзисторный бюджет не позволит. Даже гигант Cerebras содержит всего порядка 4Т транзисторов, а тут надо вписать 1Т параметров по несколько бит.

Значит прийдется вспомнить дядюшку Мура и продолжить увеличивать количество тарнзисторов на кристале и далее. Что дает надежду что через пару лет таки возможно будет запихать модели по более 1Т транзисторов.

Можно разбить на несколько чипов, по одному чипу на каждый слой.

Так память тоже не лезет в плоскую структуру - стекируют пачкой тысячи слоев, и все отлично.

Гнаться за размером модели в хардваре это тупик. Этот подход взлетит только если мы найдем способ делать супер-умные модели на 1-2B параметров - вот их можно штамповать на кремнии миллионами

"Заскринил вернусь через год". Серьезно, мелкие модели умнеют достаточно быстро. Но кстати не обязательно чистые LLM пихать. Гораздо интереснее "железить" vison, голосовые, переводчики. Они как раз менее 1 до 3.

Да, но чтобы найти наилучший способ быстрее всех нужно больше золота токенов, и желательно не арендуя для этого ферму Церебрасов. Так что подход имеет место есть. Ну и какая-никакая вариативность присутствует за счёт возможности изменить маски.

Уже написали "мелкие модели умнеют", а я добавлю: "большие тупеют" - т е их возможности не растут линейно с увеличением весов и это уже заметно. Тут опасность только в одном: застрять в текущей архитектуре llm и прекратить поиски нового. Но судя по всему это произойдёт и без "заморозки" в транзисторы. Просто по экономическим причинам. Так что в ближайшие 10-20 лет такой подход может "взлететь", вернув зарвавшегося Хуанга с небес на землю обетованную... 😁

Устаревать будет через месяц.

Надо предусмотреть перешивку весов. Я думаю дойдут и до этого. В принципе не сложно к каждому транзистору добавить ещё один вывод, потенциал на который будет подаваться из флэш памяти при включении. Архитектура самой сети почти не меняется последнее время. Меняют только алгоритмы обучения и обучающую выборку. Раз в год будут выпускать апдейт с новой архитектурой. А если это всё стагнирует ещё больше, так и реже. М б какие то блоки сделают полностью программируемыми. Например полносвязные блоки не меняются уже сейчас вообще. Все изменения в архитектуре блоков "внимания". Значит можно выпустить гибрид, где будет Н полносвязных блоков и М "голов внимания" в виде тензорных блоков с памятью.

Или реализовать как обновление микрокода процессоров.

НЛО прилетело и опубликовало эту надпись здесь

интересно, какая стоимость у такого решения - да, решение быстрое, но неужели компании будут каждый месяц (или как часто там выходит очередная модель?) покупать новые чипы?

Есть задачи, где можно долго работать без обновления, например голосовые ассистенты

Рано или поздно прогресс замедлиться и уже выходящая через месяц новая модель не будет значительно лучше прошлой. Тем самым такое решение станет крайне выгодным, когда модель до выхода в историю будет жить 4-5 лет.

А пока компания может нарабатывать техническое умение, связи с клиентами будущими и тд

Повскрывают крышки чипов и дорисуют карандашом нужные перемычки, как когда-то разблокировали процессоры AMD.

Нет, но это подойдет для носимых локальных ассистентов.
Частично можно будет патчить софтово по факту.

Можно хардкодить не всю модель, а некоторые "эксперты" в ней, где быстрый возврат инвестиций. Например, кодинг по подписке максимально быстро окупится.

А ещё можно прошивать аппаратные решатели дифуров в частных производных - они не скоро устареют..

Ну наконец-то, первый ASIC для LLM! 17 тыщ токенов\сек, это как-то очень дофига прям. Еще и разьемы какие-то спереди, идущие напрямую в чип - видимо оно как-то расширяется или параллелится.

>17 тыщ токенов\сек, это как-то очень дофига

Llama 3.1 8B это мусор.

> 20-кратном снижении стоимости производства и 10-кратной экономии энергии.

на GPU можно запустить gpt получе, а данный одноразовый ASIC стал ненужным мусором ещё не успев с конвейера сойти. так что detected only "20-кратный 3.14здёж"

Llama 3.1 8B это мусор.

Умнее Алисы (старой) и Siri (старой). А они работали в таком режиме лет 5.

стал ненужным мусором ещё не успев с конвейера сойти.

opus? who cares about opus? codex 5.3 has been the industry standart for 20 minutes

"Llama 3.1 8B это мусор"
Но сам факт что 8B модель выдает 17к токенов

Можно засунуть квин 8B, она уже вполне для базовых задач. Аля асситент ТП/Агент для внутренний базы знаний.
Еще пару лет, и 8B модели будут на уровне сота моделей, и сама компания сможет спокойно модели по больше пихать

8B это уже не мусор. Решения принимать она уже умеет, сказки писать и ролевые игры тоже. А еще это llama 3, там намного выше качество, гигачаты могут себе в жопу свое мнение засунуть при том же размере. Но им это не поможет.

на GPU можно запустить gpt получе, 

Ну так и запускайте на своем gpu "получе". Когда эти ребята туда дипсик засунут, рынок ИИ будет содрогаться очередной раз.

Как бы куртка не убил их..слишком уж явные конкуренты.

на GPU можно запустить gpt получе

Это на каком GPU? На кластере A100? Ну можно. А одна карта, даже 5090, едва ли вытянет 8B модель с хорошей производительностью.

За те же деньги ни одна соло карта из потребительских не потянет модель лучше или хотя-бы на равных, не говоря уже о специализированных, которые будут в десятки раз дороже.

17 тыс. в сек. - значит потенциально обслужит несколько сотен человек в моменте.
Если инференс (эти 17К) это самая энергопрожорливая задача, то чем быстрее он "выплюнет" токены, тем меньше затратит энергии.

Получается эта штука одна как несколько стоек с GPU. Ну, если не обращать внимания на 8b. И то.

Железка, опередившая свое время. Сейчас еще рано хардкодить модели, они не стабилизировались еще, каждый день что-то новое выходит. Веса тем более.

И таки да, чип в этой конструкции должен быть съемным и иметь стандартный сокет, чтобы не плодить электронный мусор на частой замене.

Так это же только начало, они пока пробуют и нарабатывают компетенции, что бы не опоздать к тому моменту когда модели стабилизируються.

Опередившая насколько, на полгода? Да, модели в железе нужны поумнее, но нужны сейчас. Для генерации и фильтрации синтетических данных на обучение более умных моделей. И если производство микросхем будет дешевле затрачиваемой электроэнергии, то будут хардить каждую новую версию.

Ну там не только электроэнергия, но да.

А какие перспективы стабилизации? Непрерывный экспоненциальный рост, асимптота или обрушение?
И ведь если один стартап вышел из стелс-режима, это не означает, что это из-за лёгкого подвсплытия айсберга.

В будущем возможно там не один чип будет. А что сьемный - сомнительно. Они ж тоже хотят хлебушек с икоркой. Ну еще и физика такая злая штука - на разьемном сокете уже начинают играть роль СВЧ приколы, на процах это еще как-то вывозит (буфера), а в реальном времени злые частоты, паразитные емкости и прочие индуктивности казалось бы каких-то контактов. Эти приколы уже давно вылезли в шинах, поэтому битность повышают.

Возможно как раз таки начали вовремя, когда что-нибудь дозреет и какой нибудь гигант захочет выпустить пару миллионов девайсов с приватными носимыми персональными ассистентами - они будут тут.

А вот интересно, современные технологии позволяют собирать на чипе аналоговые блоки такой же плотности, как цифровые? Нейросети очень хорошо ложатся на аналоговые вычисления же. В выхлопе будет феерическая производительность и малое энергопотребление.

Перемножение матриц в аналоге можно сделать быстрым, проблема в точности и повторяемости. Действительно, для LLM в какой-то мере можно пренебречь этим, но подозреваю что по точности ещё пару порядков не хватит аналога

Венчурным капиталистам сейчас можно продать любую дичь, если в презентации есть слова TSMC, LLM и в 10 раз быстрее Nvidia. Ребята из бывшей AMD просто нашли способ красиво сжечь 200 лямов. Сделают красивую демку, продадут стартап Гуглу или Амазону на запчасти и уйдут в закат)

В гугле точно дураки не сидят, поэтому они не будут покупать стартап лапшы на уши.

Но это можно продать инвесторам :D

В данном случае, стартап вполне логичен и с потенциалом.

Вот и мозги для роботов

Я сейчас продумываю вариант двухкомпонентного робота в качестве очередной поделки, где мозги будут "разделены" между роботом, и его базовой станцией.

Так, робот обладает небольшим (относительно) набортным вычислителем, а за всем сколько-нибудь сложным обращается по WiFi к "базовой станции", где может стоять нормальный ускоритель с аппетитом до киловатта.

как я понял транзисторы для этого не нужны, достаточно резисторов, или нет?
Резисторы должны быть проще/дешевле

По идее там вообще перемычками можно все сделать. Масочное ПЗУ. Ну вот оказалось что транзисторами вроде бы дешевле. Посмотрим, поглядим, одно дело схема другое дело технология, а в ней мало кто разбирается. Я уж точно нет)

Перемычки плюс диоды.
Кстати, можно еще и сделать однократную прошивку (прожигание), что позволит клепать огромное число одинаковых чипов (что дешево) а прошивать перед продажей наиболее свежей версией сетки.

А что сейчас с быстрой энергонезависимой памятью? Мемристоры или типа того.

Может какая-то очень быстрая на чтение « под задачи «флешка» может быть даже с медленной / однократной записью?

Основал Taalas Любиша Байич

Так вот, оказывается, в кого стреляла Сара Коннор...

Интересно, как это работает с MoE моделями? И подобный подход вообще применяют к мелким? Типа 12 экспертов по 8b каждый.

у квина полно моделей типа
Qwen3.5-35B-A3B
Qwen3-Coder-30B-A3B-Instruct
Qwen3-VL-30B-A3B-Instruct
т.е. каждый эксперт по 3 миллиарда параметров
а есть и более толстые
Qwen3-235B-A22B-Thinking-2507

В целом наверное можно собрать пакет из таких чипов (наверное сразу объединенных в одно изделие, они ж должны быть уникальными) которое будет достаточно мощной системой МоЕ.
дешевый корпоративный ЧатГпт...


А теперь из кремния это положим в оптический чип и получим часть мозга для робота!

Впихнуть в чип модель для распознания образов и получим глаз робота. Автомобилям с автопилотом зайдет просто на ура.

Да и домашний робот...
один чип на зрение, один на распознание голоса, один небольшая локальная ЛЛМ для инструментов и быстрого принятия решений, плюс обычный проц для работы агента со скилами, и для особо сложных задач - выход в инет с возможностью подключаться к большим ЛЛМ.
99% задач эта штука будет тянуть локально без проблем.

Получится очень неплохая платформа для МАССОВОГО робота. Автономная, дешевая. достаточно быстрая и безопасная, поскольку не гонит 100% информации в инет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости