ElKornacio Feb 27 at 16:47

Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM

4 min

17K

Machine learning*Artificial Intelligence

+14

Comments 9

drVit Feb 27 at 16:57

В принципе это похоже на то, как возникает решение у человека: сначала "в общих деталях", а потом уже прорабатываются подробности реализации. Возможно, в итоге победит какой-нибудь смешанный подход.

>максимум со скоростью 200 токенов в секунду
Это до недавнего внедрения спекулятивного декодирования, которое на "строгих" темах типа программирования ускоряет генерацию раза в 2?

Сравнивать качество работы с 7В моделями как-то несерьёзно: на домашнем стоящем весьма умеренных денег ПК вполне запускаются 32В, и даже 70В, если постараться.

verax_mendax Feb 27 at 17:17

Я вообще не понимаю, почему до сих пор к разработкам не привлекли биологов/медиков шарящих за брир, а конкретно за формирование ЦНС. Они бы вам многое рассказали как формируется сознание, мышление какие стадии проходит и т.п.

Просто я как человек с биологическим образованием смотрю на это всё и вижу, что буквально переизобретают мозг и движутся именно к тому, что уже и так в природе есть. Давно бы вперёд семимильными шагами бежали.

Почти во всех моделях, которые я видел, пытались "увидеть и услышать корой мозга" притом самых верхних слоёв. Или, к примеру, "анализировать средним мозгом". Я утрирую, конечно, но в целом это с этой стороны именно так и выглядит.

Может быть, где-то за стенами, и есть уже нормальные модели и нам их просто не показывают, во избежание паники, просто не хочется думать, что там люди про самое очевидное не подумали.

cheshirskins Feb 27 at 17:35

Наверное дело в том, что вычислительная машина спроектирована иначе, чем ЦНС, поэтому разработчики, как мне кажется, в последнее время больше занимаются созданием костылей, а не прорывами. Да, эти костыли повышают точность ответа и благодаря им у нас приемлемый для практики результат, но все же.

verax_mendax Feb 27 at 18:49

Да не сильно эта машина иначе спроектирована.

Если уж философствовать, то человек создал машину по образу и подобию своего мышления. Нам, попросту, инородная логика будет казаться "тупой" и мы будем подгонять "мышление машины" под то, что мы считаем "правильным" мышлением. Примерно так же некоторые индивиды говорят "вот тупой, не понимает", когда сталкиваются с людьми другой культуры, только в другой плоскости.

Архитектура мышления, которое мы воспримем как логичное мышление, должна быть абсолютно похожей на человеческое. И проектировать его надо основываясь на вышесказанном.

Это как с аутистами - многие аутисты не тупые, они просто мыслят иначе, чем среднестатистический нормис. Но при этом они, аутисты, будут людьми восприниматься умственно отсталыми, хотя им попросту не объяснили некоторые моменты.

Например, возьмём двух детей и спросим, знает ли каждый из них в чём разница между палкой, чуркой (деревянной!) и бревном. Один из них ответит, что знает, а другой - что не знает. И мы такие: "о - тупой" и показываем на того, который не знает разницу между такими простыми понятиями.

А он по итогу просто не знает, при каких характеристиках палки, палка перестаёт ею быть и становится бревном, и при какой характеристике бревна оно внезапно становится деревянной чуркой.

А второй просто не парится и додумывает как и большинство людей потому что у него ещё в детстве сформировались абстракции определения этих объектов а о границах перехода одного в другое он не думает. Буквально ответил на рефлексах типа, ну но же знает что такое бревно? Знает. Чурка - знает, палка - понятно. Разница? Он в вопросе этого слова просто не услышит. Т.К. мозг в абстрактной части мышления переделает вопрос как "знает ли он что такое каждый из объектов", а не построит задачу определения границ понятий. Почему он так сделает? Так сформулирован вопрос и это менее энергозатратно.

Не знаю зачем я это всё понаписал, правда, но чёт меня понесло. Спасибо за прочтение.

Nullix Feb 28 at 08:44

Да не сильно эта машина иначе спроектирована.

Я не сильно разбираюсь в мозге, но мне кажется нейроны мозга имеют принципиальное отличие от бинарной логики компьютера)

И то что оптимально для компьютера, не оптимально для человека (и наоборот). В том числе, поэтому компьютер значительно превосходит человека в скорости математических вычислений.

verax_mendax Feb 28 at 10:17

Логику математических вычислений в компьютер заложил человек.На принципиальном уровне компьютер вообще может только переводить 0 в 1 и наоборот. Ну, наши компьютеры с двоичной логикой. С троичной там было бы хотя бы поинтереснее. Кстати, троичная, по идее, для нейросетей должна подойти получше.

Так вот. А человек способен оперировать абстракциями - это очень сложное действие. А уж про причинно следственные связи так вообще - не каждый человек способен. А в комп ещё надо заложить логику всего этого.

Тут мы уже в философию упираемся из разряда "всемогущий бог сделал камень, который он не может поднять" - если человеческий разум (не одного человека, естественно) создаст разум умнее себя, то какой из разумов более совершенен? Тот, который может создать разум умнее себя или тот, который создали, но что-то умнее себя создать оно не может?

"Феласаф.ЖПГ" - картинку сами какую-нибудь вообразите. я уверен, ваш мозг на это способен.

Arlekcangp Mar 1 at 10:19

Ну конкретно сейчас проблема состоит в том, что веса модели хранятся отдельно от вычислителя (т е cpu) Помимо того, что нынешние модели с трудом помещаются в оперативную память одного компьютера, так еще и нужно таскать эти данные из памяти к вычислителю и обратно. На gpu память гораздо быстрее и канал шире. Поэтому там всë это на порядок быстрее. Собственно "прорыв" в этой новой моделе в том, что удалось сократить таскание данных на cpu и обратно за счет того, что модель "видит" сразу большой кусок текста и выдает в результате его же, но уже правленный, а не по одному токену, для каждого следующего токена заново подтягивая в память (вообще удивительно, как это работает сейчас на cpu. Видимо канал к памяти все же значительно расширился за последние 10 лет) . С человеком я бы этот алгоритм даже не сравнивал. У человека данные действия происходят на сознательном уровне, а у модели алгоритм просто "вшит".

blackibe Feb 27 at 17:15

Ну, начало отличное! Уровень пока, правда, очень низкий. Много иероглифов и нелогично связанного текста, по крайней мере, для Русского языка. Ждем дальнейшего прогресса. Тема крайне интересна

silkysmooth Feb 28 at 16:22

Выглядит интересно, жаль, что не опенсорс, а так для каких-нибудь нпс в играх возможно идеальный вариант.