Обновить

Комментарии 18

Если согласиться с Вашими умозаключениями то можно прийти к выводу, что человеческое сознание, мышление невозможно… имхо, если что-то во вселенной было случайно создано из атомов и молекул в ходе беспорядочной эволюции, то это может быть воспроизведено и не случайным способом…

Почему же? Я говорю о том, что современный подход к масштабированию ллм не путь к пониманию так таковому

Так никто толком не знает что такое человеческое сознание. Может оно и невозможно из материальных "кубиков".

Ну по факту это не подход, это надежда. Определение понимания через смысл - масло масляное. Через видеообучение вы придете к привязке связей к физическим законам, но не более. Смысл как таковой, это галлюцинация пространства, отсеченного границами отрицания.

Я согласен с тем, что через видео не получится достигнуть полного понимания, ибо не хватает чувствительности, нужна осезаемость, но закрыть всё остальные потребности мы можем, почему нет?

решение нашлось не в рамках старой теории, а через введение принципиально нового понятия – инвариантности скорости света

Такое впечатление, что стоят эти самые ученые перед металлической стеной большого пульта управления выкрашенного серой шаровой краской с множеством крумбелей, которые регулируют различные параметры и закотелось им перещелкнуть крумбель с надписью "Скорость света", не получается, блокировка стоит, а давайте снимем блокировку - сказали ученые - и посмотрим что получится, блокировку сняли и перещелк.....

Современные LLM это очень дорогой и умный попугай, они подбирают текст. Анализируют большие объемы данных и просто сопоставляют самые популярные варианты. Так и работают трансформеры, мы же пойдем в обход и постараемся дать модели сенсорный опыт.

Как? С помощью обучения на видео.

Вы критикуете архитектуру LLM, но в качестве решения почему-то предлагаете не менять её, а добавлять дополнительные домены данных. С видео или без, если под капотом будут работать те же самые трансформеры, архитектурные ограничения никуда не денутся.

Как раз наоборот, я там пишу о том, что вместо трансформеров хочу использовать другую логику, и выбрал симуляцию

Современные LLM это очень дорогой и умный попугай, они подбирают текст. 

Так и человеческий мозг делает то же самое. IMHO современные LLM представляют собой человеческую память, обученную на огромном объеме данных, но отделенную от всего остального, что есть у нас в мозге.

Хотите почувствовать себя LLM?

Какое слово вам приходит следующим в сознание: почтовый... ящик?

Угадал? А если вам скажут - задумайте инструмент... Задумали? А теперь задумайте цвет...

Итого вы задумали молоток, и конечно же красный ?

И последний тест - мужчины скорее всего попадутся. Продолжите - "Он принес ящик... водки?" ;)

Но в человеческом мозге есть и другие функциональные системы, кроме памяти. Они как раз и отличают нас от LLM. Сознание, внутренний диалог, интуиция (подсознание)...

Моё IMHO, вдохновленное прочтением вашего комментария.
Нам стоит научиться думать про LLM так, будто это "внешняя кора" головного мозга... Или внешняя память если угодно, я просто подбираю аналогию. Это может быть как умный тезаурус для программиста так и адаптационный инструмент для людей перенесших инсульт.
В общем у меня есть неказистое, но по моему достаточно ёмко определение - "когнитивный костыль".
Просто именно в этом я вижу силу и будущее текущей итерации генеративный алгоритмов. С их помощью мы сократим разрыв между домохозяйкой и ускорителем элементарных частиц, скажу я для красного словца. Извините за поток сознания. Но вы сами виноваты :3

Дело в отсутствие понимания, мы не предугадываем следующие слово, как это делает ллм

Наше понимание строиться через органы чувств, мы знаем что это почтовый ящик, ибо видели, слышали и трогали его, чтобы создать пониманиющую модель нужно добиться того же, а обучение на видео закрывает половину потребностей

В россии растёт (или выросло) огромное (отличное от нуля) количество людей, которые ни разу не видели почтовый ящик, не говоря уже о том, чтобы потрогать его. Почта почти мертва, а доступ к фильмам и интернету имеют не все.

В мире есть множество абстракций, которые просто нереально увидеть, та же математика может быть или авизуальной, или в принципе не иметь геометрических аналогий (по крайне менее, прямых). Например, теория чисел - геометрией там едва ли пахнет. Но это не мешает составлять криптографические алгоритмы.

Любой, кто имеет достаточно красные глаза, чтобы комфортно пользоваться текстовым терминалом, скажет, что текст - это универсальный инструмент. Любой цивилизации предшествует письменность - исключительный способ передавать почти любую информацию. Наш естественный язык преследует единственную цель - дать возможность передавать любую информацию, в том числе взаимоисключающие параграфы: что будет, если всеразрушающий шар столкнётся со всеостанавливающей стеной? Или может ли всемогущий бог создать камень, который он не сможет создать? Задайте эти вопросы LLM и (возможно) вы немного удивитесь.

Именно тогда появится пространство для экспериментов с новыми архитектурами. Не потому, что деньги волшебным образом перетекут в правильные проекты, а потому что кончится безумие, когда деньги получает тот, у кого больше параметров.

Это логическое безумие. Также DeepSeek, которые взорвали рынок тем, что сделали всё в разы дешевле применим секретные ниндзюцу. Проблема сверхзатрат и кризиса AI в том, что очень легко себе представить, как он заменяет собой целые пласты рабочих профессий, замену которых ещё 10 лет назад было едва ли возможно представить.

Вообще, главная проблема топика в том, что автор глубоко не понимает ни реальные принципы работы LLM, ни настоящий смысл AGI. Суть не в том, что AGI не, то, невозможен, не сё. Суть в том, что AGI нафиг не нужен. По крайне менее - в ближайшие лет 10. Потому что он будет дорогим, медленным и у нас есть свой AGI на плечах. Даже если представить, что компьютерный интеллект будет чуточку умнее, его убьёт высочайшая стоимость.

Зато необходимо дальнейшее развитие LLM. Со временем они должны кластеризоваться на предметные области, они радикально изменят ландшафт рабочих профессий, в перспективе десятка-двух лет грядут нереальные изменения в областях юриспрюденции и медицины, где применение нейронок уже дают существенный импакт, но регуляторные практики замедляют его тотальное внедрение. Но (не) очень скоро в "бесплатную" страховку (в той же США) будут включены почти исключительно сервисы на базе LLM (выглядит как сценарий для "Чёрного Зеркала").

Злая ирония в том, что AGI будет (на сейчас) слишком тяжёлым. Да, должен (будет) как бы уметь всё, но это абсолютно также, как и с людьми - уметь всё он будет "по чуть-чуть". Однако в последствии, когда рынок немного подустаканется, следующие исследования будут в направлении унификации, синергии и объединения LLM различных областей, и вот здесь вангую рождение AGI. И самая большая проблема с оным в том, что конкуренция с ним априори бесмысленная. Тут или путь синергии или отчуждения.

Считаю, что с AGI история повторится. Сейчас идет постоянный рост LLM-моделей. И когда они будут уже не на 660 млрд параметров, а на триллион и больше, их просто назовут AGI. Никакого качественного скачка не произойдет – просто очередной ребрендинг, как это уже было с «экспертными системами» вместо ИИ или «машинным обучением» вместо нейросетей.

А у вас перемешаны понятия, которые вы плохо понимаете. Триллион параметров есть УЖЕ. Никто не делал ребрендинга машинного обучения и нейросетей. Второе входит в первое, наравне с какими-нибудь методами отжига или k-средних. Нейросети всё вытеснило и теперь это (почти!) синонимы.

Проблема в том, что модель не понимает. Всё, что она знает, что вот этот двоичный код это то же самое, что яблоко, и то, что этот код встречается вот в этом и в этом контексте. На этом всё понимание. То есть просто текста мало, нужны другие данные: звук, картинка и динамика времени.

А английский язык это 7-битный код. И что? Можно сказать, что русский - это 35-ричный код. Всё есть код. В этом суть кодирования - переписать информацию из одного вида в другой. У нас в голове есть своё кодирование, но очень сложное и "эврестическое". Банально за счёт упрощения (неважных) элементов LLM могут быть в разы эффективнее. Правда, тут вопрос - что есть неважное, но это совсем другая история.

Вам бы советовал сначала почитать умных книжек, потому что сейчас выглядит как "слышу звон, да не знаю где он". Гиперболическая метафора, что LLM "угадывают" следующее слово - это гипербола и метафора. Ну блин, но конечно это вообще не так, ну это ж бред какой-то. LLM строит предсказания в N-мерном (смысловом!) пространстве, которые можно контролировать различными параметрами (например, делать штрафы повторениям или настраивать температуру). Трансформеры - это метод построения нейросетей, дающий колосальные приемущества в обучении и работе. Но это не они так работают, а любые LLM. При этом именно self-attention даёт возможность на порядки меньше галюцинировать и лучше "понимать" смысл, таким образом улучшая "подбор" следующих слов (токенов). Очень важно здесь обращать внимание на кавычки. Если использовать более конкретный и прямой смысл, то вместо одного слова придётся писать несколько предложений, полных математических терминов. Не стоит строить далекоидущие выводы на основе научно-популярных публикаций.

Что касается мультимодальности... Ну блин, да. Её используют. Но повторюсь - текст - универсален, видео - нет.

Я понял Вашу мысль о том, что текст это универсальный инструмент и я с ней согласен. Я не избавляюсь от текста, я хочу избавиться от трансформеров, ибо они не смогут дать понимание, которое необходимо

Ответ ЛЛМ модели это сложный математический анализ, наш ответ это цепочка сложных механизмов связанных как раз опытом. Если мы не можем что то получить в очую у нас всегда есть возможность это с чем то сравнить, мы используем причину-следственную связь и прочие механизмы, которых нет у ЛЛМ

А английский язык это 7-битный код. И что? Можно сказать, что русский - это 35-ричный код

нет, нельзя, Вы говорите о техническом кодировании символов (биты и байты), а я говорю о семантическом кодировании смыслов. Любой набор букв технически является кодом, но семантически это шум. Язык это не просто код символов, это код смыслов, привязанных к опыту. ЛЛМ оперируют первым, но не имеют доступа ко второму

Современная проблема ЛЛМ это отсутствие понимания, и об этом статья, модель не понимает что она говорит, у нее есть набор инструкций и все, без понимания и смысла

Проблема "китайской комнаты". Как понять, есть ли у модели понимание?

Ответ ЛЛМ модели это сложный математический анализ, наш ответ это цепочка сложных механизмов связанных как раз опытом.

...наш ответ - это цепочка сложных электрохимических процессов в структурах мозга, выстроенных в процессе обучения. :) Если взять один отдельный нейрон - очевидно, что он не обладает ни сознанием, ни пониманием. Эти категории рождаются где-то выше по структуре.

Почтовый индекс, дрель и синий, ящик мусора. Не всё так однозначно ... )))

Люди думают по разному, на основе своего опыта. Мы довольно разные все, как ни крути. LLM думает иначе, подбирая вероятность того что уже думали люди.

Просто у нас температура 36. При такой выставленной температуре все xLM галлюционируют

Не сработало. Только молоток. Упс.

Человеческий мозг не подбирает слова по частотности, он оперирует смыслами, символами, а слова служат лишь оберткой, помогающей коммуникации, в том числе, с самим собой. Они вторичны. Для LLM они — основа.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации