Comments 59
Не понятно почему ллм не понимает.
У нее есть какое то представление о словах, причем не обязательно основанное только на текстах, гугловские модели понимают и звук и картинки.
У человека есть какое то представление о словах, человек может не видел море никогда но вобщем и целом понимает что это.
В чем разница с ллм?
Во-первых, непонятно зачем вы даете оценку человечеству и искусственному интеллекту, не разобравшись полностью в теме, вот несколько статей, в которых сравнивают человеческий мозг и AI:
https://www.techtarget.com/searchenterpriseai/tip/Artificial-intelligence-vs-human-intelligence-How-are-they-different
https://stanmed.stanford.edu/experts-weigh-ai-vs-human-brain/
https://magazine.columbia.edu/article/artificial-intelligence-vs-human-brain
Вам можно даже не читать статьи целиком, чтобы понять, что человеческий мозг намного более мобильный и уникальный на данный момент, по сравнению с ИИ.
Во-вторых, если вы хотите выразить свою точку зрения уважительно, то стоит воздержаться от пассивной агрессии, навешивания ярлыков.
В-третьих, просьба подкрепить ваши утверждения статьями/исследованиями, написанными специалистами в области ИИ и/или человеческого мозга, а не диванными экспертами.
У ИИ нет "мозга" да и корректное название ВИ, а не ИИ. И разумеется ВИ обгоняет и будет еще больше обгонять обьезьянок, они будут плакать, колоться, сопротивляться, чтобы в итоге принять. Всё это уже было много раз с новыми эпохами и этот раз не становится исключением.
Если кидаться бумагами, то начать нужно с бумаг по интерпретируемости ИИ от Anthropic. Потому что они показывают, как ИИ "думает" крайне высокоуровневыми концепциями - и как их с помощью SAE можно пытаться их находить и ими манипулировать.
В ту же сторону - "модели мира" у ИИ. Даже на крохотных масштабах у LLM есть внутренние репрезентации - у тренированного на шахматных партиях ИИ внутри есть репрезентация состояния шахматной доски. Несмотря на то, что шахматную доску этот ИИ ни разу не видел, и учился только на записях ходов.
Так что разница между мышлением человека и ИИ не так уж и велика. Только мешкам с мясом от этого немного дискомфортно.
Про мультимодальнсть - да, надеюсь очень скоро нейросети научатся анализировать одновременно больше каналов информации, и в этом направлении уже есть большой прогресс: тот же Gemini2.0 уже может в три канала: энкодит изображение+звук+временной ряд в одно векторное пространство
Тем не менее разница есть. Понимание - это не только наличие знания, что "кит и млекопитающие имеют тесную связь" и умение его изложить, это так же обладание критическим мышлением, способностью устанавливать причинно-следственные связи, опровергать/поддерживать/критиковать/проверять логическую согласованность/искать противоречия в новой информации. Нейросети же пока из-за архитектурных ограничений не могут формировать устойчивые концептуальные связи между данными, более того ллмки не хранят факты, только паттерны
короче говоря, есть куда развивать ллм)
Проблема существующей мультимодальности в том, что эти каналы как бы оторваны от основной модели и не дают ей полного понимая. Наверняка часто там вообще просто картинка в промт конвертируется. Истинная мультимодальность будет тогда, когда ты отправляешь ему картинку, а он тебе с помощью ascii или векторного редактора пересоберёт её
Это уже будет не языковая модель, а нечто другое.
Разница в том, что у некоторых людей есть опыт взаимодействия с этими словами. Если человек не только не является океанологом, но даже никогда не видел море, и только в целом понимает, что это такое, вы будете доверять его суждениям по поводу моря? Если у человека нет детей, с детьми он никогда не работал, а только читал про них, вы будете доверять его педагогическим советам? А нейросетям, почему-то, доверяют.
Можно считать, что понимание нейросети ничем не отличается от понимания человека. Но тогда не стоит забывать, что это понимание не уровня настоящего эксперта, а уровня среднего диванного «эксперта» из интернета. Буквально, представьте себе персонажа Светлакова из Нашей Раши, который может читать все газеты и все телепрограммы в мире. Вот это в точности и есть нейросеть.
Если у человека нет детей, с детьми он никогда не работал, а только читал про них, вы будете доверять его педагогическим советам?
Есть такой автор чрезвычайно популярных книг по воспитанию детей, Бенджамин Спок. Дети у него были, но их воспитанием он не занимался.
Доказательство того что LLM ничего не понимает очень простое - ни одна LLM не умеет 100% правильно делать даже элементарные математические операции ( https://habr.com/ru/articles/918138/ ) потому что если числа достаточно большие, то и результатов так же много и ей их не предоставили. Человеку достаточно объяснить НЕСКОЛЬКО правил элементарной математики и он сможет считать правильно числа любой длинны. А вот LLM нельзя скормить правила, ей нужно сгенерировать терабайты терабайтов входных и выходных данных и потом на них обучить ее. LLM это тупой заучка, который не понимает сути и не умеет думать. Вот когда LLM на входе будет получать не терабайты соответствия входных и выходных данных, а единичные правила обработки данных вот тогда он и сможет приблизится к реальному интелекту.
и он сможет считать правильно числа любой длинны
не сможет со 100%-й точностью, все равно рано или поздно ошибется по невнимательности
Сможет, потому что человек догадается использовать калькулятор. А вот LLM модель никогда не догадается использовать супер калькулятор на котором она запущена чтобы произвести математические вычисления потому что для нее что помидор, что 3458467435789 одинаково не понятные сущности.
вообще-то, LLM-кам сегодня дают доступ к внешним тулам
для умения использовать внешние тулы даже бенчмарки есть
так что она не только к калькулятору, но и к интерпретатору Питона обратится
Ну у почему тогда LLM модели ошибаются в 10%+ математических операций? Сбой CPU :-) ? А потому что вместо калькулятора начинают как обычно угадывать следующее слово.
То, что LLM вообще может считать в уме (и не ошибаться, пока числа маленькие) - это эмерджентное свойство, на которое не рассчитывали, когда создавали LLM
LLM - языковая модель, она нужна для решения языковых задач. Это изначально был тул в арсенале исключительно NLP-шников. А трансформеры изначально изобрели для перевода
А потому что вместо калькулятора начинают как обычно угадывать следующее слово
Если вам нужно обращение к внешним тулам, берете реализацию, которая это поддерживает (например, ChatGPT), и говорите, чтобы модель вызывала интерпретатор Питона
Математические операции это как лакмусовая бумага галюцинаций LLM которые элементарно проверить. А вот языковой ответ проверить намного сложнее, но от этого LLM бред не становится достовернее. Я вообще в офигении от Google AI ответов. Если тема не распространенная то там такой бред, хотя с первого вгляда выглядит все логично. А все потому что LLM нихрена не понимает что генерирует, но зато математически очень вероятно что так и должно быть.
лакмусовая бумага галюцинаций LLM которые элементарно проверить
Я еще раз повторяю, счёт для LLM - это эмерджентное свойство; модель для этого не создавали, это просто прикольно, что LLM в принципе может считать. Точно так же LLM не учили играть в шахматы - а они, оказывается, могут. Настоящая лакмусовая бумажка для LLM - это языковые задачи: перевод, саммаризация и обратная задача (развертывание), исправление грамматики, Q&A через RAG, креативное письмо
вообще в офигении от Google AI ответов
это плохая реализация - они используют крохотную LLM
для тех же целей есть Perplexity, там нормальные модели
А все потому что LLM нихрена не понимает что генерирует
не в этом дело. LLM хранит знание о мире в своих весах (в частности, в MLP-слоях трансформера). Когда весов мало - то она знает только самые распространенные вещи, а на остальные галлюционирует. С этим можно бороться с помощью RAG (что гугл и делает), но 1) инфы в результатах поиска может быть мало 2) она может быть недостоверна и/или противоречива (например, модель может принять шутки на реддите за чистую монету)
LLM хранит не знания о мире, о мире LLM ничего не знает. Она хранит упорядоченную информацию о текстах, которые ей скормили и упорядоченно выдаёт её вам. А уже вы, на основе своих знаний о мире даёте высокую оценку этой упорядоченной информации.
Знания о мире будут у LLM тогда, когда ей дадут к миру доступ. Пока такого доступа не давали.
LLM хранит информацию о фактах в весах MLP-слоев: https://www.youtube.com/watch?v=9-Jl0dxWQs8
За знание фактов отвечает примерно 2/3 весов LLM, остальные 1/3 (attention) - за понимание текста
Хмм, а человек даже если догадается, то все равно не сможет ну например усилием воли добыть себе эндорфины. А для модели добраться до регистров процессора из массива данных весов, должно быть и вовсе непосильной задачей. Наверное, это ближе к тому, чтобы усилием воли физические законы менять.
вот LLM нельзя скормить правила, ей нужно сгенерировать терабайты терабайтов входных и выходных данных и потом на них обучить ее
"Скормить правила" можно было машине работающей по правилам, то есть использующим Базу Знаний. - но такие программы (на основе языка Prolog) проиграли лет так 50 назад и вышли в тираж. Хотя шумиха тогда с ними была покруче сегодняшней шумихе с LLM.
Однажды по работе использовал ChatGPT, чтобы узнать молекулярную массу одного вещества в кг/кмоль.
Выдаётся результат: 100 г/моль.
Я прошу дать значение в кг/кмоль.
Результат: 0,1 кг/кмоль.
Потом мне всё-таки удалось убедить ChatGPT, что он ошибается, и правильный ответ будет 100 кг/кмоль. Но он был невероятно уверен, выдавая ошибочный результат.
это с такой аргументацией вы и ребенка научившегося считать до 10-100 причислите к "ничего не понимающим".
насчет счета у нейросетй - так нейровычисления это по определению не точная штука, как и мозг человека, у него тоже мозг не способен складывать сложные числа без промежуточных шагов.
Для того, чтобы утверждать, что нейросеть что-то "не понимает", надо сначала дать конструктивное, полное и непротиворечивое определение понимания.
Удачи с этим.
"Понимание" остаётся плохо определённой философской мутью. Зато производительность ИИ на бенчмарках от релиза к релизу растёт.
производительность ИИ на бенчмарках от релиза к релизу растёт.
«Асимптота — воображаемая прямая, к которой график функции бесконечно приближается по мере удалении параметра в бесконечность, но никогда её не достигает.»
Асимптота — воображаемая прямая, к которой график функции бесконечно приближается по мере удалении параметра в бесконечность, но никогда её не достигает
Это утверждение неверно
https://www.youtube.com/watch?v=1FF4bCOzWWg
Это утверждение неверно
Этого дяденьку попросили написать статью для Большой Советской Энциклопедии. А чего добился ты, %USERNAME%?
Ошибка была в "никогда не достигает"
Ты даже картинку выложил, где график бесконечное число раз пересекает асимптоту
Ты даже картинку выложил, где график бесконечное число раз пересекает асимптоту
Естественно, приведённая цитата относилась к монотонным функциям. Или Вы намекаете на то, что ИИ сначала превозмогёт, а потом скатится?
Я ничего не утверждал про ИИ. Я просто указал на типичную обывательскую ошибку по поводу асимптот. Невежеству не место на хабре
Невежеству не место на хабре
Видите ли, челодой моловек, если бы я в изначальном определении описывал все условия (например, требование к монотонности функции), то ко мне полезли бы с претензиями «чо ты тут заумничаешь?». И именно в силу того, что «невежеству не место на Хабре», я упускаю некоторые непринципиальные моменты — как говорится, «умный — поймёт, дурак — не догадается».
Сейчас бы на серьезных щах использовать такую помойку, как бсэ, в качестве источника пруфов.
До Иск-Инов из романа "Гиперион" нам еще как до Китая в известной позе.
Название - "Почему LLM не знают, что такое «помидор»"
Содержание - как LLM знают, что такое «помидор»
Кодирование смыслов с помощью эмбеддингов - это понимание и есть
Ну в итоге, человек сводит тоже к своим вероятностям. У кого какие помидоры в детстве были, тот так и понимает. А кого не было - по аналогии. Какой нибудь слепой человек с рождения живущий в чистой комнате на внутривенном питании, ничем не лучше модели будет понимать что такое помидор. Хоть весь интернет ему прочитай. ;)
Или вот возьмем четырехмерный куб. Вроде как есть люди способные его представить, ну ок. А механизм четырехмерный? Что-то сомнения меня берут.
Человеческие концепты тоже абстрактны — "помидор" для нашего мозга это просто паттерн активации в сложной нейронной сети нашего мозга. Мы просто дополнительно связываем это понятие с сенсорным опытом, но описываем этот опыт через абстрактные языковые конструкции (мультимодальность). И наш мозг по сути работает очень похоже с принципами работы LLM, с такими же статистическими закономерностями: чем чаще активируются определённые нейронные пути, тем сильнее становятся синаптические связи между ними. И все наши высшие когнитивные способности - эмерджентные свойства, развившиеся в результате эволюционного усложнения и увеличения размеров головного мозга. Не нужно обожествлять уникальность человека. Да, сейчас ещё модели (а языковые модели это именно моделирование принципов работы небольшой части мозга, ответственной за речь) не совершенны: нет долгосрочной памяти, нет истинной мультимодальности, нет прогнозирования и принятия решений (лобная кора) - но это вопрос времени.
нет долгосрочной памяти
В принципе, ее и сейчас можно сделать: либо RAG, либо тюнить веса после каждой интеракции, либо промт менять в зависимости от прошлых интеракций
нет прогнозирования и принятия решений
Reasoning-модели - это именно про это
Кстати, я нашел, что можно просто обычную, не-reasoning модель в промте попросить порассуждать перед ответом, и это сильно улучшает результаты (особенно в тех задачах, где ответ очень короткий, например, оценка качества чего-либо одним числом)
К термину "красный" неприменима характеристика "твёрдость". Видимо, соответствующий признак должен иметь значение "неопределённая вероятность"
все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение. на деле модели извлекают гораздо более абстрактные закономерности, чем понятные нам «тяжёлый», «живой» или «съедобный», но для понятности статьи я старалась использовать интерпретируемые измерения)
все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение
Нет, мы бы увидели 0 не в признаке "твёрдость", а в маске признака "твёрдость"
я понимаю о чем вы говорите, но тут зависит от контекста и архитектуры модели. если маска динамическая, то она будет зависеть от влияния признака на функцию потерь => в маске 0 будет только в случае низкого влияния (иногда признаки маскируются и в случае высокого, но это другой разговор), в этом и смысл селекции признаков. и сразу добавлю про влияние - это зависит от задачи. если модель учится определять цвета и материалы, то низкое значение «твердости» у слова «красный» как раз не будет маскироваться, так как будет информативным
Спасибо, из статьи понял, что забор вполне съедобен.
Отличная статья.
Был бы признателен, если бы вы добавили определение понятию "вектор", чтобы людям, далёким от математики, можно было бы это скидывать
А теперь представьте себе, что вы учитесь говорить на новом языке(например, хинди) только лишь по контексту и ощущениям. Вы не знаете, что значит определённый набор символов, но часто видели в текстах, что после него стоит какая‑то конструкция, так что начинаете говорить так же. Вы не понимаете, что вам говорят люди, но вы слышали, что другие отвечают на эти же слова, и вы повторяете чужой ответ.
Это же классический пример мысленного эксперимента Китайская комната
Почему LLM не знают, что такое «помидор», и как не дать себя обмануть?