Qwertcoser Apr 30 at 17:22

Пять мыслей о возможностях и ограничениях LLM

Medium

6 min

12K

Natural Language Processing * Research and forecasts in IT * Mathematics * Machine learning *

Analytics

Recovery Mode

Translation

Comments 24

Zenitchik Apr 30 at 18:32

В задачах на инсайт нет особого мыслительного процесса. В них есть привлечение информации из других источников. Никакой мистики.

HardlinePeak936 May 1 at 09:00

Да вполне конкретных — модели мира. Быстро проходим по причинам и следствиям логически и всё, вот вам результат, который мы помним либо сейчас вывели. Мозг постоянно этим балуется просто в данном случае (инсайта) для осознанной деятельности понадобилось.

P.s. В меру моего понимания ;)

phenik May 2 at 04:46

Мистики нет, но и полного понимания механизмов пока тоже нет - обзор.

Dhwtj Apr 30 at 20:51

Когда я отправляю на ревью что навайбкодил (редко, но бывает) у меня эффект китайской комнаты: я не понимаю что там, а ревьювер понимает и даже обычно доволен

Бггг

Лучше так не делать: когда сломается будешь волосы рвать на всех местах

HardlinePeak936 May 1 at 08:56

Не знаю интересно ли кому-то моё мнение, но нынешние LLM чисто архитектурно не подходят для мышления, как процесса. Циклами активации ещё ладно (запрос -> ответ -> всё заново), но постоянным вычислением — однозначно и очевидно нет. Это банальное ограничение организованной работы с матрицами, ведь нам нужны все/большинство для вычисления. И тут вопрос живое оно или не живое (разумное или нет) вторичен, хотя ответ на него также подобен — зависит от того, попадает ли такая архитектура под ваше определение. Если вам достаточно внешне осмысленного ответа, то да. Если вам нужен процесс мышления, то нет, но это уже пытаются решить через циклы, скрытые контексты и прочие пути. Если вам нужна непрерывность мышления, то не ждите такого от LLM, вероятно, или, хотя бы, в ближайшее время. Можно попытаться намутить со взятием весов предыдущего вычисления в следующем, но... Вычислительные ресурсы не бесконечные. А если же вам нужно переживание (не путать с ощущением, всякими «квалиа» и эмоциями), то аналогично, но уже более однозначно — нет и никогда не будет, ибо у LLM другая архитектура и она не под это заточена (все мы помним, что она нужна для предсказания следующего токена ;). Остальное же является делом обучения в рамках архитектуры, а иначе говоря — реализации. Если чего-то не так, значит либо вы чего-то не так сделали, либо, в крайнем случае, упёрлись в границу архитектуры. Вопросы? :)

digrobot May 1 at 15:38

Chain of Thought у LLM, это как раз непрерывное мышление, о котором вы говорите. Модель "думает" вслух, как бы сама себе генерирует промпт, и уже дальше размышляет, включив предыдущие мысли в контекст.

IVA48 May 2 at 02:35

Они НЕ понимают смысл того что выдают, а от этого надо смотреть и на все остальное.

digrobot May 2 at 05:33

Дайте определение, что значит "понимать смысл".

IVA48 May 3 at 14:51

Понимать смысл - значит осознавать суть, содержание и назначение воспроизводимой информации, осознавать и использовать причинно-следственные связи для её формирования.

digrobot May 3 at 16:42

Еще больше вопросов появилось, например, что такое "осознавать".
Хорошо, определение не нужно, лучше подскажите, как это можно проверить, каким тестом.

IVA48 May 4 at 02:57

Забалтывание. Смотри толковый словарь русского языка.

digrobot May 4 at 03:52

Словарь это слова, я спрашиваю, как проверить.

IVA48 May 4 at 06:40

Добро, на словах ставим тчк. Проверить алгоритм формирования LLM-моделью выходного контента можно только через log-журнал внутренней трассировки его выполнения для заданного на входе запроса (промта).

То есть как начинается анализ текста запроса, как формируется план его обработки и пошаговый цикл формирования выходной информации. Чем оперирует LLM-модель? Извлекает ли смысл из текста, то есть какие понятия (объекты материального мира) в нем присутствуют, по их связям и отношениям в базе знаний строит логические заключения и по ним формирует выходной контент. Если ДА, то это интеллект. Если идёт просто механическая обработка текста как данных, поиск (подбор) в базе подходящего ответа или по обученному "за этим должно следовать это", то это настроенный автомат формирования ответа.

digrobot May 4 at 07:39

О, это интересная тема. Внутри LLM оперирует своим внутренним представлением, совершенно непонятным нам. Логировать обработку можем, но это мало что дает, там лишь матрицы чисел.
Попытки расшифровать (интерпретировать) этот внутренний язык непрерывно ведутся. Вот староватая статья, объясняющая подробно, вот новость посвежее. Думаю, на сегодняшний день исследователи еще дальше продвинулись. Есть все основания считать, что внутри модели формируются и понятия, и связи с отношениями.
По моей оценке, понимание сейчас на уровне исследований мозга человека, где ученые находят нейрон, который активируется, если человеку показать арбуз. Так и в LLM можно найти "нейрон" (токен), который активен, если модель думает про арбуз. Но весь процесс мышления это не объясняет.
И это точно не поиск по базе, потому что модели уже отвечают на вопросы, которых точно не было в обучающей выборке, и для правильного ответа нужно применять логику.

IVA48 May 4 at 14:25

Короче, нужна внутренняя трассировка обработки конкретного запроса, а потом и поговорим.Лучше такого, ответ на который (как вы говорите) нет в базе.

digrobot May 4 at 14:40

нужна внутренняя трассировка обработки конкретного запроса

Но для человека её тоже нет. А то что называется "размышления", так это и LLM генерирует.

IVA48 May 4 at 15:44

Как это нет ? То есть вы не понимаете как сами строите свои рассуждения, даёте обьяснения и делаете выводы ? Вот это интересная новость !

А LLM, правильно говорите, генерирует свои "размышления", только НЕ так, как это делает человек.

Так как не сойдёмся, то на этом можно поставить в нашей дискуссии точку.

IVA48 May 4 at 15:20

По 1-ой ссылке - "Результаты Anthropic и Google подчёркивают прогресс в понимании работы ИИ, но также напоминают о сложности прямых аналогий с человеческим мышлением. В то время как Claude демонстрирует элементы планирования и абстрактных концептов, её «рассуждения» остаются продуктом многослойных математических операций, а НЕ сознательного анализа. Эти работы открывают путь к более прозрачным и контролируемым системам, но также ставят новые вопросы о природе «интеллекта» в машинном обучении".

Поэтому пока корректнее оперировать терминами "человеческий интеллект" и "машинный интеллект" и не пытаться их обобщать.

digrobot May 4 at 15:41

Опять невнятный конструкт "сознательный анализ". Что это такое? Как его пощупать, измерить? Как вообще проверить, что он есть? Это эксклюзивное свойство мясного разума? Мне нужны доказательства. Так-то деятельность нейронов тоже описывается многослойными математическими операциями. Не вижу разницы.

HardlinePeak936 May 2 at 11:41

К слову, оно лишь формально непрерывное (фактически, швы заметны ;), но я и не говорил о чём-то особом — просто указал, что LLM под другое заточена архитектурно и, в любом случае, это вам самим определять, как к ней относится.

IVA48 May 2 at 02:33

Фундаментальный вопрос: понимают ли модели LLM смысл того, что сами выдают ? Ответ - нет. Соответственно очевиден и ответ на другой вопрос: могут ли они вести осмысленные понятийные и логические рассуждения. А от этого уже потом рассматривать и все остальное.

Zenitchik May 2 at 22:07

Вопрос не правильный. Правильный вопрос: какая нам разница, понимают модели LLM смысл того, что сами выдают, или нет?

IVA48 May 3 at 03:16

Большая. Если не понимают, то нет и интеллекта, а только настроенный на предсказания автомат. Гадалок тоже многие любят слушать.

Zenitchik May 4 at 12:18

Если не понимают, то нет и интеллекта, а только настроенный на предсказания автомат.

А разница-то какая? В любом случае он работает и им можно пользоваться.