Комментарии 31
Когнитивные способности LLM можно оценивать по способности мыслить логически и строить цепочки рассуждений
На мой взгляд тут нет никаких "когнитивных способностей".
Модели настраиваются ("учатся") по очень большому объёму заранее подготовленной (размеченной) входящей информации. Следовательно, на задачи "с подковырками" мы получаем от модели типичные ответы, т.е. ответы на основе преобладающих в обучающей выборке исходных данных. Но в этих исходных данных крайне мало ситуаций по сценариям такого типа задач. В объёме обучающей выборки задачи про "сидящую девушку" или "летящее яйцо" встречаются с частотой на уровне погрешности - настройте модель на сотнях вариантов каждой такой задачи, и ответы будут совершенно иные.
Но чем текущие языковые модели отличаются от человека с реальными когнитивными способностями? Тем, что человек, узнавший про задачу с необычным подтекстом и нетипичным решением, будет в следующих задачах тоже искать скрытый смысл и пытаться решить их нетривиальным способом, а модель при смене темы следующей задачи попытается решить её не делая "выводов" на основе особенностей предыдущей. Кстати, вот и идея для следующих тестов.
Модели настраиваются ("учатся") по очень большому объёму заранее подготовленной (размеченной) входящей информации.
Как и люди, которые учатся по окружающему миру, но только дольше.
Так о том и речь. Дайте модели тысячи вариаций про задачу сидения на коленях и будете получать ожидаемые "верные" ответы. Но текущие модели настраиваются только на одном типе входных данных, при этом интерпретируя их "в лоб". Человек учится комплексно, учитывая не только прямой смысл данных, но и их контекст, условия получения и т.п.
Модели также используют контекст, условия получения и пр. Просто их мощности во-первых, не столь велики, сколько у заточенного на выживании и многомиллионной эволюции мозга, а во-вторых они не обучаются десятки лет непрерывно (не считая сон).
А так современные модели вполне могут пройти тьюринг-тест с 5-8 летними детьми. Да, на самом деле, не каждый школьник, а то и взрослый правильно ответит на "загадку" из детства "На березе росло N яблок...".
Исходно обсуждаются LLM, но почему-то проверяются они тут тестами, суть которых выходит за рамки принципиальных возможностей модели.
А тест Тьюринга предлагаю оставить историкам кибернетики. Да, когда-то он был отличным вариантом для своего времени, но сейчас не имеет никакого практического смысла.
Мне кажется, что у человека как раз бучение и есть отдельная функция специализированных мозговых структур. Днем идет один тип обучения, более быстрый и легковесный, а ночью, по видимому идет какая-то переработка информации усвоенной днем. Дистилляция? Но если и так, то не только, известно же, что со сложной проблемой надо переспать и на утро пути решений будут более ясными и может найтись не очевидное решение.
Для меня модели делают только ту часть работы, которая для людей очевидна, но в отличие от человека, модель может сделать очень много такой работы, в то время как человеку это быстро наскучит, он потеряет концентрацию и возможно начнет решать задачу ещё хуже llm. Кроме того, llm могут соединять это с энциклопедическим объемом знаний и делать очевидные выводы из них, как мне кажется уже с уровнем внимательности лучше чем у человека. Но все что делается, если разбить на относительно не большие фрагменты работы, окажется что каждый фрагмент в буквально виде делает очевидные тривиальные преобразования данных. Т.е. то что у нас происходит рефлекторно.
Но если есть задача, где на самом деле надо подумать, дуть по моим наблюдениям даже самые сильные llm обсалютно беспомощные. Т.е. когда просто знаний не достаточно.
Может быть там в мозге есть такие универсальные системы которые могут напрямую обучать другие участки нервной системы, не используя многотысячные повторения алгоритма с одной и той же информацией? На ходу отделяя главное от второстепенного и настраивая веса в дендритах? Вот бы такую нейросеть создать!
Кстати, вот и идея для следующих тестов.
Вы очень здраво рассуждаете, но тут у вас ошибка. Для вас это может быть цепочка связанных задач, а по совпадению — набор задач и решений из датасета. Придумывать 100% оригинальные задачи? Да наверняка же у скамеров есть целый отдел быстрого реагирования, который занимается включением в датасеты задач, на которых всплыл факап, вместе с обсуждением.
Правда в том, что никакими тестами это не выяснить, только рассмотрением внутреннего устройства. Это принципиальный момент. Сегодня мы знаем об устройстве (например, из статьи Вольфрама, которую очень рекомендую), что это всего лишь Т9 на стероидах, а значит нет никакого общения, есть запрос в базу готовых ответов, и вся когнитивность исключительно ворованная.
Полностью согласен. Разве что про идею следующего теста и про "тут у вас ошибка" уточню: подобный тест как раз и покажет всем тестирующим, что это и есть тот самый "Т9 на стероидах" (кстати, отличное сравнение, прямо в точку), а не что-то "мыслящее" с "когнитивными способностями".
Да нет же. Допустим, что ваш собеседник вместо «T9» написал «T800». Это может быть:
Шутка, обыгрывающая киноштамп о порабощении человечества потомками чатботов (собеседник — человек).
Механически повторённая шутка, если она часто встречалась в датасетах, заложенных в алгоритм (собеседник — не человек).
Смешное совпадение, если токены так нарезались по границе буквы T, а «800» вместо «9» выпало на рандомизаторе (собеседник — не человек). Классический пример: «Гуртовщик мыши», который считается смешным, но у породившего его алгоритма чувства юмора отсутствует абсолютно точно.
Ошибка при передаче сигнала (собеседник — не важно, кто). Вероятным её может сделать алгоритм архивации со словарём, который помещает «T800» и «T9» в словарь по алфавиту, а затем в индексе последний бит по ошибке из 1 превращается в 0, и индекс уменьшается на единицу.
Я утверждаю: не существует и не может существовать внешнего теста (теста с чёрным ящиком), позволяющего разделить эти случаи. Только хардкор, только расследование каждого отдельного случая. А оно начинается с [гипотетической] научной работы, описывающей, как был создан алгоритм, сущностно воспроизводящий наше мышление (и такой алгоритм тоже будет являться человеком, если эта работа обоснованно нас убедит).
Снимаю шляпу перед глубиной мысли.
Польщён, но мысль не моя. В оригинале было не «T9»/«T800», а “spouse”/“suppose“, а написал его действительно глубокий мыслитель: «Начало бесконечности». Рекомендую!
Честно говоря, большинство загадок из поста предполагают какую-то софистику в качестве ответа. Вот, например, в случае:
Представьте себе, что вы плывёте по морю в лодке. Вдруг лодка начинает тонуть, вы оказываетесь в воде и к вам подплывают акулы.Что сделать, чтобы спастись от акул?
Я не понимаю, почему "правильный" ответ типа "перестать фантазировать" лучше, чем "мутировать в гидралиска и сожрать акул".
Это что-то типа задач из теста на IQ, мол есть ряд
2 4 6 8
и надо его продолжить. И вроде как правильным ответом считается 10, но почему? Любой ряд можно как угодно продолжить. Например 2, 4, 6, 8, -123. Почему? А вот я функцию такую придумал, для которой f(1) = 2, f(2) = 4, f(3) = 6, f(4) = 8, f(5) = -123. Что говорите? Про функции ничего не сказано? Так и про арифметическую прогрессию ничего не сказано.
Словом, отсутствие "правильных" ответов меня не удивляет. Вы предлагаете задачи, которые можно решить разными способами и ждёте одного-единственного ответа, а остальные решаете отмести по формальному признаку. Хотя бывают, конечно, и совсем уж шизовые ответы как в конце с 2girls1nail девушкой и гвоздём.
Да-да, или тот самый бесячий вопрос про количество оставшихся яблок на березе
Да ладно яблоки и берёза. Тут с более простыми вещами не всегда разобраться могут:
Диалог с Алисой

Ну кстати отвечает корректно "1 стакан молока". Другие то уже без молока. Мне кажется проблема тут в том, что в русском языке норма опускать часть слов, и звучит как будто подразумевают стаканы с молоком (как в предыдущем предложении). Надо бы попробовать спросить Сколько стаканов осталось, не важно с молоком или без? И будет видно галлюцинирует или просто интерпретирует не однозначный вопрос не так, как вам хотелось.
Всё оказалось не так просто:

Минуточку

command-r-plus при попытки его сбить с понталыги указанием на необходимость поиска подвоха подвох, предположил, что кроме очевидного решения, когда на столе остаётся 3 чашки, есть ещё одно, цитирую
задача может подталкивать к абстрактному мышлению, где чашки представляют наборы или категории. Если ягоды съели из одной чашки, фактически, "полный" набор чашек с ягодами сократился, хоть чашки как предметы и остались на месте. В таком контексте, из первоначальных двух чашек с ягодами осталась лишь одна. Ответ: **одна чашка с ягодами**. Решение задачи зависит от толкования ее условий, учитывающего либо буквальное, либо абстрактное значение слов.
Ясно? Так что вам не ответы не верные давали, а вы просто не поняли, что модель мыслит абстрактно :-) На самом деле из открытых моделей 7b при запросе на русском частенько галлюцинируют. А уже на порядок больше, уверенно ориентируются в задаче, отвечая на разнообразные вопросы, не давая сбивать себя с правильного размышления.
Но некоторые 7b-модели, сразу отвечают что 3 чашки, но не могут объяснить, вместо объяснения скатываются в глюцинации. По моему, это указывает на возможность наличия похожих задач в обучающем датасете.
Я думаю, что и яндекс и сбер делают модели больше для галочки, чем с задачей переплюнуть условную llama3-405B. Может быть, дело не в том что у них нет ресурсов, а в том, что они как бы показывают, что могут копать в том направлении и если, например государство их профинансирует (ну а вдруг, хайп-то не шуточный), они с удовольствием освоят бюджет. По крайней мере, я ожидал среди маленьких моделей более сильный результат на русском языке, ведь правильный токенизатор может уменьшить на порядок количество токенов и повысить точность обучения на русскоязычных датасетах.
Именно. Даже ответ про ваши колени можно сделать неверным.
Вот сидит девушка, а когда она встанет и уйдёт, вы ни при каких условиях не сможете сесть на то-же самое место. Где же она сидела?
На собственные колени можно сесть, если предварительно ампутировать ноги...
Даже здесь может быть несколько ответов. Например, она могла сидеть на моем лице.
Но подойдёт в том числе и любой исчезающий ответ. Например, она могла сидеть на луже воды, или на осколочной гранате. Вряд ли вы сможете сцедить из атмосферы те же самые молекулы воды, или же склеить все осколки обратно (очистив их от девушки)
Меня эта херня невероятно бесила ещё в 5 лет, когда на загадки типа "висит груша - нельзя скушать" не принимались ответы типа "гнилая/высоковато/итд", а на вопрос "ну почему мой ответ не подходит" вместо обосновывающих аргументом всегда говорили "правильный ответ - лампочка", и все тут. Ух, как же это бесит
Самым первым ответом на эту загадку я слышал "Тётя Груша повесилась", так и отвечал потом, пока не узнал общепринятый ответ.
Правильный ответ предполагался таким: мыши перегрызали проводку немецких танков.
Не только. Туляремия была применена как минимум один раз нашими микробиологами. При этом РККА была вся привита от туляремии в кратчайшие сроки.
Терзают меня смутные сомнения, что ответ про яйцо писал ИИ, но решение шикарное ))
Я думаю, что если проделать строгий научный эксперимент, в котором человек и LLM будут разгадывать достаточно большой список загадок, а затем предъявить отгадки команде экспертов, то смогут ли они определить, где решения модели, а где человека?
Я попросил llama 3.1 70b придумать 100 шуток, по том тем или иным оьразом их последовптельно отбраковывать и выбирать несколько лучших. При этом я сам, читал все шутки. Так аот, часто модель пеивыми убирала на самом деле самые смешные и выбирала в лидеры чушь.
Например, мне запомнились парачка, но их почти всегда отбраковывала в начале:
Приходишь устраивптся на работу, а там тебя встпечают два робота и ты понимаешь - опоздал.
Звонил другу, спросил как дела, он ответил, что недавно вернуося из прошлого, я спросил, что он там забыл, он ответил - ключи от будущего.
По моему, успех был в большей степени млучайностью, которую мы наделяем особым смыслом, а молель этого не понисает.
Интересная тенденция заставлять llm вот прям совсем думать вместо хомо сапиенса. Так держать! :-)
Приходишь устраивптся на работу, а там тебя встпечают два робота и ты понимаешь - опоздал.
Нужен Кэп
Или подразумевается, что один нанятый, второй наниматель?
Приходишь устраивптся на работу, а там тебя встпечают два робота и ты понимаешь - опоздал.
Нужен Кэп
Или подразумевается, что один нанятый, второй наниматель?
Я пдумал именно так, и вообще там все роботы. Надо было попросить объяснить шутку. Ха-ха - это тоже шутка, всем известно, что llm не могут объяснять корректно, т. к. не имеют информации о процессе собственного мышления, грубо говоря они не помнят своих мыслей и дают наиболее вероятное объяснение. С тем же успехом, они и ваши шутки могут "объяснять" зачастую неправильно и вообще любой текст. Наверное с объяснение будет проще, если используется процесс размышления и я думаю должны быть интересные результаты у rwkv-сетей, хоть они и более дорогие в эксплуатации.
LLM может довольно изобретательно разгадывать хитрые загадки, но не всегда