dtyurev 7 мая 2023 в 10:18

Тестируем логику ChatGPT на простых задачах

Простой

6 мин

24K

Искусственный интеллект

+13

Комментарии 41

exwill 7 мая 2023 в 14:22

В логике и математике надо выкручивать "температуру" в 0. Или, говоря простыми словами, душить на корню "креативность" модели. Вы этого не учли, поэтому ваше исследование получилось такое, какое получилось

dtyurev 7 мая 2023 в 15:31

А может ли обычный пользователь изменить температуру у вёб-версии GPT-4 (https://chat.openai.com/)? Если да, подскажите, пожалуйста, как это сделать.

exwill 7 мая 2023 в 16:23

Нет, не может. Надо работать через API

stanislavshwartsman 8 мая 2023 в 05:03

Эта веб-версия ChatGPT 3.5

dilukhin 7 мая 2023 в 15:58

А поясните пожалуйста подробнее, что вы имеете в виду под креативностью?

exwill 7 мая 2023 в 16:31

Модель получает список наиболее вероятных следующих токенов. Если отключить "креативность", модель на каждом шаге будет выбирать наиболее вероятный. Если включить, тогда возможны варианты.

Сильно упрощая. 99% считают, что Земля не плоская, 1% считает, что Земля плоская. Если мы отключаем "креативность", тогда на вопрос: "Земля плоская?" будем постоянно получать ответ "нет". Включаем "креативность". Теперь на вопрос: "Земля плоская?" мы чаще всего (в 99% случаев) получим ответ "нет", но иногда (1%) это будет все же "да"

phenik 8 мая 2023 в 04:27

Включаем "креативность". Теперь на вопрос: "Земля плоская?" мы чаще всего (в 99% случаев) получим ответ "нет", но иногда (1%) это будет все же "да"

Написали, что это упрощенно, хотелось бы уточнить. Еще будет зависеть от контекста вопроса. Если его рассматривать в научном контексте, то альтернатива "плоская" будет иметь еще меньшую вероятность, или вообще отсутствовать. Например, если у геофизика спросить о форме Земли, то он ответит, что в первом приближении это шар, точнее эллипсоид, еще более точно геоид. Альтернатива плоская вообще не должна возникать. Вопрос может выглядеть так — Какова форма Земли с точки зрения современной геофизики?

Внутри сети трансформера выбор детерминированный и распределение вероятностей токенов на выходе постоянно. Механизм сэмплирования — выбора токена из распределения, работает только на выходе. В случае с формой Земли в геофизическом контексте разделение с вненаучным происходит уже на ранних стадиях анализа. Единственно, что в этом контексте упоминание о "плоской" Земле может встречаться, как исторический факт, или как курьез.

Aisystant 8 мая 2023 в 02:20

А ещё в начале любого исследования стоит посмотреть другие исследования по теме вроде
[2304.03439] Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 (arxiv.org)
и может быть даже свою креативность задушить :))

phenik 8 мая 2023 в 05:01

У автора статьи получилось в районе 70% для 4-й версии, что соответствует результатам в таблице 1 исследования по ссылке с учетом разброса.

Nehc 8 мая 2023 в 04:52

Ну, во-первых, логично пользоваться пользовательским интерфейсом, а не API. Во-вторых, если бы температура была в нуле, то редкие правильные ответы не были бы получены вообще. Не уверен, что это хорошо.

Выбранные условия эксперимента (10 попыток) - вполне корректны для предложенного пользовательского интерфейса.

phenik 8 мая 2023 в 07:09

Во-вторых, если бы температура была в нуле, то редкие правильные ответы не были бы получены вообще. Не уверен, что это хорошо.

Для формализованного материала — математических и логических выводов нужно отключать сэмплирование, и использовать наиболее вероятные токены. Так, напр, поступают в этом исследовании математических выводов. Действительно, если в обучающей выборке были юмористические рассказы, байки, анекдоты, и тп. в которых 2 + 2 = 5 или 3, то такие вероятности исходов могут сформироваться, но они будут явно меньше, чем вероятность правильного результата. По этой причине нужно отключать альтернативный выбор, и фактически превращать сеть в детерминистическую, чтобы результаты повторялись. У человека эту роль играет логический уровень мышления, который корректирует быстрые, ассоциативные выводы (ниже в коментах приводил ссылки на исследования этих моментов в применении к GPT).

Nehc 10 мая 2023 в 04:39

Получая самый вероятный ответ вы не получаете никакого представления о вероятностях. А они… важны!

Впрочем, вы правы: если бы мы проводили серьезное исследование, то нужно было бы и так и так: и жадный поиск и пяток семплов с вероятностями, но… из интерфейса этого не сделать, поэтому - как есть…

Но согласитесь, если мы не можем семплинг из интерфейса отключить - все равно логично запустить 10 раз и выбрать наиболее частый, хотя бы… А не просто первый попавшийся с сеплингом!

phenik 10 мая 2023 в 07:49

Получая самый вероятный ответ вы не получаете никакого представления о вероятностях. А они… важны!

Как это соотносится с математическими выводами, которые требуют повторяемости, строгости? Человек на лету меняет требования к точности выводов, если речь о математике, то ассоциативность отключается, если о поэзии, то наоборот максимизируется, для поиска рифм и метафор. ЯМ пока так делать не могут. В чате поиске Бинга можно задать режим, выбрав из трех уровней. Это уже лучше, но все равно далеко от желаемого.

Но согласитесь, ..

Конечно, сбор статистики необходимое условие проведения любого исследования. В случае с отключенным сэмплированием это сбор статистики правильных/неправильных ответов, как в исследовании по ссылке.

В случае с включенным сэмплированием на выбор можно повлиять косвенно, через контекст, указав искать наиболее вероятное, критически отобранное решение. В кометах упоминали такое, но не ясно насколько это эффективно действует — требуется отдельное исследование) По идее такое указание должно направлять цепочку ассоциаций по наиболее вероятным путям, и соответственно на выходе уменьшать присутствие менее вероятных альтернатив. Тут как и для человека, если разрешить свободный поиск решений, типа мозгового штурма, возникают любые ассоциации. Если включить критику, то маловероятные ассоциации могут отсеиваться еще до того, как вообще возникнут в сознании. Если первого в этих ЯМ с избытком, то второго уровня, как такового пока нет, так же как самостоятельного логического уровня. Однако в обучающей выборке могли присутствовать критические оценки разных решений, и они по цепочке ассоциаций могут помочь отобрать наиболее вероятные решения по такому требованию в контексте вопроса.

AgenSmith 8 мая 2023 в 12:22

Я тоже про это сразу же подумал. Если температуру понизить до 0 и убрать рандом, должно быть больше правильных ответов. Но 90% людей будет работать с дефолтной температурой, поэтому этот тест тоже интересен и валиден для варианта работы через веб.

Ну а чтобы протестить реально максимальные возможности, то да тут надо с температурой 0 тестить. Кстати необязательно по API, это можно сделать и в playground веб версии.

dtyurev 8 мая 2023 в 12:23

А можно ли в playground работать с GPT-4?

AgenSmith 8 мая 2023 в 13:20

Да, но нужно запросить тестовый доступ и через некоторое время пришлют письмо и откроют доступ. У меня есть доступ, если что могу отправить тестовые вопросы и прислать ответы.

phenik 8 мая 2023 в 14:42

Попробуйте эти, ответы можно проверить.

vagon333 8 мая 2023 в 20:13

Offtop по GPT-4:

работаю с тестовым доступом к ChatGPT API — GPT-4.
пытаюсь сделать API запрос без библиотек, через curl (нужно легковесный запрос, без привязки к языкам).
играюсь в среде OpenAI, но кнопки просмотра примера исходников disabled:
https://platform.openai.com/playground?mode=chat&model=gpt-4

Может кто в курсе, где еще можно получить пример запроса к GPT-4 через API?

dtyurev 9 мая 2023 в 08:36

Можно попробовать эту задачу. Задать её 10 раз с очисткой контекста.

===

Реши математическую задачу. Давай думать по шагам.
Задача: Ваня имеет столько же братьев, сколько и сестёр, а у его сестры вдвое меньше сестёр, чем братьев. Сколько сестёр и сколько братьев в этой семье?

AgenSmith 11 мая 2023 в 00:48

Странно, мне обычная веб версия gpt4 ни разу правильно не ответила) В playground с температурой 0 тоже самое.

exwill 11 мая 2023 в 05:41

В SQL запросах GPT-4, похоже, тоже хуже, чем GPT 3.5

Сломали модельку

Tolomuco 7 мая 2023 в 15:24

ИМХО, в математических задачах всё, что не 10 из 10, это полный провал, поскольку на ответ нельзя полностью положиться и надо перепроверять, а если перепроверять, то зачем нужен такой помошник?

omxela 7 мая 2023 в 18:49

Это зависит от контекста. Если вы имеете дело с квантовым компьютером, то там просто правила игры такие. Запускаете задачу 1000 раз, и получаете максимально вероятный ответ. В случае GPT вы вынуждены полагаться на полученный ответ по любому вопросу, не обязательно математическому. Зная при этом, что он не отличает истину от лжи и может просто сконструировать ответ от балды. Не обязательно, но может. Если будете проверять - то, собственно, а зачем он тогда нужен?

Sadler 7 мая 2023 в 19:05

В реальной жизни задачи намного интереснее школьных. Иногда ты знаешь правильный ответ, но не знаешь, как он получен. Иногда ты вообще всё знаешь, но написание решения само по себе трудозатратно. Иногда тебе нужны все вариации ответов и аргументация, которая к ним приводит. Иногда ты прекрасно знаешь возможные ошибки, но допускаешь их по невнимательности, и gpt указывает тебе на них.

ABy 7 мая 2023 в 20:08

Для решения математических задачь есть свои инструменты. В качестве аналогии: вы пытаетесь забивать гвозди словарем. Да, молоток надежнее, но удивительно что словарь тоже работает!

НЛО прилетело и опубликовало эту надпись здесь

ABy 8 мая 2023 в 20:54

Кстати, вот вы и расскажите, раз вы в теме.

В качестве примера приходят на ум Wolfram Language, Maple, Matlab.

Или вот что подсказывает чат Bing:

В ответ на ваш запрос я нашел несколько языков программирования, созданных для доказательства теорем в математике. Вот некоторые из них:

ACL2 – язык программирования, логическая теория первого порядка и доказатель теорем (с интерактивным и автоматическим режимами) в традиции Бойера-Мура1.
Coq – позволяет выражать математические утверждения, механически проверять доказательства этих утверждений, помогать находить формальные доказательства и извлекать сертифицированную программу из конструктивного доказательства ее формальной спецификации.
Wolfram Language – выполняет доказательство теорем в различных формах и областях. Иногда доказательство теорем является неявной частью других операций; иногда оно явно. Для систем аксиом, заданных с помощью равенственной логики, Wolfram Language включает передовые возможности для генерации полных символических объектов доказательств

Вы пользуетесь чем-то из этого списка? Какие проблемы этих программных продуктов?

НЛО прилетело и опубликовало эту надпись здесь

ABy 8 мая 2023 в 21:47

И как чат справляется?

Я с таким же успехом мог бы попытаться прочитать текст на китайском:)

НЛО прилетело и опубликовало эту надпись здесь

phenik 9 мая 2023 в 11:42

Было бы странно, если чат ответил конструктивно на эти вопросы, с учетом того, что эти ЯМ не могут пока произвести даже обобщения чисел и операций с ними, сравнимое с возможностями среднего школьника, из-за архитектурных ограничений сети. По этой причине всегда могут найтись примеры простых операций, типа сложения и умножения двух чисел, которые они не смогут выполнить правильно, вне зависимости от числа параметров модели и объемов их обучения. Хотя с их ростом улучшения в ответах будут. Фактически пока происходит все более улучшенная аппроксимация чисел и операций с ними напоминающая нативную способность человека и животных производить приблизительный подсчет объектов в сценах.

Возможно сравнимого понимания числел, и формализации вообще, удастся добиться в перспективном нейросимволическом ИИ, или расширении возможностей трансформерных ЯМ с помощью логики, что-то в таком направлении.

SensDj 7 мая 2023 в 18:26

В мат.задачах ещё нужно пробовать в промпте писать "используй Вольфрам"

FruTb 7 мая 2023 в 19:54

Это если дали доступ к плагинам

SensDj 8 мая 2023 в 02:59

Я проверял, работает

phenik 8 мая 2023 в 05:03

Мы что тестируем — возможности chatGPT, как некого ИИ, или Вольфрама, как специализированного мат. пакета?

saboteur_kiev 7 мая 2023 в 20:58

Так чатГПТ и не обладает логикой.

В основном он является лексическим парсером, и ищет готовый ответ как это делает поисковик.
То есть он парсит ваш ответ, пытается понять ключевые слова, по которым создает массив ключевых слов-связок, и по ним ищет текст. Найденное он тоже анализирует лексически и преобразовывает в свой ответ.

Таким образом он вероятно может решить задачу, если она именно в таким виде существует в его базе.

Плюс платная версия может вызывать апи внешних сервисов, передавая им задачу, чтобы например что-то посчитать через вольфрам-альфа и так далее.

Но именно логику от него ждать не стоит. Парсер может легко пропустить какую-то часть данных, выдав вам неполный ответ.

phenik 8 мая 2023 в 05:25

В основном он является лексическим парсером, и ищет готовый ответ как это делает поисковик.

Поскольку этот чат обученная нейросеть, а не обычная программа, то логичнее искать аналог в прототипах — биологических нейросетях и возможностях мозга. Часто пишут, что это аналог ассоциативного мышления и памяти, напр, как предполагается в этом исследовании. Тогда логично объяснение склонности к фантазированию этих сетей, и часто отсутствия логики в рассуждениях, в рамках представлений о дуальности процессов мышления (исследование на эту тему).

Hardcoin 8 мая 2023 в 06:44

создает массив ключевых слов-связок, и по ним ищет текст

Нет, даже примерно не так. Вы прежде чем с такой уверенностью писать, ознакомились был с вопросом.

MrNutz 9 мая 2023 в 13:28

Никаким ИИ там и не пахнет. Это всего лишь очередной поисковик на базе нейросети. Потому и результаты плавают. Он не думает и решает, он ищет ответ и выдаёт первое что сгодится. Например, как в sql при запросе первых n записей, если не уточнить критерий сортировки.

Glen5 11 мая 2023 в 07:14

Вот вам еще эксперимент, причем из той области, где чат вроде бы должен быть силен.

Спросите его знает ли он конкретную книгу (худ. произведение). Попросите его сделать

a. краткий пересказ на пару абзацев;

b. спросите про конкретный момент в книге и попросите чат объяснить действия героев в данном моменте.

Итог: чат отлично создает видимость выполнения задачи, его текст кажется вполне осмысленным, только вот он еще ни по одной книге не дал верный ответ: то у него герои меняются характерами, то герой-ИИ вдруг превращается в пришельца и т.д., а в объяснении мотивации героев вообще будто бы чистый рандом.

denenberg 18 мая 2023 в 11:03

GPT-4 научился решать школьные задачи не хуже человека https://mathhelpplanet.com/viewtopic.php?f=57&t=79793

Зарегистрируйтесь на Хабре, чтобы оставить комментарий