Как стать автором
Обновить

Комментарии 41

В логике и математике надо выкручивать "температуру" в 0. Или, говоря простыми словами, душить на корню "креативность" модели. Вы этого не учли, поэтому ваше исследование получилось такое, какое получилось

А может ли обычный пользователь изменить температуру у вёб-версии GPT-4 (https://chat.openai.com/)? Если да, подскажите, пожалуйста, как это сделать.

Нет, не может. Надо работать через API

Эта веб-версия ChatGPT 3.5

А поясните пожалуйста подробнее, что вы имеете в виду под креативностью?

Модель получает список наиболее вероятных следующих токенов. Если отключить "креативность", модель на каждом шаге будет выбирать наиболее вероятный. Если включить, тогда возможны варианты.

Сильно упрощая. 99% считают, что Земля не плоская, 1% считает, что Земля плоская. Если мы отключаем "креативность", тогда на вопрос: "Земля плоская?" будем постоянно получать ответ "нет". Включаем "креативность". Теперь на вопрос: "Земля плоская?" мы чаще всего (в 99% случаев) получим ответ "нет", но иногда (1%) это будет все же "да"

Включаем "креативность". Теперь на вопрос: "Земля плоская?" мы чаще всего (в 99% случаев) получим ответ "нет", но иногда (1%) это будет все же "да"

Написали, что это упрощенно, хотелось бы уточнить. Еще будет зависеть от контекста вопроса. Если его рассматривать в научном контексте, то альтернатива "плоская" будет иметь еще меньшую вероятность, или вообще отсутствовать. Например, если у геофизика спросить о форме Земли, то он ответит, что в первом приближении это шар, точнее эллипсоид, еще более точно геоид. Альтернатива плоская вообще не должна возникать. Вопрос может выглядеть так — Какова форма Земли с точки зрения современной геофизики?


Внутри сети трансформера выбор детерминированный и распределение вероятностей токенов на выходе постоянно. Механизм сэмплирования — выбора токена из распределения, работает только на выходе. В случае с формой Земли в геофизическом контексте разделение с вненаучным происходит уже на ранних стадиях анализа. Единственно, что в этом контексте упоминание о "плоской" Земле может встречаться, как исторический факт, или как курьез.

А ещё в начале любого исследования стоит посмотреть другие исследования по теме вроде
[2304.03439] Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4 (arxiv.org)
и может быть даже свою креативность задушить :))

У автора статьи получилось в районе 70% для 4-й версии, что соответствует результатам в таблице 1 исследования по ссылке с учетом разброса.

Ну, во-первых, логично пользоваться пользовательским интерфейсом, а не API. Во-вторых, если бы температура была в нуле, то редкие правильные ответы не были бы получены вообще. Не уверен, что это хорошо.

Выбранные условия эксперимента (10 попыток) - вполне корректны для предложенного пользовательского интерфейса.

Во-вторых, если бы температура была в нуле, то редкие правильные ответы не были бы получены вообще. Не уверен, что это хорошо.

Для формализованного материала — математических и логических выводов нужно отключать сэмплирование, и использовать наиболее вероятные токены. Так, напр, поступают в этом исследовании математических выводов. Действительно, если в обучающей выборке были юмористические рассказы, байки, анекдоты, и тп. в которых 2 + 2 = 5 или 3, то такие вероятности исходов могут сформироваться, но они будут явно меньше, чем вероятность правильного результата. По этой причине нужно отключать альтернативный выбор, и фактически превращать сеть в детерминистическую, чтобы результаты повторялись. У человека эту роль играет логический уровень мышления, который корректирует быстрые, ассоциативные выводы (ниже в коментах приводил ссылки на исследования этих моментов в применении к GPT).

Получая самый вероятный ответ вы не получаете никакого представления о вероятностях. А они… важны!

Впрочем, вы правы: если бы мы проводили серьезное исследование, то нужно было бы и так и так: и жадный поиск и пяток семплов с вероятностями, но… из интерфейса этого не сделать, поэтому - как есть…

Но согласитесь, если мы не можем семплинг из интерфейса отключить - все равно логично запустить 10 раз и выбрать наиболее частый, хотя бы… А не просто первый попавшийся с сеплингом!

Получая самый вероятный ответ вы не получаете никакого представления о вероятностях. А они… важны!

Как это соотносится с математическими выводами, которые требуют повторяемости, строгости? Человек на лету меняет требования к точности выводов, если речь о математике, то ассоциативность отключается, если о поэзии, то наоборот максимизируется, для поиска рифм и метафор. ЯМ пока так делать не могут. В чате поиске Бинга можно задать режим, выбрав из трех уровней. Это уже лучше, но все равно далеко от желаемого.


Но согласитесь, ..

Конечно, сбор статистики необходимое условие проведения любого исследования. В случае с отключенным сэмплированием это сбор статистики правильных/неправильных ответов, как в исследовании по ссылке.


В случае с включенным сэмплированием на выбор можно повлиять косвенно, через контекст, указав искать наиболее вероятное, критически отобранное решение. В кометах упоминали такое, но не ясно насколько это эффективно действует — требуется отдельное исследование) По идее такое указание должно направлять цепочку ассоциаций по наиболее вероятным путям, и соответственно на выходе уменьшать присутствие менее вероятных альтернатив. Тут как и для человека, если разрешить свободный поиск решений, типа мозгового штурма, возникают любые ассоциации. Если включить критику, то маловероятные ассоциации могут отсеиваться еще до того, как вообще возникнут в сознании. Если первого в этих ЯМ с избытком, то второго уровня, как такового пока нет, так же как самостоятельного логического уровня. Однако в обучающей выборке могли присутствовать критические оценки разных решений, и они по цепочке ассоциаций могут помочь отобрать наиболее вероятные решения по такому требованию в контексте вопроса.

Я тоже про это сразу же подумал. Если температуру понизить до 0 и убрать рандом, должно быть больше правильных ответов. Но 90% людей будет работать с дефолтной температурой, поэтому этот тест тоже интересен и валиден для варианта работы через веб.

Ну а чтобы протестить реально максимальные возможности, то да тут надо с температурой 0 тестить. Кстати необязательно по API, это можно сделать и в playground веб версии.

А можно ли в playground  работать с GPT-4?

Да, но нужно запросить тестовый доступ и через некоторое время пришлют письмо и откроют доступ. У меня есть доступ, если что могу отправить тестовые вопросы и прислать ответы.

Попробуйте эти, ответы можно проверить.

Offtop по GPT-4:


  • работаю с тестовым доступом к ChatGPT API — GPT-4.
  • пытаюсь сделать API запрос без библиотек, через curl (нужно легковесный запрос, без привязки к языкам).
  • играюсь в среде OpenAI, но кнопки просмотра примера исходников disabled:
    https://platform.openai.com/playground?mode=chat&model=gpt-4

Может кто в курсе, где еще можно получить пример запроса к GPT-4 через API?

Можно попробовать эту задачу. Задать её 10 раз с очисткой контекста.

===

Реши математическую задачу. Давай думать по шагам.
Задача: Ваня имеет столько же братьев, сколько и сестёр, а у его сестры вдвое меньше сестёр, чем братьев. Сколько сестёр и сколько братьев в этой семье?

Странно, мне обычная веб версия gpt4 ни разу правильно не ответила) В playground с температурой 0 тоже самое.

В SQL запросах GPT-4, похоже, тоже хуже, чем GPT 3.5

Сломали модельку

ИМХО, в математических задачах всё, что не 10 из 10, это полный провал, поскольку на ответ нельзя полностью положиться и надо перепроверять, а если перепроверять, то зачем нужен такой помошник?

Это зависит от контекста. Если вы имеете дело с квантовым компьютером, то там просто правила игры такие. Запускаете задачу 1000 раз, и получаете максимально вероятный ответ. В случае GPT вы вынуждены полагаться на полученный ответ по любому вопросу, не обязательно математическому. Зная при этом, что он не отличает истину от лжи и может просто сконструировать ответ от балды. Не обязательно, но может. Если будете проверять - то, собственно, а зачем он тогда нужен?

В реальной жизни задачи намного интереснее школьных. Иногда ты знаешь правильный ответ, но не знаешь, как он получен. Иногда ты вообще всё знаешь, но написание решения само по себе трудозатратно. Иногда тебе нужны все вариации ответов и аргументация, которая к ним приводит. Иногда ты прекрасно знаешь возможные ошибки, но допускаешь их по невнимательности, и gpt указывает тебе на них.

Для решения математических задачь есть свои инструменты. В качестве аналогии: вы пытаетесь забивать гвозди словарем. Да, молоток надежнее, но удивительно что словарь тоже работает!

НЛО прилетело и опубликовало эту надпись здесь

Кстати, вот вы и расскажите, раз вы в теме.

В качестве примера приходят на ум Wolfram Language, Maple, Matlab.

Или вот что подсказывает чат Bing:

В ответ на ваш запрос я нашел несколько языков программирования, созданных для доказательства теорем в математике. Вот некоторые из них:

Вы пользуетесь чем-то из этого списка? Какие проблемы этих программных продуктов?

НЛО прилетело и опубликовало эту надпись здесь

И как чат справляется?

Я с таким же успехом мог бы попытаться прочитать текст на китайском:)

НЛО прилетело и опубликовало эту надпись здесь

Было бы странно, если чат ответил конструктивно на эти вопросы, с учетом того, что эти ЯМ не могут пока произвести даже обобщения чисел и операций с ними, сравнимое с возможностями среднего школьника, из-за архитектурных ограничений сети. По этой причине всегда могут найтись примеры простых операций, типа сложения и умножения двух чисел, которые они не смогут выполнить правильно, вне зависимости от числа параметров модели и объемов их обучения. Хотя с их ростом улучшения в ответах будут. Фактически пока происходит все более улучшенная аппроксимация чисел и операций с ними напоминающая нативную способность человека и животных производить приблизительный подсчет объектов в сценах.


Возможно сравнимого понимания числел, и формализации вообще, удастся добиться в перспективном нейросимволическом ИИ, или расширении возможностей трансформерных ЯМ с помощью логики, что-то в таком направлении.

В мат.задачах ещё нужно пробовать в промпте писать "используй Вольфрам"

Это если дали доступ к плагинам

Я проверял, работает

Мы что тестируем — возможности chatGPT, как некого ИИ, или Вольфрама, как специализированного мат. пакета?

Так чатГПТ и не обладает логикой.

В основном он является лексическим парсером, и ищет готовый ответ как это делает поисковик.
То есть он парсит ваш ответ, пытается понять ключевые слова, по которым создает массив ключевых слов-связок, и по ним ищет текст. Найденное он тоже анализирует лексически и преобразовывает в свой ответ.

Таким образом он вероятно может решить задачу, если она именно в таким виде существует в его базе.

Плюс платная версия может вызывать апи внешних сервисов, передавая им задачу, чтобы например что-то посчитать через вольфрам-альфа и так далее.

Но именно логику от него ждать не стоит. Парсер может легко пропустить какую-то часть данных, выдав вам неполный ответ.

В основном он является лексическим парсером, и ищет готовый ответ как это делает поисковик.

Поскольку этот чат обученная нейросеть, а не обычная программа, то логичнее искать аналог в прототипах — биологических нейросетях и возможностях мозга. Часто пишут, что это аналог ассоциативного мышления и памяти, напр, как предполагается в этом исследовании. Тогда логично объяснение склонности к фантазированию этих сетей, и часто отсутствия логики в рассуждениях, в рамках представлений о дуальности процессов мышления (исследование на эту тему).

создает массив ключевых слов-связок, и по ним ищет текст

Нет, даже примерно не так. Вы прежде чем с такой уверенностью писать, ознакомились был с вопросом.

Никаким ИИ там и не пахнет. Это всего лишь очередной поисковик на базе нейросети. Потому и результаты плавают. Он не думает и решает, он ищет ответ и выдаёт первое что сгодится. Например, как в sql при запросе первых n записей, если не уточнить критерий сортировки.

Вот вам еще эксперимент, причем из той области, где чат вроде бы должен быть силен.

Спросите его знает ли он конкретную книгу (худ. произведение). Попросите его сделать

a. краткий пересказ на пару абзацев;

b. спросите про конкретный момент в книге и попросите чат объяснить действия героев в данном моменте.

Итог: чат отлично создает видимость выполнения задачи, его текст кажется вполне осмысленным, только вот он еще ни по одной книге не дал верный ответ: то у него герои меняются характерами, то герой-ИИ вдруг превращается в пришельца и т.д., а в объяснении мотивации героев вообще будто бы чистый рандом.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории