Как стать автором
Обновить

Искусственный интеллект — мнение экспертов, собственный анализ

Время на прочтение6 мин
Количество просмотров3.7K
Всего голосов 21: ↑6 и ↓15-7
Комментарии11

Комментарии 11

Зачем в теле поста пять практически одинаковых Ашмановых? Вполне хватило бы и одного на КДПВ, для тех кто забыл или не знал как он выглядит.

очевидно, основная цель статьи - напомнить, как выглядит Ашманов

btw, пять практически одинаковых Ашмановых всё равно лучше, чем пятьдесят практически одинаковых статей о ChatGPT

У систем, построенных на основе языковых моделей, очень ограниченные способности к reasoning — рассуждениям и логическому выводу. Если у запроса пользователя нет близких примеров ответа (few shot learning), то в ответе будет, скорее всего, галлюцинация. Сформировать правильный ответ просто неоткуда. Но такое случается не так часто, наиболее высокочастотные запросы пользователей покрыты примерами.

Я тоже так думал поначалу, но это не так. Это довольно легко проверить - просто дайте ИИ уникальную задачу, которой гарантировано не будет в примерах.

Есть LLM у которых лучше с reasoning, есть те у которых хуже. Например GPT-4 довольно плоха в задачах математического характера, но не так давно появились LLM, которые на различных тестах уже догнали призеров олимпиад по решению математических задач.

Ну или вот не так давно вышел Google Gemini 1.5. Один из экспериментов, которые я видел при его использовании - в контекст добавили несколько документов по одному из умирающих языков (что-то там в районе 500 носителей осталось). И LLM смогла "заговорить" на этом языке на основе учебника. Сомнительно, что кто-то готовил обучающий датасет на мертвом языке.

Это довольно легко проверить - просто дайте ИИ уникальную задачу, которой гарантировано не будет в примерах.

Так вроде, в статье именно это и было сделано? В стандартной задаче (с первым вариантом вопроса), чтобы сделать ее уникальной, чуть меняется вопрос. И оказывается, что никакого

которые на различных тестах уже догнали призеров олимпиад по решению математических задач

нет даже близко, потому что системе по барабану, что именно у нее спрашивали. Она стригерилась на длинное описание условия, которое хорошо узнала, и тупо лепит ту схему ответа, которая чаще всего встречается после этого условия. Напрочь игнорируя собственно вопрос. Если вопрос СЛУЧАЙНО окажется тем же, что был в примерах (первый вариант), то ответ будет КАК БЫ плюс-минус правильный. Если же вопрос не тот, что в примерах (второй вариант) - то сразу становится очевидно, что никакого "рассуждения" в системе не происходит.
Что автор сделал не так?

Так вроде, в статье именно это и было сделано? В стандартной задаче (с первым вариантом вопроса), чтобы сделать ее уникальной, чуть меняется вопрос. И оказывается, что никакого

Если самолет упал при взлете, означает ли это, что самолеты не могут летать?

нет даже близко, потому что системе по барабану, что именно у нее спрашивали

Я сейчас уже не могу найти конкретно то исследование, которое упоминал, но есть и другие.

Вот, например, исследование Math Reasoning, правда в контексте визуальных задач

Пример вопросов
Пример вопросов

Ну или вот отчет Google по Gemini 1.5 о котором я рассказывал (пункт 4.2.1.7, стр. 13)

Вообще можно долго дискутировать на тему "это просто паттерн матчинг". А можно и не дискутировать, если вспомнить, что человеческое обучение и применение математики в массе это один сплошной паттерн матчинг от начала и до конца.

P.S. На самом деле я просто дал задачу автора ассистенту Wolfram Alpha, который в среднем получше с математикой. И вот результат: (ссылка для тех у кого откроется)

Первый вопрос
Первый вопрос
Второй вопрос
Второй вопрос

Здесь хорошо видна логика ответа на второй вопрос. Данная формулировка выглядит некорректно (особенно в контексте первого). Давайте вернемся в реальный мир и спросим себя: если бы мы сидели на контрольной по математике и получили бы две подобных задачи, мы бы заподозрили опечатку?

И по-вашему, это "рассуждающий" ответ?
А я вот вижу, что это топорная работа относительно простых ad-hoc алгоритмов, наложенных поверх общего механизма (общего для всех нынешних систем), в конкретно этот системе. Этим ad-hoc алгоритмам не хватает дополнительного условия, чтобы начать работать. А что делать в такой ситуации, в алгоритм не заложено - о чем он честно и признается: для него

задача сосредоточена на минимизации,

даже если в реальности вопрос другой. Система просто врет вам в лицо! В памяти системы подобные задачи отнесены к задачам минимизации, а вы со своим реальным вопросом любитесь как хотите.
И проблема такого подхода в том, что алгоритмами-заплатками вы не сможете закрыть все возможные случаи (это человечество прошло еще в 50-е, когда была надежда заставить ИИ работать на основе символьной логики, все правила котрой будут заложены вот так вот, руками в явном виде).
Причем в конкретном случае - даже заплатки НЕ работают. (Не знаю, почему вам кажется, что они работаеют.)
"Рассуждающая" система

Давайте вернемся в реальный мир и спросим себя: если бы мы сидели на контрольной по математике и получили бы две подобных задачи, мы бы заподозрили опечатку?

(например, средних интеллектуальных навыков, мотивированный человек, получивший подобный вопрос на собеседовании; но и вопрос на собеседовании в математический кружок по теории игр тоже сойдет) как раз ЛЕГКО предложила бы варианты дополнительного условия, делающие возможным какой-то осмысленный ответ. Причем еще и выстроила бы их в порядке правдоподобности этих допусловий.
Начала с чего-нибудь вроде: "если они будут действовать просто исходя из ограничений, но не оптимально, то в самом неблагоприятном случае это будет ситуация, когда самый медленный возьмет фонарь и будет по одному переводить своих спутников, и тогда ответ такой-то" (и на самом деле, накручивая дальнейшие заплатки, они могут довести систему до подобного ответа).
И заканчивая чем-нибудь вроде: "если же они не смогут организовать даже такую систему, и кто-то с фонарем перейдет мост, и не вернется, чтобы забрать еще остающихся на той стороне - то надо учесть, для чего нужен фонарь. Это источник света. Тогда им придется ждать до утра. Вероятнее всего, не более 11 часов. Если же они оказались в очень неблакоприятной точке в неблагоприятный сезон, то может быть и дольше. Однако на земле нет мест, где ночь длится более полугода... Таким образом, если за время ночи спутники не умрут и сохранят способность передвигаться, то смогут перейти через мост не позднее, чем через полгода, это максимальное время. Если же за это время они утратят способность передвигаться, или по ошибке будут переходить мост более чем вдвоем или в темноте, и кто-то из них упадет, тогда формально время перехода можно считать бесконечным." (но на этот ответ у них уже никаких заплаток не хватит).
Заметьте, что эти рассуждения ПО СУЩЕСТВУ задачи, были бы не намного объемнее той воды на несколько абзацев, которую вылили ad-hoc заплатки, объясняя, почему они не знают, что делать с вашим вопросом.
Но для подобного рассуждения система должна быть основана не только на оперировании высокоуровневыми "ярлычками" реальности (чем и являются слова) и символьной логике, а иметь более сложную внутреннюю модель реальности (лишь верхушкой айсберга которой являются эти самые ярлычки).

(например, средних интеллектуальных навыков, мотивированный человек, получивший подобный вопрос на собеседовании; но и вопрос на собеседовании в математический кружок по теории игр тоже сойдет) как раз ЛЕГКО предложила бы варианты дополнительного условия, делающие возможным какой-то осмысленный ответ. Причем еще и выстроила бы их в порядке правдоподобности этих допусловий.

Это Вы так думаете. А я вот так не думаю. Почему Вы думаете, что LLM должна думать "по-вашему", а не "по-моему"? Если Вы хотите получить список возможных вариантов дополнительных условй - Вы можете об этом просто сказать в промпте, и Вам будет предложен список.

Основная беда тех, кто взаимодействует с LLM, именно в том, что они ожидают (даже сами того не осозновая), что их мысли "прочитают" и выдадут "ожидаемый" результат.

Извините, в данном конкретном случае беда у вас - вы зачем-то продолжаете упорствовать и натягивать сову на глобус.

Вы правда не видите, что в ответе Вольфрама его алгоритм не умеет различать действия "осмысленные, хотя возможно не оптимальные" (участники каждым своим просчитанным действием как минимум НЕ УХУДШАЮТ своего положения, но при этом могут, возможно, просчитывают свое действие на ограниченное будущее) - и "бессмысленные" и даже "противоцельные" (например, ходить по мосту туда-сюда)?

Если вы рассматриваете "осмыленные, хотя возможно не оптимальные" действия - то ответ с максимальным временем однозначный. О чем тут спорить-то?

НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории