Комментарии 6
Мне кажется очевидной идея, что для задач вроде ''сравнить два числа" или подсчитать число определенных букв в слове ИИ должен бы дернуть калькулятор или стандартную функцию хоть в том же Питоне. Можно прикрутить подобное? Или это противоречит базовой идее - ничего не программировать ''в лоб", ждать, пока модель сама придет к этому?
Вроде бы для задач вроде сколько будет 534 * 1027, для которых в отличие от 2 * 2 может и не быть ответа в обучающей выборке, давно уже парсеры с перекладкой в Python используют
Нет, для задач типа "сколько будет 534 * 1027" мы банально с помощью обучения с подкреплением гоняем ИИ в хвост и в гриву пока он не научится умножать нормально.
Человек может научиться перемножать пятизначные числа в уме, если очень захочет. В случае с ИИ вопрос о "захочет" не ставится.
Поэтому сейчас даже "голые" LLM, без доступа к калькуляторам-интерпретаторам, с такими задачами справляются хорошо.
Вроде так оно и делается - добавляем инструкцию "при необходимости запрашивай инструменты (гугл, питон, етц)", результат выполнения скармливаем обратно модели.
К сожалению это лишь показательный пример. В процессе общения выявляется множество иных несоответствий, которые показывают насколько далеки эти модели от реальной жизни и реальных рассуждений человека. Закрыть точечным образом такие дыры можно, но это не решит саму проблему.
Можно и уже прикрутили. Но если есть большая аналитическая задача, где таких сравнений много, то ИИ либо должен генерить код (и доказывать сам себе, что он верен), либо базовые вещи всё же делать в уме. Представьте, вы при размышлениях каждый раз сравнивали бы числа на калькуляторе, это же невероятное падение эффективности.
Почему традиционные тесты не отражают реальный потенциал ИИ