Search
Write a publication
Pull to refresh

Comments 8

Тут еще вот в чем фишка. Все что было опубликовано - не требует решения - его можно просто воспроизводить из базы данных. Интерес представляет способность решать задачи, которые не были опубликованы и для которых нет готового решения.

В идеале создать алгоритм, который для каждого натурального числа генерит уникальную задачу, которую с легкостью решает средний человек - но с низкой вероятностью решает LLM.

Правильный ответ: утопия и антиутопия

Знаменитый Томас Мор плавал в детстве как топор и за это его мать утопистом стала звать.

Вот вам ещё одна сложная задачка для LLM.

Так как все эти вопросы есть в базе, и, соответственно, либо их можно нагуглить, либо модели напрямую обучалась на этих данных (возможно, что справедливы оба предположения), то это несколько обесценивает результаты исследования

На недавно прошедшем турнире по интеллектуальным играм Гёмбёц-6 поставили эксперимент - ЛЛМ отвечала на вопросы, написанные специально для этого турнира (их не было в интернете). По итогам турнира ЛЛМ ответила на 10 вопросов из 60 и заняла третье с конца место (34 место среди 36 команд)

У ЛЛМ могло бы быть ещё одно применение - для составления и подачи апелляций (если команда считает, что её ответ нужно зачесть как правильный, она может подать апелляцию). На недавнем ЧР по интеллектуальным играм ЛЛМ попытались использовать именно для этого, поскольку время составления и подачи апелляций было ограничено. ЛЛМ нагаллюцинировала в первом же предложении, апелляция была отклонена

Я проводил подобный эксперимент, пока что o3 справляется немного хуже, чем сильная команда знатоков, но результат показывает сопоставимый, где-то примерно 80% от правильных ответов команды знатоков у меня на нескольких играх показывала, в том числе и во время трансляции игры - делал для чистоты эксперимента, пока ответы на вопросы не появились в сети (подчëркиваю это, т.к. в комментариях выше высказавшихся увидел скептицизм, впрочем каждый сам может поставить эксперимент в каких угодно условиях).

Помимо вопросов ЧГК пробовал генерировать картинки в Dallie-3 с какой-нибудь идеей или загадкой, придуманной мной, чтоб уж наверняка исключить наличие этих сведений в весах LLM, со многими такими задачками o3 справлялась, с собственноручно придуманными каламбурами тоже справлялась в основном, но обязательно в ответе допускала какой-нибудь ляп, когда уже казалось, что полностью его разгадала.

А всем кто сомневается в способности LLM рассуждать - могу предложить попробовать самим придумать какую-нибудь шутку, задачу, сгенерировать картинку и попросить сеть порассуждать, это же просто и доступно каждому

запуск моделей в связке — одна генерирует гипотезы, другая их анализирует

Не понял, сделали или просто идея?

По идее довольно просто сделать.

Но надо не лучшую выбирать, а просить проанализировать на правильность.

Плюс ещё идея, когда задаёшь вопрос, можно попробовать в промпт добавить несколько десятков старых примеров из базы в качестве примеров, по идее тоже должно улучшить качество.

Sign up to leave a comment.

Articles