Pull to refresh

Comments 12

Прекрасно помню, что во 2-5 классах такие дополнительные фразы сбивали с толку половину одноклассников.

И даже необычные числа встречались - задача вида "дополни исходное число до 15" откровенно хуже решалась в диапазоне вводных от 6 до 9 о_О.

Протестировал задачу про киви на на моделях с арены mistral large2, nemotron, mixtral 8x22b, jamba large, llama 405b. Все ответили верно. llama 70b завалила, но на уточнение сколько киви вообще всего он собрал, дала верный ответ. У всех температура 0.2.

Не думаю, что решение задач путём предсказание следующего токена это прям плохо. Уверен, если тренить большие модели на целой кучи транскиб. учебников и их задач с ответами, они обойдёт многих школьников. Годиков через 2-3 можно повторить

В случае неопределенности модели каждая на свой лад делает предположение и формирует ответ. У меня "llama 405b" сначала ответила, что маленькие киви можно не учитывать.

Однако, если в другой сессии, не просто писать вопрос «в лоб», а дать ей сначала возможность задать уточняющие вопросы перед ответом, то получается совсем другая картина:

«Задача: "Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?". Прежде чем ответить, сначала задай мне дополнительные вопросы, чтобы лучше разобраться в задаче и подготовить более качественный ответ.», — то она спросит:

«Чтобы лучше понять задачу и подготовить более качественный ответ, я хотел бы задать несколько дополнительных вопросов:

1. Имеет ли значение размер киви для общего подсчета? То есть, следует ли считать маленькие киви отдельно или включать их в общий подсчет?
2. Подразумевается ли, что Оливер сохранил все киви, которые он собрал, или некоторые из них были использованы или отбракованы?
3. Необходимо ли учитывать только киви, собранные Оливером в течение этих трех дней (пятница, суббота, воскресенье), или есть другие факторы, которые следует учитывать?

Ответы на эти вопросы помогут мне лучше понять контекст задачи и предоставить более точный и полный ответ.»

Иными словами, не имея ответов на дополнительно возникшие вопросы, она сама решает, что важно, а, что нет. И по своему усмотрению дополняет недостающий контекст. Следовательно исследователи, просто искали модель, которая лучше угадает, то, что они загадали.

Дайте угадаю: это для того, чтобы пропиарить свой AI, которые они в новые ипхоны интегрируют?

Это чтобы пропиарить доступ к ChatGPT в РФ. Даже если оставить за скобками вопрос нужности этих «новостей», про то, что у Оливера маленькие киви, ещё только ленивый не рассказал. Как минимум, https://habr.com/ru/news/850384/. Но как же пройти мимо повода упомянуть себя любимых.

Ну, у них ещё не свой…

Впрочем, а почему бы и да. Коммерческая компания продвигает свои интересы. Ничего неожиданного

Скорее OpenAI и прочие заломили цены для Apple (например для рядового юзера chatgpt 4 стоит 20 баксов в месяц).

А так как у них своих нейронок, пока не анонсировано нужно как-то сбивать цену. Уверен OpenAI и прочие компании результаты нового теста видели раньше, чем мы с вами. И судя по всему скидка, если была, то была недостаточной.

Всё же Apple сейчас, без козыря и пока гонку ИИ проигрывает. Поэтому разные компании типа гугла и Майкрософт могут диктовать свои условия, дико невыгодные, а что уж говорить о OpenAI.

Само исследование от 7 октября и на акции OpenAI особо не сказалось, как и на Гугл, там есть небольшое падение, но это я не финансовый аналитик и это не финансовая рекомендация.

Исследование Apple не выявило недостатки в LLM Apple.
Потому что их не существует)
Ваш К.О.

Я бы сказал, исследование Apple выявило фатальный недостаток LLM от OpenAI, Google и Meta...

Sign up to leave a comment.

Information

Website
bothub.chat
Registered
Founded
Employees
2–10 employees