Search
Write a publication
Pull to refresh

Comments 17

Триллион параметров. Мастер спорта по решению олимипадных задач, можно сказать доктор математических наук.

  1. Почему спрашиваешь по-русски? Чтобы выжать максимум из модели, спрашивать надо на английском. Да, это не очень сильно влияет, но всё же - зачем?

  2. Почему твой промт не выглядит так: "cначала порассуждай, потом дай ответ. думай шаг за шагом"? Если ты требуешь от модели сразу ответ, то ей всю когнитивную нагрузку надо вместить в один токен вывода; а когда просишь порассуждать, когнитивная нагрузка распределяется на много токенов, и это становится посильно для модели

Иди промтить учись, невежда

Да там без разницы. Промптом нельзя исправить отсутствие мыслей у модели

Спустя 10 минут если не больше

gpt-4o и deepseek v3(бездумный) тоже выдают разные неправильные ответы от прогона к прогону

А как, интересно, вы ему дали картинку, если он не понимает картинки?

Роботу дана задача в текстовом виде. Картинка добавлена для иллюстрации, что бы людям наглядно показать что происходит.

Учи prompt engineering.

P.S.
Сам промпт скрыл, личный - универсальный, созданный на основе многолетнего опыта.

Да, вот примерно такими техниками и получается, что "ИИ завоевал золото в IMO"

И тут приходят ламеры и спрашивают "<задача>. только ответ", ИИ дает неправильный ответ, и орут, что ИИ тупой. Если у кого-то другого инструмент работает, а у тебя нет, то правильный вывод - я рукожоп, а не инструмент тупой.

Ну я так тоже могу. Просто покажу ему решение сначала.

Как говорится, не мечите бисер перед свиньями – если человек, видя решение, всё равно отрицает его, значит, он просто не хочет понимать. А не хочет – значит, невежество сильнее разума.

  1. А теперь заставьте его решить эту же задачу геометрически. Это алгебраическое решение, и оно действительно универсальное, больших рассуждений не требует.(задача олимпиадная - решение общим алгоритмом будет оценено на два балла ниже). Только до Декарта такое решение было не возможно, а подобные задачи тем не менее решались. Каждая требовала уникального доказательства. Именно поэтому я сомневаюсь, что болван справится, скорее всего у него из обучающей выборки это просто выкинули, т к это ее лишь раздует, а эффекта не даст, потому что каждая задача уникальна.

  2. Без промпта не объективно, т к мы почему то вам должны на слово верить. (Ведь решение можно засунуть в промпт) А мне лично не хочется, потому что чот апломбу многовато в вашем ответе.

P.S.

Ну а насчет промпта, не обессудьте, я его придумал и итеративно улучшал, когда RL только появлялся и не очень хотел бы, что бы кто нибудь кроме меня его использовал...

Попытался по тексту угадать промпт, написал такой:

<role>You are a world-class expert on classic Euclidean geometry.<role> Please solve the problem described below in Russian in several major steps:

First step: Conduct an analysis of the problem, stating the final goal, identifying restrictions, and determining subtasks that will help find the solution.

Second step: do the initial solution inside the <initial-solution> block.

Third step: Inside <analysis> block, analyze the initial solution and list all flaws and possible errors. Then, list all possible improvements that can mitigate these flaws and fix the errors.

Fourth step: Inside <improvement>, consider how you apply the improvement to the initial solution.

The last step: inside <final-solution>, provide the solution where all improvements are applied. You also need to check how reasonable the final answer is for the initial problem statement.

---

ЗАДАЧА: Найдите площадь квадрата, где две окружности радиусом 5 см каждая касаются друг друга и общей касательной, а квадрат вписан между окружностями и касательной. Решите задачу исключительно методами классической синтетической геометрии. Координаты и алгебра недопустимы.

Но этот Kimi-K2 с таким промптом лажает, решает неправильно. Дальше улучшать промпт было лень, решил закинуть его в другие модели.

Gemini 2.5 pro решил задачу правильно, а lite нет.

DeepSeek R1 думал неприлично долго, но в итоге решил правильно.

Claude Sonnet 4 на удивление решил не правильно.

Ок, я принимаю ваш ответ и согласен, что был не прав, что оно вообще не справится. Но только потому что ниже человек говорит, что с его промтом некоторые сети решают верно (Но не Kimi K2 почему то)

А второй момент - сами рассуждения не идеальны (например, оно пишет, что "расстояние от O1 до BC равно 5-s" но на самом деле имеет в виду дополнительное построение и расстояние до этой прямой, которую оно никак не обозначило) Поэтому, есть предположение, что с другими задачками оно может и не справиться. Я допускаю, что был не прав на счет того, что такие задачи и решения геометрически выкинули из обучающей выборке, но то что оно вряд ли сможет решать их так же как человек пока сомневаюсь. Здесь задачка по сути в одно дополнительное построение, а ведь могут быть гораздо более сложные доп псотроения. Впрочем я в то же время не отрицаю, что могут быть специализированные сети именно на это обученные. У меня сомнения именно по сетям обученным на "больших" данных, где всё подряд.

Спасибо за задачку! Она подтолкнула меня потестировать как подобные задачи могут решать "маленькие" LLM которые можно запустить на игровом компьютере локально. Я перевел задачу на английский и добавил немного промпта который по-идее должен структурировать размышления, получилось вот-так:

<role>You are a world-class expert on classic Euclidean geometry.<role> Please solve the problem described below by using several major steps:

- First step: Conduct an analysis of the problem, stating the final goal, identifying restrictions, and determining subtasks that will help find the solution.

- Second step: do the initial solution inside the <initial-solution> block.

- Third step: Inside <analysis> block, analyze the initial solution and list all flaws and possible errors. Then, list all possible improvements that can mitigate these flaws and fix the errors.

- Fourth step: Inside <improvement>, consider how you apply the improvement to the initial solution.

- The last step: inside <final-solution>, provide the solution where all improvements are applied. You also need to check how reasonable the final answer is for the initial problem statement.

---

The problem: Two circles of radius 5 cm each touch each other and have a common tangent. A square is inscribed between the circles and the tangent. What is the area of the square?

Но в итоге оказалось, что тестирую больше размышляющие модели, а они размышляют по-своему и уже после размышления выдают ответ в запрашиваемом виде, так что для них вот-такой промпт тоже работает:

As a world-class expert on classic Euclidean geometry, please solve problem: Two circles of radius 5 cm each touch each other and have a common tangent. A square is inscribed between the circles and the tangent. What is the area of the square?

Первая LLM которую я решил потестировать была Qwen QwQ - это первая размышляюшая модель на 32B параметров, выпущенная Qwen в ноябре прошлого года, немного устарела, ей на смену пришла размышляющая Qwen3-32B, но мне QwQ нравится. К тому-же 32 миллиарда параметров это самая большая модель, которую я могу запустить у себя на компе. В итоге, потратив почти 10тыс токенов она выдала правильный результат!

Воодушевленный этим, я решил проверить задачу на более маленьких моделях, начал с Gemma3 на 27 миллиардов параметров, хорошая рабочая лошадка, которая и без reasoning режима отлично выполняет всякие мелкие задачи. Но, к сожалению, никаким промптом от нее добиться нормального результата не получилось. Очень жаль, особенно с учетом того, что этот промпт на английском Gemin 2.5 Flash, смогла решить.

Может быть 32 миллиарда параметров это предел? На всякий случай решил проверить на Phi-4 Reasoning с 14 миллиардов параметров. Я не очень люблю эту модель, у нее половина размышлений на тему того, как ее ответ соответствует правилам. Типа "Согласно правилу 4 если это промпт на мед.тему, я должна дать пользователю пояснение, что ему надо идти к доктору, а не со мной разговаривать, проверю запрос, запрос про математику, а не про медицину" и тд и тп. Очень такая хрень раздражает. Но я слышал, что эта модель хороша в математике и решил проверить. На удивление, она задачу решила! Потратив всего 9тыс токенов:

Phi-4 14 миллиардов параметров, 8 бит квантизация
Phi-4 14 миллиардов параметров, 8 бит квантизация

ОК, воодушевленный таким результатом, я решил еще проверить Qwen3 14b и она тоже смогла решить, да еще и красиво оформила:

Qwen3 14 миллиардов параметров 8 бит квантизация
Qwen3 14 миллиардов параметров 8 бит квантизация

Тут я решил проверить модели Mistral: Small 3.2 24B и размышляющую модель Magistral Small 2506. К сожалению, они обе не смогли решить, причем Magistral потратила почти 20тыс токенов на решение. И в ответе она написала, что у квадратного уравнения есть 2 решения, с длинной стороны квадрата 2 см и 10 см, но выбрала в итоге 10 см, т.к. он вписывается внутрь фигуры. Возможно французкая модель не очень дружит с английским, или я с ним не настолько дружу и дал неверный перевод слову "вписанный":

Magistral Small 2506
Magistral Small 2506

Ок, финальный заход, почему-бы не проверить Qwen3 на 8 миллиардов параметров? Проверил, за те-же 19 тыс. токенов, она решила все правильно:

Qwen3 на 8 миллиардов параметров 8 бит квантизация
Qwen3 на 8 миллиардов параметров 8 бит квантизация

Еще меньше, модели на 4 миллиарда параметров Phi-4 mini и Qwen3 уже решить задачку не смогли.

Ах да, чуть не забыл, с таким промптом Kimi-K2 задачку решает тоже. И ответ 100 он вам давал наверное потому-что неправильно понял русское слово "вписанный", как Magistral

Спасибо автору! Интересно. Но, не приведены ссылки на источники. Откуда это всё? Даже, если бы текст писал автор программной разработки, то и он же не с нуля всё выдумал — уже бы сослался на какие-то материалы, использованные им.

«Это несерьезно!» // Бывалый
«Это несерьезно!» // Бывалый
Sign up to leave a comment.

Articles