Задачи к олимпиадам придумывают каждый год разные, и решения нигде не публикуются. Поэтому если уровень сложности у задач 2026 года примерно такой же, как и у 2025 года, то и решит нейронка примерно столько же.
Собственно, золотая медаль ведь не сразу была взята:
в начале 2024 года AlphaGeometry решила 25 из 30 геометрических задач, взятых из IMO 2000-2022 годов;
потом в июле 2024 AlphaProof решила 4 из 6 задач на IMO 2024, набрав 28 баллов из 42 (до золотой медали не хватило одного балла);
спустя год DeepThink решила 5 из 6 задач на IMO 2025, набрав 35 из 42 баллов, что соответствует золоту.
Музыку, картины и т. д. вообще очень сложно оценить бенчмарком, потому что тут скорее имеют значения эмоции, которые вызывает сотворённое произведение. Единственное, что можно точно оценить - это огрехи генерации, соответствие промпту и т. д. В случае с математическими задачами результат оценивается абсолютно однозначно. Если бы с искусством нейронки справлялись на уровне человека, то понятие "нейрослоп" исчезло бы как класс.
Ну в принципе тогда интересно было бы понаблюдать статистику в странах, где начали продавать оружие всем. Переходный период может быть очень неприятным.
Ну просто вот вышла бабулька за хлебушком, а её шальная пуля на тот свет отправила. И другие бабульки стали требовать, чтобы "этих с ружьями" проверяли на предмет соблюдения техники безопасности. Как быть? Что, если таких "бабулек" в обществе много?
Тогда просто функции полиции будут выполнять ЧОПы. А оплата их услуг будет чем-то типа нынешних ДМС\ОМС. То есть это мало чем будет отличаться от полиции.
Но проконтролировать, что владельцы оружия вокруг соблюдают технику безопасности, они всё равно не смогут. Или тогда надо ЧОПам давать власть контролировать даже тех, кто не пользуется их услугами.
Anthropic, когда испытывают проблемы с генерацией подсовывают халтуру
Буквально вчера Клод тянул кота за хвост, параллельно спотыкаясь о собственные баги. Переключился на GPT 5.3 Codex - сразу всё сделал без тупых вопросов.
Такое ощущение, что куча народу уже настроило себе все пайплайны именно на Клоде, в итоге у них сейчас конкретный перегруз, и они просто ужимают test time compute, из-за чего модель ленится и халтурит.
Ну хорошо, а что насчёт неосторожного обращения? Скажем, даже в РФ бывали случаи, где у людей, имеющих огнестрельное оружие со всеми необходимыми разрешениями, происходили инциденты, в том числе с детьми. Допустим, если это свои дети, то можно сказать, что сам виноват - это естественный отбор. А если шальная пуля задела прохожего? Он же в этом будет не виноват. То есть вот вышли вы в магазин за хлебом, а вас пристрелили случайно.
Любые профессии, в основе которых математика и логика, надежно защищены от того, что сейчас называют "ИИ".
Смотря что вы называете математикой и логикой. Может быть, математическую логику? Потому что, например, сами математики любят называть математику искусством. Ну то есть как музыка, живопись, поэзия и т. д. Сейчас нейросети с решением математических задач справляются лучше, чем с искусством. И на решение математических задач есть даже специальные бенчмарки (в отличие от задач создания искусства).
Так что немного странно, что вы считаете нейросети аутсайдерами на этом поприще. Как раз таки здесь они и сильны. Золотая медаль по школьной математике (IMO) уже за искусственными нейросетями.
GPT-3 имел 175 миллиардов параметров. А сейчас его уделывают всякие нано-модели для смартфонов. Аналогично и с 4-кой - сначала там был какой-то монстр, который жрал железо на завтрак, а потом сама же OpenAI её дистиллировала до 4о. Ну и дипсик тоже всем показал, что такое дистилляция.
Так что не вижу причин, по которым текущие флагманы не постигнет та же участь.
Так это же нивелируется наличием более тяжёлых вооружений у группы (гранатомёты, артиллерия). Был, кстати, такой прецедент.
То есть абсолютного равенства в плане вооружений не получится, потому что у группы будет больше возможностей для наращивания боеприпасов, чем у одиночек.
В этом смысле я согласен, что наличие огнестрела у одиночек увеличивает потенциальные потери у угнетателей. Но не более того. Особенно, если угнетатели заранее знают, что по одиночке можно сразу стрелять из гранатомёта.
Если задача здесь просто увеличить ресурсозатраты на угнетение (в данном случае гранаты стоят дороже пуль), тогда ваша мысль ясна. Это действительно должно уменьшать давление со стороны властей.
Но перестрелки среди одиночек по любому поводу и неосторожное обращение с оружием одновременно создают угрозу уже не со стороны властей. Все пьяные драки и мордобои превращаются в смертельный аттракцион для окружающих.
По сути все местные модели неизбежно используют разработки, выкладываемые в open-source. А этот самый open-source вполне себе уделывает Клода / GPT годовалой давности. То есть если GLM / Kimi / Minimax / Qwen через год будут как нынешние GPT-5.3 Codex / Claude Sonnet 4.6, то отечественные модели будут на этом уровне уже где-то через пару лет.
С другой стороны, для бигтеха вполне возможно выгоднее будет развернуть какой-нибудь GLM на своих серверах, если задача - чисто кодинг.
Можно, да. Но он-то не думал, что на него накинуться программисты из других областей. Он просто к своим нынешним / бывшим сотрудникам обращался. Иначе зачем ему благодарить вообще всех? С чего вдруг?
Но я согласен, что с его стороны было немного недальновидно так формулировать мысли. С учётом того, что он это пишет на всеобщее обозрение, а не в корпоративном чатике.
Задачи к олимпиадам придумывают каждый год разные, и решения нигде не публикуются. Поэтому если уровень сложности у задач 2026 года примерно такой же, как и у 2025 года, то и решит нейронка примерно столько же.
Собственно, золотая медаль ведь не сразу была взята:
в начале 2024 года AlphaGeometry решила 25 из 30 геометрических задач, взятых из IMO 2000-2022 годов;
потом в июле 2024 AlphaProof решила 4 из 6 задач на IMO 2024, набрав 28 баллов из 42 (до золотой медали не хватило одного балла);
спустя год DeepThink решила 5 из 6 задач на IMO 2025, набрав 35 из 42 баллов, что соответствует золоту.
Музыку, картины и т. д. вообще очень сложно оценить бенчмарком, потому что тут скорее имеют значения эмоции, которые вызывает сотворённое произведение. Единственное, что можно точно оценить - это огрехи генерации, соответствие промпту и т. д. В случае с математическими задачами результат оценивается абсолютно однозначно. Если бы с искусством нейронки справлялись на уровне человека, то понятие "нейрослоп" исчезло бы как класс.
Ну в принципе тогда интересно было бы понаблюдать статистику в странах, где начали продавать оружие всем. Переходный период может быть очень неприятным.
Но от шальных пуль всё равно придётся уворачиваться всем без исключения. Хоть есть у человека оружие, хоть нет.
Ну просто вот вышла бабулька за хлебушком, а её шальная пуля на тот свет отправила. И другие бабульки стали требовать, чтобы "этих с ружьями" проверяли на предмет соблюдения техники безопасности. Как быть? Что, если таких "бабулек" в обществе много?
Эта секта тех, кому лень писать ещё одну "п". Я тоже в ней состою :)
Тогда просто функции полиции будут выполнять ЧОПы. А оплата их услуг будет чем-то типа нынешних ДМС\ОМС. То есть это мало чем будет отличаться от полиции.
Но проконтролировать, что владельцы оружия вокруг соблюдают технику безопасности, они всё равно не смогут. Или тогда надо ЧОПам давать власть контролировать даже тех, кто не пользуется их услугами.
Очень большая часть людей, в частности, женщины будут хотеть, чтобы их безопасность обеспечивал кто-то другой.
В каком смысле 10? Нейросеть прямо сейчас может решить IMO этого года, где все задачи новые.
А музыку и картины нейросеть создаёт по-прежнему не на том уровне, на котором это делают люди.
А объяснение простое - в СССР не было коммунизма.
Это если вам платят за ваше время, а не за результаты.
Буквально вчера Клод тянул кота за хвост, параллельно спотыкаясь о собственные баги. Переключился на GPT 5.3 Codex - сразу всё сделал без тупых вопросов.
Такое ощущение, что куча народу уже настроило себе все пайплайны именно на Клоде, в итоге у них сейчас конкретный перегруз, и они просто ужимают test time compute, из-за чего модель ленится и халтурит.
Так дрону нужно же сначала подключиться к такому домашнему компу и передать туда данные.
Зато все они будут жаловаться, что власти не обеспечили их безопасность.
LLM-ки уже демонстрировали, что могут создавать свои языки для общения. Ничто им не мешает подобным же образом создавать и языки программирования.
Ну хорошо, а что насчёт неосторожного обращения? Скажем, даже в РФ бывали случаи, где у людей, имеющих огнестрельное оружие со всеми необходимыми разрешениями, происходили инциденты, в том числе с детьми. Допустим, если это свои дети, то можно сказать, что сам виноват - это естественный отбор. А если шальная пуля задела прохожего? Он же в этом будет не виноват. То есть вот вышли вы в магазин за хлебом, а вас пристрелили случайно.
Смотря что вы называете математикой и логикой. Может быть, математическую логику? Потому что, например, сами математики любят называть математику искусством. Ну то есть как музыка, живопись, поэзия и т. д. Сейчас нейросети с решением математических задач справляются лучше, чем с искусством. И на решение математических задач есть даже специальные бенчмарки (в отличие от задач создания искусства).
Так что немного странно, что вы считаете нейросети аутсайдерами на этом поприще. Как раз таки здесь они и сильны. Золотая медаль по школьной математике (IMO) уже за искусственными нейросетями.
GPT-3 имел 175 миллиардов параметров. А сейчас его уделывают всякие нано-модели для смартфонов. Аналогично и с 4-кой - сначала там был какой-то монстр, который жрал железо на завтрак, а потом сама же OpenAI её дистиллировала до 4о. Ну и дипсик тоже всем показал, что такое дистилляция.
Так что не вижу причин, по которым текущие флагманы не постигнет та же участь.
Так это же нивелируется наличием более тяжёлых вооружений у группы (гранатомёты, артиллерия). Был, кстати, такой прецедент.
То есть абсолютного равенства в плане вооружений не получится, потому что у группы будет больше возможностей для наращивания боеприпасов, чем у одиночек.
В этом смысле я согласен, что наличие огнестрела у одиночек увеличивает потенциальные потери у угнетателей. Но не более того. Особенно, если угнетатели заранее знают, что по одиночке можно сразу стрелять из гранатомёта.
Если задача здесь просто увеличить ресурсозатраты на угнетение (в данном случае гранаты стоят дороже пуль), тогда ваша мысль ясна. Это действительно должно уменьшать давление со стороны властей.
Но перестрелки среди одиночек по любому поводу и неосторожное обращение с оружием одновременно создают угрозу уже не со стороны властей. Все пьяные драки и мордобои превращаются в смертельный аттракцион для окружающих.
По сути все местные модели неизбежно используют разработки, выкладываемые в open-source. А этот самый open-source вполне себе уделывает Клода / GPT годовалой давности. То есть если GLM / Kimi / Minimax / Qwen через год будут как нынешние GPT-5.3 Codex / Claude Sonnet 4.6, то отечественные модели будут на этом уровне уже где-то через пару лет.
С другой стороны, для бигтеха вполне возможно выгоднее будет развернуть какой-нибудь GLM на своих серверах, если задача - чисто кодинг.
Можно, да. Но он-то не думал, что на него накинуться программисты из других областей. Он просто к своим нынешним / бывшим сотрудникам обращался. Иначе зачем ему благодарить вообще всех? С чего вдруг?
Но я согласен, что с его стороны было немного недальновидно так формулировать мысли. С учётом того, что он это пишет на всеобщее обозрение, а не в корпоративном чатике.