Обновить

Комментарии 171

НЛО прилетело и опубликовало эту надпись здесь

«Такой взрослый, а всё в сказки веришь...» ©

НЛО прилетело и опубликовало эту надпись здесь

Какие примеры? Задач то с их решением мы не видим, т.е. самую интересную и важную часть.

НЛО прилетело и опубликовало эту надпись здесь

Лично эта статья у меня некоторые вопросы вызывает, если всё так как пишут, то почему не опубликовали задачи и их решение? Какой-то ненаучный подход со стороны ученых.

НЛО прилетело и опубликовало эту надпись здесь

давно его списка видно не было.

Да я просто думал, что он надоел уже всем.

Ну хорошо, медведя и пингвинов с кокой сделали, этот не особо удивительно — может, не у меня у одного такая идея пробегала. Так всё‑таки, как насчёт молодого Шварцнеггера с папиросой в зубах, держащего в руке пачку «Беломорканала», а также слона, делающего стойку на своём хоботе (только чтобы руки передние ноги не из *опы).

НЛО прилетело и опубликовало эту надпись здесь

во рту то не беломорина

Так пачка-то невскрытая!

Это и не требовалось.

Вот что не папиросина, а сигарета, и не в зубах, а в губах, это не по промпту.

Очередные придирки уровня "я загадал другой оттенок серого.

Вот старый Арни:

А там молодой еще.

это не по промпту

Так а что мешает доработать промпт так, чтобы товарищи из комментариев остались довольны? А так опять получается "я художник, я так вижу"(с) Ну и настоящий интеллект наверное должен сам подозревать, что в пачке из беломора должен лежать именно беломор (хотя и не факт, что именно с табаком), а не какой-нибудь там верблюд (он же Camel).

Ничего не мешает. Но во-первых, это не мой промпт, во-вторых, у меня претензий к изображению нет и это был сарказм.

настоящий интеллект наверное должен сам подозревать, что в пачке из беломора должен лежать именно беломор (

Что лежит в пачке, мы не видим, может быть и беломорины, а может быть и скрытый радиопередатчик. А во рту совершенно точно не беломорина.

Я не зря попросил молодого Арни, потому что он

выглядел немного по-другому.

Да и на пачке

все моря пересохли

Да ладно всякие хитрые комбинации. Аналогвые часы, показывающие ровно 6 часов оно уже может нарисовать? Или полный до краев бокал вина?

НЛО прилетело и опубликовало эту надпись здесь

А то что в 90% случаев она сделает, то что даже не видела.

Часы как раз контр пример. Она часов со временем, отличным от 10:10 практически не видела, потому что это эстетически приятное, по мнению маркетологов, время на всех картинках и выставлено. То же и с бокалами вина. До краев наполненый нигде не показывают - это не красиво.

НЛО прилетело и опубликовало эту надпись здесь

Если бы мы говорили, что модель всегда права, никогда ошибки не делает - ну тогда другое дело.

Ой, что-то ужасно знакомое!

 — Я изготовлен, — объявил Компьютер, — с минимальными допусками. Я предназначен для выполнения сложных и точных операций, допускающих не более одной ошибки на пять биллионов действий. Вывод ясен: я запрограммирован на ошибку, и я выполнил то, на что запрограммирован. Вы должны помнить, джентльмены, что для машины ошибка имеет этическое значение, да, исключительно этическое. Любая попытка создать идеальную машину была бы богохульством. Во все живое, даже в ограниченно живую машину, обязательно заложена ошибка. Это один из немногочисленных признаков, отличающих живое от неживого. Если бы мы никогда не ошибались, мы были бы отвратительны и бессмертны. И если бы ошибка не была запрограммирована, заложена в нас верховной проектной силой, то мы сквернодействовали бы спонтанно, чтобы продемонстрировать ту крошечку свободной воли, которой мы обладаем, как существа живые.

Контр пример в том, что сетка не может нарисовать часы с другим временем, потому что тупо не видела достаточно примеров. Она не понимает концепцию часов, стрелок и времени. При чем это очень простой пример, картинки часов с другим временем в обучающей выборке, хоть и редко, но должны встречаться.

Можно ещё попробовать «комната, на стене висят часы, показывающие пол‑пятого, на другой стене висит зеркало, в котором отражаются эти часы».

Кстати, раз уж у нас с Вами завязалось небольшуе сотрудничество, сделайте мне хрестоматийное «Нарисуй динозавра, который жарит барбекю на Луне на фоне Земли».

(Как вы должны понимать, запрос тут с подвохом — да ещё и не с одним. А других я и не задаю).

На Луне атмосфера отсутствует (ну почти, если совсем уж докапываться, но в данном случае это всё равно ничего не меняет), кислорода нет, дрова гореть не будут.

В запросе было указано: жарит. Это означает, что есть пламя и есть атмосфера. Такое условие хотя и нереально, однако строго задано в запросе.

НЛО прилетело и опубликовало эту надпись здесь

Вы просто мою мысль прочитали. И выразили очень правильно.

Спасибо!

Теперь от нейронки требуется нарисовать нечто невозможное в реальности, а когда дадут пример — это внезапно будет объявлено провалом, так как невозможно в реальности.

Нет, это объявлено провалом, потому что человек бы подумал, какую деталь надо добать, чтобы это стало возможным.

Кстати, нам сейчас предъявили не «фото», а рисунок. На рисунке всё возможно — даже динозавры на Луне без скафандра.

НЛО прилетело и опубликовало эту надпись здесь

Тут скорее жаль, что часто это нельзя отключить и использовать другую думалку, из тех что помощнее, вряд ли средний человек надумал бы лучше.

Вроде ограничений на количество нейросетей не было, так что не думаю, что @Wesha будет сильно возражать против того, чтобы сперва запросить условный DeepSeek составить запрос для условного Midjourney.
Особенно, если об этом не рассказывать :)))

Человек уж точно фото не нарисует.

Это не так. Есть даже целые направления: фотореализм и гиперреализм.

человек бы подумал, какую деталь надо добать, чтобы это стало возможным.

Человек бы подумал, что динозавр на луне ничего жарить не может, поэтому такой картинки требовать не будет, поэтому хоть добавляйся деталей, но возможным это не станет.

Кстати, нам сейчас предъявили не «фото», а рисунок.

Просто человек в своих жалких и нелепых потугах доказать свою правоту уже забыл, что просил именно рисунок, а не "фото". Ничего, бывает.

Человек бы подумал, что динозавр на луне ничего жарить не может, поэтому

...раз всё-таки просят, то, наверно, либо гриль должен находиться в кислородной атмосфере (куполе-поселении), либо гриль должен использовать способ нагрева, отличный от сгорания топлива в кислороде (например, электрический).

Но этот ход мыслей, я вижу, чересчур сложен не только для СhatGPT, но и для Вас.

просил именно рисунок, а не "фото". Ничего, бывает.

Я вообще-то хотел фото, но насколько я понимаю, любой запрос к сетке, выходом которой ожидается изображение, должен начинаться с ключевого слова "нарисуй".

Бывают люди, которые ни в какую не желают признавать свои ошибки и неправоту. И когда это длится на протяжении долгого времени, да еще с применением вот таких нелепых отговорок, это начинает выглядеть просто жалко.

Бывают люди, которые ни в какую не желают признавать свои ошибки и неправоту.

...с одним из каковых я в данный момент и имею несчастье дискутировать.

Такое условие хотя и нереально, однако строго задано в запросе.

Пятнадацать раз ха‑ха. Там вообще‑то написано «жарит на Луне», но нигде не сказано «под открытым небом».

нигде не сказано «под открытым небом».

Не сказано, значит, не требуется. Придирки уровня капризного дошкольника. "Почему вода в кружке, я не просил в кружке"

А ещё там ничего не сказано про дату, например. Вы же не знаете наверняка что будет лет через 10000? Может, и атмосфера на Луне, и динозавры разумные.

А пламя на рисунке может являться голограммой. А динозавр -- роботом. Ведь нигде не сказано, что динозавр должен быть натуральным.

Это означает, что есть пламя и есть атмосфера.

А я вот раз в неделю жарю сосиски на электрогриле. Пламени нет, прикиньте?

То, что вы не видите пламени, не означает вашей правоты.

То, что вы не видите пламени, не означает вашей правоты.

А Вашу типа означает. Ну-ну.

НЛО прилетело и опубликовало эту надпись здесь

Можно использовать специальные "дрова", спресованное горючие с твёрдым окислителем.

А Вы знаете, как «спресованное горючее с твёрдым окислителем» называется?

Взрывчатка.

НЛО прилетело и опубликовало эту надпись здесь

Видно с химией у вас тоже плоховато

А у Вас с общей эрудицией. Вот Вам пример.

Спросите ллм, он вам объяснит, что к чему.

Сдаётся мне, Пятачок, это диагноз...

НЛО прилетело и опубликовало эту надпись здесь

Да-да, я в курсе что Вы в генерализацию не умеете.

А химию я особенно не знал в детстве, когда решил, что перемешать порошки сахара и селитры хорошо бы не просто на уровне гранул, а на атомарном уровне. На водяной бане, да. Но с контролем температуры не задалось, и так я лишился (на месяц-другой) бровей.

НЛО прилетело и опубликовало эту надпись здесь

А может, без бани. Детали не помню — давно было. Сахар плавиться начал — это помню.

У сахара высокая температура плавления. Надо было сорбид использовать.

перемешать 

смешивать. Тут у вас процесс смешивания нескольких веществ, а не результат перешивания одного.

А у Вас с общей эрудицией.

Ну то есть видео поражения именно что комлексов С-300 известно где (с последующим красочным фейерверком) Вы никогда не видели. Ну ОК.

Это все мелочи по сравнению с тем, что у динозавров не было огня и жарить барбекю они не могли ни на Земле, ни на Луне! Не говоря уже о том, что на Луне до сих пор вообще никаких динозавров не обнаружено.

НЛО прилетело и опубликовало эту надпись здесь

🤦 Чёрт с ними, с дровами (это был третий подвох). Это динозавр. На Луне. Без, сцуко, скафандра!

Добавьте ещё, что он мёртвый, а вы хотели живого. И что он пока был жив, дышал, а вы хотели Луну без атмосферы.

Но этих ограничений в вашем запросе не было! Поэтому машина нарисовала вам Луну с атмосферой, и на ней мёртвого динозавра!

Подобных косяков в любой фентези книге вроде Гарри Поттера вагон и маленькая тележка, придется авторам тоже отказать в разуме

На Луне атмосфера отсутствует

Поздравляю, Вы нашли первый подвох, но проблема не в том, что там не горят дрова — проблема в том, что как там дышит динозавр без скафандра?

Вообще я подумал, что это уж слишком явно и просто. Плюс к этому в теме по ссылке уже были динозавры в скафандрах.

Так следующий подвох заключается в том, что если явно просить динозавра в скафандре — оно нарисует — но с открытым забралом шлема!

НЛО прилетело и опубликовало эту надпись здесь

Низачот. Понимание того, что у слона есть скелет, у суставов которого есть определённые степени свободы (а именно в этом и заключалась задача), отсутствует.

Вы говорите о РЕАЛЬНОМ слоне, однако забываете указать, что РЕАЛЬНЫЙ слон не может принимать такую позу. Следовательно, ваш запрос посвящён выдуманному слону, у которого совсем другие степени свободы в суставах.

В своей критической фразе вы противоречите себе же, то есть отменяете предыдущий запрос.

Вы говорите о РЕАЛЬНОМ слоне, однако забываете указать, что РЕАЛЬНЫЙ слон не может принимать такую позу.

А не подскажете, что конкретно ему мешает?

НЛО прилетело и опубликовало эту надпись здесь

Беломор и папироса явно не те вещи, которым западные модели хорошо обучали.

Модели в гугле забанили?

Даже художнику-человеку потребовался бы образец того неизвестного, что надо нарисовать.

Запросите в поисковике картинки глокой куздры. Они, внезапно, есть. И не нейросетями сгенерированные.

Вас уже несколько раз макнули в примеры.

Не «в примеры», а «в рассказы о примерах». На что есть отличный ответ — «ну и вы говорите» ©, потому как слона‑то надо продавать ©

Вы приходите в магазин и спрашиваете про мебель. Продавец отвечает, что вы можете купить мебель и проверить её, как пожелаете.

Вы очень удивлены, что продавец не позволяет вам испытывать его мебель до покупки, да?

Но ещё страшнее, что в автомобильном магазине нельзя испытать автомобили на дальность пробега, на выносливость и способность перевозить грузы. Продавец требует сначала купить автомобили, а потом испытывать их. Бесплатно в магазине можно получить только рассказы о примерах.

Продавец требует сначала купить автомобили, а потом испытывать их.

Эмм... Я не знаю, как там у вас в Переяславле — а в цивилизованных странах вообще-то как раз наоборот.

По ссылке нет ни одного примера, когда можно бесплатно взять в магазине автомобиль и возить на нём грузы, пока не сломается.

Не «возить грузы, пока сломается», а «сесть за руль и самому поводить и посмотреть, как он себя ведёт, дабы принять решение, а не хочу ли я себе такой купить». У нас, знаете ли, не принято покупать Н.Е.Х.

Названное вами условие — за пять минут оценить, сможет ли автомобиль проехать две тысячи километров с полутонным грузом, — прекрасно выполняют журналисты, рассказывая вам про результат работы нейросети.

В обсуждаемом сюжете про математиков и нейросеть — именно проверяли, можно ли возить на нейросети грузы, пока она не сломается.

А чтобы самому это проверить, надо самому заплатить.

Названное вами условие — за пять минут оценить

Попрошу ссылку на комментарий, где я прошу ну хоть что‑то «за пять минут оценить», в студию, или «поздравляем вас, гражданин, соврамши» ©

прекрасно выполняют журналисты

знаем мы, как журнализды его выполняют

А чтобы самому это проверить, надо самому заплатить.

Ну вот пускай сами у себя свою нейросеть и покупают.

Вы сами писали:

«сесть за руль и самому поводить и посмотреть, как он себя ведёт, дабы принять решение, а не хочу ли я себе такой купить».

Неужели вы имели в виду, что можно сесть за руль и проехать две-три тысячи километров с грузом?

Вы сами писали:

«сесть за руль и самому поводить и посмотреть, как он себя ведёт, дабы принять решение, а не хочу ли я себе такой купить».

Ну и где здесь «названное мной условие — за пять минут оценить, сможет ли автомобиль проехать две тысячи километров с полутонным грузом»?

Чтобы принять такое решение, пяти минут недостаточно. Для этого нужно несколько недель.

Чтобы принять такое решение, пяти минут недостаточно.

Какое «такое»? Чтобы принять решение «хочу ли я купить эту машину», иногда и двух секунд достаточно, а про «две тысячи километров» — это соломенное чучело Вы сами придумали, а теперь доблестно с ним сражаетесь.

То есть вам достаточно 2 секунд, чтобы оценить, насколько нейросеть может решать сложные математические задачи. Глубоко уважаю вас и всю Академию наук, в которой вы являетесь одним из самых уважаемых академиков. С большим почтением отношусь к МГУ, где вы считаетесь почётным профессором и возглавляете кафедру. Считаю нужным подчеркнуть, что вы стоите на голову выше Гильберта и Перельмана.

> иногда и двух секунд достаточно

То есть вам достаточно 2 секунд

Скажите, я правда так похож на Иногду?

А я бы с удовольствием поучаствовал бы в конкурсе "придумай задачу для ИИ, которую тот не решит". Особенно с призом в $7500.

посчитай количество букв $letter в слове $word

Это и люди не могут решить. Вот сколько букв в слове «человечность»?

Дарю идею

Оно же от "рассуждающей" версии o4-mini

НЛО прилетело и опубликовало эту надпись здесь

Это самый лучший способ проиллюстрировать шутку:

  • John, our customer has found a bug: bug_description

  • I’ve checked the application, it works on my PC

  • Then we’ll ship your PC as the fix

Звучит как история Apple, когда они решили продавать софт только вместе со своим железом, в отличие от PC.

В мире LLM сейчас всё меняется настолько быстро, что критика перестаёт быть значимой, пока автор ещё не успел дописать до точки.

Думаю спорили люди, которые плохо понимает, как работает предсказательная модель, чем является любая llm.

Но, попробую побыть адвокатом дьявола, который не смыслит в математике.

Математические задачи раскладываются на составляющие. Т.е. работа проф математиков, зачастую, состоит в том, чтобы во всей известной математике, как из кубиков, попробовать найти подходящие друг другу элементы.

И вот эту задачу решает llm: найти эти связи, которые не видели математики раньше. Поэтому - вообще не удивительно. Точнее даже прогнозируемо. Корпус знаний огромен же.

Но, одновременно с этими достижениями и интересом понять «как оно работает внутри», есть ещё и другое интересное направление: переосмысление математики. Найдет ли llm что-то новое, новые абстракции, сможет ли что-то упростить к пониманию.

Поскольку я взял роль антагониста в диалоге, сделаю вывод: сейчас мы видим эффект низкой базы - для llm есть корпус задач, до которых у людей не дошли руки: их решают люди, большая часть решений лежит в области «нужно больше людей, которые будут этим заниматься».

Что это значит? Что у математиков появился инструмент, который позволит уменьшить количество рутины.

Превзойдет ли этот инструмент человека, т.е. сможет ли сам найти и решить задачу? Это самое интересное. Возможно, мы лишь в самом начале НТР 21 века.

P.S.: скептицизм - это одна из основ науки. Ставить под сомнение нужно все и вся. Поэтому с негативом к рациональным скептикам относится плохо нельзя. В спорах рождается истина.

LLM ведь уже могут писать программы. Не в любых ситуациях, но в некоторых получается неплохо. Языки программирования относятся к формальным системам, как и языки математики. Наверняка в ней тоже есть класс задач, с которым LLM должны справляться.

С LLM дело не в конкретной ситуации, а в "повезет не повезет". Таким образом, всегда нужен контроллер.

всегда нужен контроллер.

Контроллер (дисковода) — вещь, конечно, полезная, но LLM всё-таки нужнее контролёр!

Сейчас и математиков проверяют рецензенты. Задача же не в том, чтобы всегда давать только верные ответы. Наука это поиск таких ответов.

Я свой скепсис основываю на опыте: каждый день использую llm как помощника в написании этих самых программ. Ну все очень плохо, если занимаешься разработкой профессионально на высоком уровне качества.

А на днях попробовать использовать chatgpt для поиска в файле: json в вектор, вектор на file search api. Один и тот же запрос, буквально, может мне вернуть разные варианты ответов.

И 100% верный только в 10% случаев. причем у меня половина промпта - просьба вернуть валидный json. Я каждый день трачу где-то 1-2$ на токены, чтобы тупо выловить все корнер-кейсы.

На одной чаще весов несколько математиков получили вау-эффект (уверен на 99%, они даже не юзали до этого llm), а на другой - личный опыт.

LLM это не уникальный решатель. Там где нужна детерминированность результата они скорее всего не годятся. Мы с вами парсим в голове json тоже не круто. Поэтому я и написал про определённый класс задач. Например, они хорошо подходят для генерации данных для тестов, где некая креативность позволяет отловить больше ошибок.

LLM это не уникальный решатель. Там где нужна детерминированность результата они скорее всего не годятся

Tesla Autopilot — это не уникальный водитель. Там, где нужно точно доехать до точки назначения живым, он скорее всего не годится.

Вы, наверное, хотели сказать «не универсальный».

Мы отлично просим json в головах. И не только его.

И chatgpt прекрасно работает умеет в форматированный вывод через указание модели через zod, если говорить про js.

Но не умеет почему-то это делать в поиске по файлам. Т.е. где-то есть какая-то волшебная ручка форматированного вывода, которая есть в чат-api. Озаботили же :)

Но мне интересна ваша логика: в словаре найти id llm не может. А решать сложнейшие математические задачи - может. Кмк, работа с множествами - это как раз то, что llm должна научиться делать, учитывая что функционал так и называется file search.

Вы, наверное, хотели сказать «не универсальный».

T9 — это не уникальный способ ввода. Там, где хочешь правильно донести свою мысль, он скорее всего не гоится.

Вы, наверное, хотели сказать «не универсальный»

Вы правы, спасибо.

И chatgpt прекрасно работает умеет в форматированный вывод через указание модели через zod, если говорить про js.

Сама модель лишь играет в игру "продолжи фразу". У нее это хорошо получается для популярных фраз и плохо для редких. Недостатки являются продолжением достоинств.

У ChatGPT, как сервиса, есть масса надстроек, позволяющих до некоторой степени обойти недостатки. Например, для работы со структурированными данными они переводят схему на отдельный язык, более удобный для LLM, нежели стаедартный JSON https://medium.com/data-science/diving-deeper-with-structured-outputs-b4a5d280c208 . Поиск в файлах, вероятно, работает по другому принципу. Но сейчас, благодаря возможности вызывать внешние тулы, можно делать очень хитрые выборки.

Математика в каком-то смысле тоже про игру в слова - где одни символы заменяются другими по каким-то правилам, образуя цепочки решения. Ну и тот факт, что одну и ту же задачу часто можно решить разными способами, говорит о том что здесь есть применение недетерминизму, свойственному LLM.

Помню как на Хабре, в комментах, постоянно говорили о том, что нейросети неспособны решать задачи, ответы на которые нет в Интернете и в обучающей выборке.

Да, интересно, смогла эта модель обучиться точному сложению и умножению любых чисел без посторонней помощи? До сих пор не могли, в конце приведена ссылка проверки в некоторых моделях. Ситуация интересная, ИИ решает сложные мат. задачи, но решение базовых освоить не может) Со временем конечно решат эту проблему путем развития архитектуры моделей.

писали что к ChatGPT можно подключать плагин Wolfram Alpha и типа с его помощью ИИ может точно считать, но у меня не получилось это проверить (я пробовал через посредника theb.ai )

к ChatGPT можно подключать плагин Wolfram Alpha и типа с его помощью ИИ может точно считать

А второклашке можно вручить калькулятор, и он решит арифметические задачки за четвёртый класс!

Так что за задачи-то были? Какие ответы давал ИИ? Его вообще перепроверяли или на слово верили?

это закрытое собрание а закрытые собрания человечеству запрещены

НЛО прилетело и опубликовало эту надпись здесь

А что тогда может полная версия о4? Она есть но не публичная. И думаю сейчас идёт процесс обучение о5.

Уже сейчас есть области математики в которых разбираются единицы людей по всему миру. Если LLM окажутся успешнее людей, то только вопросом времени будет появление областей в которых разбирается 0 людей, т.е. сети выводят теоремы и получают (допустим) практически применимые результаты, но проверить их выводы могут только другие сети. Звучит довольно по-киберпанковски.

Правда конкретно об этой новости - чуть раньше EpochAI засветились вот с такой фигней: https://habr.com/ru/companies/bothub/news/874740/ так что и эту стоит воспринимать с ноткой маркетинга.

Это десятилетие будет интересным... Если ИИ ищет закономерности и предлагает выводы лучше людей, это далеко не только математики коснётся, будут сдвиги во всех сферах

Если ИИ ищет закономерности и предлагает выводы лучше людей,

Если.

"Организатором эксперимента выступила некоммерческая организация Epoch AI, которая занимается тестированием и сравнением больших языковых моделей..." - любой каприз за ваши деньги ))

LLM не будет разбираться, в этом беда. Она 9 раз выдаст текст, который будет правильным, на 10-й выдаст белиберду, демонстрирующую 0-вое понимание.

Это и забавно. Будут проверять другой сетью, а ее перепроверять третьей. Но если будут практические результаты (это конечно основное допущение, т.к. многие области математики от практического применения далеки) то с этим придется смириться - что поделать, раз люди разобраться в этих автогенерированных теоремах не способны, а промышленность\криптография\астрономия требуют продолжения.

«Цитирование не требуется, потому что загаданное число было вычислено мной!».

(Зачарованно:) Аднака, Мавроди растёт!

Ну, число то мы знаем, 42

Всё, проблему перебора уже можно закрывать? Аааа, просто никто не догадался спросить...
Ну хорошо, а хотя бы погоду, как в Назад в будущее, с точностью до секунды можно прогнозировать?

 а хотя бы погоду, как в Назад в будущее, с точностью до секунды можно прогнозировать

В силу ряда причин такое вряд ли возможно в обозримом будущем (и упирается тут не в мощь ИИ, а в количество метеостанций, хаотичность погоды как системы и зависимость от локальных факторов), однако нейросетевые модели уже в тестах опережают классические погодные модели, которые разрабатывались десятилетиями.

а в количество метеостанций, хаотичность погоды как системы и зависимость от локальных факторов

Так вроде никто и не задавал жёстких условий, что погоду нужно предсказать с точностью до секунды в любой точке мира на год вперёд.
Неужели нигде в мире не существует области, покрытой метеодатчиками в достаточной степени? Что-то с трудом верится, если честно.

Если такая область и есть, сами посудите: там не ходят люди, там не ездят автомобили, над ней "в основном" не летают самолеты и даже коптеры. И даже птицы не особо. Но датчиками все покрыто очень плотно. Много ли таких локаций?

Вот и спутники туда же.

Это типичное опытное поле погодной станции. Все вышеперечисленные включая птиц там не летают потому что ебеня, а не потому что там микроволновым излучением жарят птиц.

над ней "в основном" не летают самолеты

Однозначно нет, даже не будучи метеорологом я точно знаю, что метеостанции в аэропортах есть.

включая птиц там не летают потому что ебеня

Вот как раз-таки в ебенях птиц очень даже нормально летает. Ровно потому, что человека нет.

Много ли таких локаций?

И @vtal007: "придется в каждом квадрате 10х10 метров поставить метео-станцию" сюда же.

Т.е. Вы хотите сказать, что узнать погоду можно только на участке самой метеостанции.

Если мы возьмём 4 упомянутых участка 10х10 метров и расположим их крестиком, так, чтобы в центре оказался пустой участок 10х10 метров (сами числа и форма в данном примере не важны, важен принцип, что некоторый участок местности окружен метеодатчикам), то точно зная условия на этих 4 участках (допустим везде +20), мы никак не можем узнать, какая погода на пустом участке (и там -50). Так чтоли?

да, 100% фактическую погоду можно узнать на участке самой метеостанцнии

эти крестики - это уже попытки сэкономить :)

нет, в этом квадрате не будет -50, но какое-то локальное событие может начаться, смерч например. Чем раньше его заметишь, тем точнее будет прогноз

Собственно нет проблем с прогнозированием, если данных много. Но их не так много. Прогнозисты берут данные из метео-станций, а они не так чтобы очень часто расположены. Потом делаю апроксимацию (точнее модели предсказаний) с учетом силы ветра и прочих факторов. Конечно тут не будет 100% точности

Но да, общее правило - для повышения точности, нужно увеличивать кол-во наблюдений.

эти крестики - это уже попытки сэкономить :)

Не совсем, конечно, попытки именно экономить. Метеостанцию в кратер извергающегося вулкана не засунешь, например, не потому, что кто-то пытался экономить.

Прогнозисты берут данные из метео-станций, а они не так чтобы очень часто расположены.

Зависит от местности. Вокруг Вены, например, довольно-таки много:
https://en.tutiempo.net/climate/mapa/
И это только те, что публично показаны.

Но да, общее правило - для повышения точности, нужно увеличивать кол-во наблюдений.

Так мы же читаем статью про "Нейросеть оказалась способна ответить на некоторые из самых сложных задач в мире" и " Бот также был намного быстрее профессионального математика: ему требовалось всего несколько минут, чтобы сделать то, на что у эксперта-человека ушли бы недели или месяцы".
Соответственно, что мешает нейросети ответить: "я подумала, если хотите как в "Назад в будущее", нужно поставить метеостанции в точках А, Б, В и обеспечить частоту опроса раз в минуту?"

что мешает нейросети ответить: "я подумала

Да ничто не мешает.

Равно как и мне ничто не мешает заявить, что я — нигерийский принц.

Не путайте метеостанцию, которая условный контейнер с пропеллером и десятком датчиков где-то стоит, хоть в аэропорту, и опытное поле погодных станций. Эти станции довольно редкие, и в аэропортах их нет (ну может и есть, допускаю, но точно не везде). В чем отличие? Это реально поле, или полянка в лесу, или даже площадка в городской черте, огороженная небольшим заборчиком. Зато там натыканы на шестах или столбах всякие хитрые погодные датчики, которые в метеостанцию не упихаешь. Типа емкости для снега, с подогревом, весами, автоматическим сливом и даже промывкой от грязи. Такие штуки обычно бывают при институтах, заводах, обслуживаются наполовину вручную и дают очень прям дофига инфы о погоде. Я тоже метеоролог не настоящий, но бывал в таких местах, где мне рассказывали для чего какой прибор. Там прям отвал башки. Оно конечно тоже локально собирает, но очень точно, и поскольку это все таки небольшая территория а не точка, например несколькими флюгерами могут векторы ветровых потоков определить, при разнице поворотов этих флюгеров на полградуса.

Это реально поле, или полянка в лесу, или даже площадка в городской черте, огороженная небольшим заборчиком. Зато там натыканы на шестах или столбах всякие хитрые погодные датчики

"Вы не поверите"(с)
Именно так они и выглядят в аэропортах.

Оно конечно тоже локально собирает, но очень точно, и поскольку это все таки небольшая территория

Хорошо, но ведь есть в мире места, которые окружены такими станциями?
https://en.tutiempo.net/climate/mapa/

так вроде погоду уже с помощью МЛ предсказывают
на тех же яндекс-картах можно увидеть тучу, которая подходит к моему дому

так вроде погоду уже с помощью МЛ предсказывают

Совершенно верно, вопрос в точности.

на тех же яндекс-картах можно увидеть тучу, которая подходит к моему дому

"В течение двух часов дождя не ожидается". Вышел, через полчаса промок насквозь. Вполне типичная ситуация.

насколько типично мне сложно сказать, я так прям точно смотрю, когда живу на даче, скорее совпадает, чем не совпадает

Если нужно больше точности. Вы ж понимаете. дело не в МЛ, а то, что придется в каждом квадрате 10х10 метров поставить метео-станцию

Вы промокли, потому что не ожидали дождя. Именно это и предсказывал сайт!

Ну когда великие умы больше не нужны - нужны будут рабочие руки. А потом уже и рабочие руки будут ни к чему... Останется жить только сфера развода - все всех будут разводить на бабки, вот это веселые времена

НЛО прилетело и опубликовало эту надпись здесь

By the end of that Saturday night, Ono was frustrated with the bot, whose unexpected mathematical prowess was foiling the group’s progress. “I came up with a problem which experts in my field would recognize as an open question in number theory—a good Ph.D.-level problem,” he says. He asked o4-mini to solve the question. Over the next 10 minutes, Ono watched in stunned silence as the bot unfurled a solution in real time, showing its reasoning process along the way. The bot spent the first two minutes finding and mastering the related literature in the field. Then it wrote on the screen that it wanted to try solving a simpler “toy” version of the question first in order to learn. A few minutes later, it wrote that it was finally prepared to solve the more difficult problem. Five minutes after that, o4-mini presented a correct but sassy solution. “It was starting to get really cheeky,” says Ono, who is also a freelance mathematical consultant for Epoch AI. “And at the end, it says, ‘No citation necessary because the mystery number was computed by me!’”


Странно, почему тогда статья называется "At Secret Math Meeting, Researchers Struggle to Outsmart AI", а не "AI Offers Elegant Solution to Previously Unsolved Math Question", например. Ах да, точно, тогда пришлось бы публиковать саму проблему и решение от AI

Главный вопрос: а в тех задачах, с которыми она не справилась, она так и сказала, что "не шмогла я", или, как обычно, выдала крайне изобретательную и правдоподобную галлюцинацию?

И в один прекрасный день оно напишет нам уравнение Фицджона.

Если посмотреть с другой стороны, то в шахматы сеть научилась играть уже давно и очень хорошо, а математика, если подумать, чем-то напоминает шахматы. Есть наборы неопределяемых понятий (фигуры), есть наборы аксиом (правила), теоремы вытекающие одна из другой - это как развитие шахматной партии. Возможно мы переоцениваем сложность математики, т.к. эволюционно наши мозги не очень хорошо приспособлены решать такие задачи. А для сети это семечки.

Наши мозги могут решать другие задачи, как семечки, а крутые компы на это могут тратить от секунд до нескольких часов. Это не показатель. То, что комп сможет сложить 300-значное число с 900 - значным числом - не показатель ума. Компы на то и делались.

А вот кто быстрее обнаружит труп на фотографии - человек или компьютер? Почему труп? Потому что у человека обнаружение трупов это как запахи, сигнал "опасно" и в первую очередь распознает. Не всегда, но такой механизм есть.Зловещая долина один из примеров.

Over the next 10 minutes, Ono watched in stunned silence as the bot unfurled a solution in real time, showing its reasoning process along the way. The bot spent the first two minutes finding and mastering the related literature in the field. Then it wrote on the screen that it wanted to try solving a simpler “toy” version of the question first in order to learn. A few minutes later, it wrote that it was finally prepared to solve the more difficult problem. Five minutes after that, o4-mini presented a correct but sassy solution.

Я конечно хреновый математик, но лично я валидировать решение небанальной математической задачи не смогу если его передо мной будут разворачивать в режиме реального времени. В спокойной обстановке, без лишних людей вокруг, с пачкой бумаги и карандашом, - и то минут 30 может влёгкую уйти только чтобы въехать, в чём состоит решение и правильными ли объектами оперирует автор (+дьявол может быть в неявных допущениях), и от часа и больше на попытки составления контрпримеров и т.д.

Что они там за 10 минут умудрились осознать и провалидировать я понятия не имею, но очень сомневаюсь, что то, чем они занимались эти 10 минут, являлось анализом решения по существу.

Ну так там дальше есть про три подхода к обоснованию доказательства. :)

Так они пришли с готовыми задачами,которые могли неделями продумывать до. Они не в ходе встречи выдумывали. А дальше можно просто сверить ответ по числам. Если задача из головы и никому не давал, не думаю что нужно каждый шаг решения тестировать

А дальше можно просто сверить ответ по числам.

Вряд ли задача вида "open question in number theory—a good Ph.D.-level problem" - это посчитать набор чисел. Практически наверняка это задача на доказательство.

Также "came up with a problem" всё же означает что задача была именно что придумана на ходу.

Рекомендую спросить у Вашей любимой LLM, как переводится английское выражение «they came up with».

ВНЕЗАПНО:
Не "пришли с", а именно "быренько придумали"
Не «пришли с», а именно «быренько придумали»

Ложные друзья переводчика нанесли свой подлый удар.

P. S. Это я не «в словаре посмотрел», это я знаю, ибо как‑никак четверть века тут живу и каждый день на том инглише шпрехаю.

Если там действительно задача уровня докторской, то валидация может и дни занять, а то и недели.

Я знаю способ борьбы с вашей псевдонейросетью. Подсунуть ей задачи, которые заведомо не решаются и смотреть какой бред она будет нести. Правда, многие врачи, учителя, служба поддержки низких уровней тоже ни за что не признаются что ничего не понимают. На этом их и проще всего поймать - смотреть не где люди люди говорят правду, а где заведомо лгут. Кстати, Каспарова первый компьютер обыграл в 1998 году и он абсолютно уверен (не без основания, на мой взгляд, кмс) что против него машину направлял сильный гроссмейстер, уверен и тут мы имеем дело с очередной "Наташей"

НЛО прилетело и опубликовало эту надпись здесь

Спросите. Получите закономерный ответ, что она нерешаемая, если она известно нерешаемая.
Или получите длинную простыню рассуждений и тот же самый итог. Ризонинг и tool-calling перевернули игру, сети плохо считают by design, но хорошо умеют писать простой код, и тот же chatgpt в таком случае сам пишет код на python, сам его выполняет, получает ответ.
А с Каспаровым - сложно представить, кто мог бы направлять компьютер для победы над Каспаровым, это раз, а два - рейтинг того же Stockfish выше лучшего шахматиста сейчас. Там тоже Наташа?

Причём Стокфишь запускается на слабом локальном оборудовании. Можете хоть в клетке фарадея играть с ним

Любые мало-мальски комплексные задачи с образами с заведомо неверным результатом дают лажу:

Не очень пример. Это задача явно не для текстовой модели, которая, вероятно даже не знает как оба этих символа выглядят

Эта задача показывает, что текстовая модель - не интеллект. Можно по-другому сформулировать - не интеллект, подходящий для задач реального мира. Наши интеллекты сформировались в результате взаимодйствия с пространством-временем, и всякая мысль проходит черзе внутреннее моделирование и сверку выводов с аксиоматикой пространства-времени. В LLM этого нету, это одномодальный "разум", поэтому он неизбежно будет спотыкаться на тривиальных вещах. Это только один принципиальный дефект. Есть другой существенный дефект - статическая структура знаний, отсутствие этих знаний в поле активного внимания (контекстное окно). У модели нет возможности ретроспективы, как именно она пришла к тому или иному выводу.

Эта задача показывает, что не стоит спрашивать слепого как выглядит птица

Эта задача показывает, что не стоит спрашивать слепого как выглядит птица

Эта задача показывает, что слепой, ежели его спросить, как выглядит птица, с полной уверенностью опишет Вам про все восемь её конечностей.

НЛО прилетело и опубликовало эту надпись здесь

что это опровергает? Только подтверждает. Полотно текста с неверным выводом. Чтобы решать подобные задачи нужна зрительная кора, интегрированная в процесс мышления (image to text плагины не подходят, ибо в мышление не интегрированы).

 Проблемные моменты и неточности:

  1. Конфликт интересов не раскрыт в статье: Участие OpenAI в финансировании FrontierMath стало известно только когда компания объявила о рекордной производительности на этом тесте, что вызвало критику за недостаточную прозрачность THE DECODERTechCrunch.

  2. Временные несоответствия: Статья описывает встречу в мае 2024 года с o4-mini, но модель была официально выпущена только в апреле 2025 года OpenAI o4-mini - Wikipedia. Это может указывать на использование тестовой версии или неточность в датах.

  3. Результаты производительности: Статья утверждает, что o4-mini решил около 20% задач к февралю 2025 года, но точные цифры производительности в независимых источниках найти сложно.

🔍 Требует дополнительной проверки:

  1. Конкретная встреча в Беркли: Детали о "секретной встрече" в мае 2024 года не подтверждены независимыми источниками.

  2. Личности участников: Хотя Кен Оно - реальный математик из Университета Вирджинии, его конкретные высказывания и роль в проекте не подтверждены независимо.

  3. Конкретные примеры решений: Детальные описания того, как o4-mini решал задачи "в реальном времени", не имеют независимого подтверждения.

Мнение главного конкурента (сонет 4), хе-хе

Тот кто вставил абзац про 4o-mini в статью про o4-mini - запутался в нейминге OpenAI, либо он - нейросеть.

Вот, кстати, человек пишет, что он участвовал в упомянутом "симпозиуме" в качестве приглашённого специалиста, и что некоторые моменты в публикации "несколько преувеличены". По ссылке есть и пример задачи, для которой LLM даёт неверное решение, но верный ответ. Да, задача сформулирована на очень техничном языке, - видимо, в этом и состоял смысл, - но вообще-то представляет собой вполне обычный для спецкурса по топологии вопрос о двух зацепленных окружностях-лепестках (или про "конфигурационные пространства" - как хотите), поэтому что-то задача не тянет даже на заявленный в начале критерий сложности - "должна требовать около недели времени для решения математиком". Но LLM - не справляется. Там же написано, что та же LLM не справилась с задачами, требовавшими корректной интерпретации результатов промежуточных шагов.

Что там были за математические задачи? Мне пока все модели OpenAi, Claude, Qwen, DesspSeek в разных режимах (рассуждающих. исследования и так далее) пока не смогли решить ни одной сложной математической задачи требующей мышления. Но при этом, они хорошо помогают развить идею, так как позволяют быстро вспомнить какие-то разделы формулы, получить список многих теорем на заданную тему.

При этом, они просто не могут проанализировать сами кучу разделов. Например, сейчас я решал математическую задачу связанную с энтропией. Да супер, они все сразу приводят формулы Шеннона, но все остальное надо указывать самостоятельно. Чтобы провести сравнение с энтропией Чебышева и другими, нужно указать на это или неявно попросить об этом. Они гоняют по кругу самое популярное, повторяя одно и тоже. И не дай бог их занесет ни туда.

Каждый раз приходиться возвращаться к какой-то части цепочки, чтобы перенаправить модель по другому предсказанию.

Что там за мат задачи были? Из пункта А в пункт В выехал поезд, и когда они встреться? Почему мне модели не могут ни нормально хим. рецепты писать (когда я пытаюсь улучшить, что то в растворах) или самостоятельно решить мат задачу, которую до этого не решали? Да блин, даже голограмму не могут толком нормально рассчитать, приходится за ними править расчеты. Они супер рассчитают то, что уже и так 1000 раз решали множество раз. Так и я могу один раз написать программу, которую сделает расчеты такой задач и это будет работать быстрее и точнее LLM и превзойдет в этой задаче человека. Давайте Photoshop сравнивать с рисованием, а CAD с черчением от руки. Речь же про сложные задачи, а не трудоемкие. Сложные - это когда до этого решения не было. А не когда ты потратил 10 часов на то, чтобы все расписать.

Важно!

Дэвид Бэйли на странице по ссылке ниже приводит формулировку задачи, поставленной перед нейросетью, и процесс обсуждения с нейросетью.

Ответ не приводится.

https://mathscholar.org/2025/06/new-ai-stuns-mathematicians-with-its-problem-solving-skill/

Задача заключалась в нахождении момента пятой степени чисел Тамагавы эллиптических кривых над Q. (Что бы это значило?)

Утверждается, что нейросеть разобралась в статье 2001 года Гриффина, Оно и Цаи:

https://arxiv.org/abs/2006.01063

Итого: математик дал задачу связанную со статьей которую написал в 2001, модель нашла в гугле его статью и по ней решила задачу. Успех конечно, но до "Математики не смогли превзойти нейросеть в решении сложных задач" не дотягивает.

Во-первых, у меня выше опечатка: 2020 (последняя версия), а не 2001.

Во-вторых, если нейросеть сумела прочесть и понять эту статью, то математический уровень большинства инженеров, прикладников и программистов она превзошла.

По ссылке выше можно перейти к PDF-файлу (https://arxiv.org/pdf/2006.01063) и самостоятельно оценить необходимый для понимания статьи уровень математической подготовки. Насколько я понимаю для того, чтобы в этом разобраться, нужно очень хорошее образование в области абстрактной математики. Нейросеть такого уровня уже читала бы лекции студентам...

Думаю, что многие хабровчане учили математику в ВУЗе. Смогут ли участники Хабра (за исключением тех, кто учились на мехматах или матмехах) разобраться в этой статье? Я полагаю, что в таких статьях разбираются исключительно те, кто способен "превзойти большинство математиков в решении сложных задач".

Весьма вероятно, что что-то в утверждениях о могуществе нейросети чрезмерно преувеличено.

Смогут ли участники Хабра (за исключением тех, кто учились на мехматах или матмехах) разобраться в этой статье?

А оно действительно нужно? Или достаточно принять r(a) = 5 и подставить в формулу?

1) В задаче речь идет о моменте 5-й степени чисел Тамагавы, а r(a) в статье - это ранг кривой. Почему Вы решили, что они совпадают?

2) В п.12 в "разговоре Кена Она с нейросетью" из статьи Дэвида Бэйли указано, что в статье не обсуждаются высшие моменты чисел Тамагавы, а лишь средние значения. Таким образом, там утверждается, что в статье нет необходимой формулы.

3)В какую формулу подставить? В формулу из abstract для h(-D)? Почему Вы решили, что h связан с моментами высокого порядка (степени?) чисел Тамагавы?

4) Числа Тамагавы определяются для групп. Каким образом по эллиптической кривой (или кривым?) можно получить группу?

Лично мне ответы на эти вопросы неизвестны. Поэтому я не вижу оснований для того, чтобы принимать r(a) = 5 и принимать за ответ h(-D).

Вероятно, что Ваше предположение неверно.

если нейросеть сумела прочесть и понять эту статью,

А откуда Вы знаете, что сумела? Может, она её просто процитировала другими словами. Мы же не видели реального ответа, нам Рабинович напел.

Смогут ли участники Хабра (за исключением тех, кто учились на мехматах или матмехах) разобраться в этой статье?

За пять минут — не могу, а тратить пару дней — жизнь не позволяет.

Если хотите реально что-то доказать — пусть оно ответит на мой вопрос, ответ на который я знаю, но каковой никогда не публиковался (это я тоже знаю).

А откуда Вы знаете, что сумела?

А я и не знаю - сумела или нет разобраться. А напел про это Кен Оно из Американского математического общества - очень солидное объединение. Получается, что он пожертвовал своей научной репутацией.

тратить пару дней

Объективно - пару десятков лет. Связь основных конструкций можно усвоить быстро, если повезет с преподавателем или учебником. А вот, чтобы разобраться в деталях, необходимо владеть точным пониманием множества математических понятий из алгебры, топологии, теории меры, алгебраической геометрии, теории чисел. Только тогда можно будет находить новые формулы.

Если хотите реально что-то доказать — пусть оно ответит на мой вопрос, ответ на который я знаю

Собственно, для Кена Оно ситуация так и выглядела. Он будучи одним из авторов статьи 2020 года предложил нейросети вопрос, дополняющий статью. Фактически, предложил решить задачу, которая могла бы стать следующим параграфом статьи. (Так ставит задачу научный руководитель аспиранту.) Я предполагаю, что Кен Оно достаточно квалифицирован, чтобы отличить корректный ответ от ошибочного.

Поэтому здесь либо мошенничество, либо утечка засекреченной информации. Иначе трудно объяснить то, что ответ не приводится, и то, что дальнейшая шумиха вокруг свершений нейросети отсутствует.

Поэтому здесь либо мошенничество, либо утечка засекреченной информации.

Либо рядовое накручивание хайпа типовыми методами массмедиа: "секретная встреча", "вы всё равно не поймёте", "приборы не покажем, но там ого-го!", "придёт время -- все ахнут!" и т.д.

Он будучи одним из авторов статьи 2020 года предложил нейросети вопрос, дополняющий статью.

...которую он, та-да-дам, уже опубликовал. Кто сказал, что нейросеть не могла её всосать вместе со всем остальным Интернетом?

Я предполагаю, что Кен Оно достаточно квалифицирован, чтобы отличить корректный ответ от ошибочного.

Я предполагаю, что комиссия, проверявшая доказательство теоремы Ферма, достаточно квалифицированная, однако ей понадобилось 20 лет, а не две минуты.

Поскольку я сам лично математикой занимаюсь давно (и даже отметился участием в OEIS), то авторитетно утверждаю что заголовок статьи - враки ради хайпа. Для начала можете попросить вашу любимую нейросеть вывести формулу гауссианы в полярных координатах (а это более чем простая задача, просто для неё готового решения в интернетах нету, которое можно взять и скопипастить). Прямо сейчас ИИ от гугл выдал формулу, которая не просто неверна - там аргумент отсутствует в принципе!

Настоящая математика - это не доказывать теоремы, которые давно доказаны кем-то другим, и не решать олимпиадные задачи, которые придумываются исходя из уже известного решения. Настоящая математика - это создавать что-то новое. А сложные задачи в математике - это не просто те, для которых решения ещё нет - это те, для которых сам поиск решения не известен.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости