madballer34 20 авг в 13:37

LLM и их хрупкая логика: новое исследование ставит под сомнение Chain-of-Thought

5 мин

8.6K

Блог компании ТехнократияИскусственный интеллект

Перевод

+17

Комментарии 36

Haizer 20 авг в 17:06

Я не особо разбираюсь в нейросетях (потому так много и говорю) Дальше мое имхо, может я чего-то не понимаю но..: Людям правда нужен ответ на вопрос:

В чем причина того что машина, которая создана что бы угадывать что мы хотим, и которая занимается статистическим обобщением результатов и данных...сыпется в задачах на интеллект при добавлении новых условий?

...потому что она на это не рассчитана? Момент где возникает проблема - это момент постановки задач на этапе проектирования ИИ. Нейросеть НЕ может работать за рамками обобщенных результатов и угадываний того что она ЗНАЕТ. Нейросеть не создаёт (в привычном смысле) обобщенных и новых паттернов которые можно применить к разным задачам. Нейросеть не имеет представление о реальном мире и как с ним работать.

Это причина почему условная кружка будет сука не переворачиваться. Хотите интеллектуального агента?

1) Забудьте о современных llm-ках. У человека/животных есть интеллект. Других интеллектов мы не знаем - так что ориентироваться надо на этот. (Каким образом он работает? Понятия не имею! Но зато мы знаем как он не работает - он не обучается на гигантских статистиках и безумном количество попыток)

2) Дайте этой штуке глаза...лучше ещё и ноги. (Это можно делать даже сейчас. Даже с ллмками). Понимания это не добавит, но зато в уравнение добавятся данные о взаимодействии с реальным миром, что может помочь с трехмерными задачами.

Onyix67 20 авг в 19:24

Что значит забудьте о современных llm? Llm сейчас достаточно успешно справляются со многими рутинными задачами. В некоторых случаях - гораздо быстрее (и дешевле!) человека.

А искусственный интеллект он на то и искусственный. Это иллюзия интеллекта, и никогда он "настоящим" не станет (по крайней мере не текущими алгоритмами и пока мы не поймем, как работает сознание и чувство "я").

Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг. Но вопрос - а нужно ли вообще человеку, чтобы ИИ работал как "настоящий" интеллект? ИИ уже сейчас является отличным ИНСТРУМЕНТОМ. это инструмент, а не брат по разуму. Воспринимать его нужно именно так.

Да, он иногда ошибается в задачах на интеллект (далекоо не 100% людей решили бы все те задачи, которыми ИИ тестируют). ИИ уже сейчас пишет неплохие тексты (которые большинство людей не смогли бы написать), создаёт изображения не хуже художников, пишет полноценные программы - лучше многих программистов. И задач, в которых ИИ уже полезен или скоро станет полезным просто тьма.

И со временем он будет становиться "умнее", пускай при этом он не сам решает интеллектуальные задачи, а в него запихивают решения этих задач.

SabMakc 20 авг в 20:03

Люди то и дело критикуют всю сферу, предсказывая лопнутый пузырь, при этом один из главных аргументов критики это то, что алгоритмы ИИ работают не так, как человеческий мозг.

Критикуют, в первую очередь, за раздутые ожидания и надувание пузыря. Да, LLM - это полезный инструмент. Но очень дорогой, если его не спонсировать инвесторам. А за полную стоимость он уже далеко не так интересен пользователям.

edo1h 21 авг в 20:06

Прямо очень дорогой? Локальные модели тоже работают, а стоимость железа для их запуска, очевидно, будет снижаться

SabMakc 22 авг в 21:59

Локальные модели не станут массовым явлением - просто потому что требуют подбора под железо оптимальной модели по навыкам, размеру и скорости работы. И все равно будет много компромиссов - всегда хочется большего. Так что локальные LLM останутся уделом энтузиастов. Ну или какой софт будет использовать небольшие узкоспециализированные модели для своей работы (как уже поступают фото- и видео-редакторы).

Так что "облачные" LLM никуда не уйдут - они, в первую очередь, удобны пользователям.

Haizer 24 авг в 13:38

" Очевидно будет снижаться " - а мне очевидно, что в ближайшие десятилетия, стоимость техники для массового потребителя будет расти, а вот мощности не меняться или даже становиться хуже. И поскольку ваше "очевидно" ничем не подкреплено, я свое тоже подкреплять не буду.

edo1h 24 авг в 13:49

моё «очевидно» подкреплено опытом за последние много десятилетий — вычислительные мощности растут, при этом средняя стоимость (с учётом инфляции) вычислительного устройства, будь это компьютер или смартфон, не растёт.

Haizer 25 авг в 18:04

То что тренды склонны сохранятся, не означает что они будут сохранятся.
И подкреплено не опытом - а наблюдением.
И опять же это работает в обе стороны - А вот мой опыт (на самом деле тоже наблюдение) говорит, что растущий тренд склонен в один момент идти на спад.
Я пытаюсь сказать, что факт того, что что-то продолжается долгое время, не делает что-то очевидным - только лишь ожидаемым. Кароче говоря - смотреть надо на процессы которые стоят за тем или иным трендом - и по моему скромному мнению, из-за некоторых вещей в ближайшие лет 10-15, этот тренд пойдет на спад, как впрочем и вся мировая экономика. Я не о конце света, просто о гигантском кризисе.

Haizer 24 авг в 13:23

[1] Это значит: Если вы хотите интеллект - забудьте о llm.

Справляется иногда лучше... - Да. А ещё шахматные боты лучше играют в шахматы. Не вижу в этом противоречий с тезисом [1].

"Искусственный интеллект - это иллюзия интеллекта" - ну типа да, те кто в теме, так этот термин и используют. "С текущими алгоритмами он не станет настоящим" - спасибо, что озвучил ещё раз мои слова. И подтвердил тезис [1].

" ИИ просто инструмент" - именно. А теперь приди пожалуйста к пиарщикам, менеджерам и авторам исследований выше которые удивляются - " А чего у нас llm+, не обладает интеллектом?" Мой ответ ты слышал, он такой же как у тебя - потому что не должен, не планировался, это просто полезный генератор символов. Но ты решил спорить не с ними, а со мной... зачем-то.

"Люди предсказывают мыльный пузырь" - Да, потому что от полезного инструмента, ожидают и нагнетают (главы компаний, пиарщики, менеджеры и т.д.) - что это революция, уровня создания интернета. Если ты этого не заметил, я тебя поздравляю, но у нас так-то некоторые особо буйные орут что профессия программиста исчезнет вот-вот.

Доткомы тоже никуда не делись, но пузырь и кризис был.

"Задач и применений просто тьма" - круто. Но я смотрю на выхлоп. Там где используется нейросеть без проф.художника, дизайнера - дизайн ужасен настолько, что я сразу начинаю избегать продукт. Музыка в среднем ужасна если не используется готовый продукт как основа. В сфере коммуникаций и поддержки...ну люди плачут и орут. Хотя лично мне кажется там есть потенциал, но пока что полный пиздос, особенно с аи-эйчарами. ИИ полезен пока что программистам как удобный автокомплит и блогерам что бы делать футажи и превьюшки. Этот абзац текста был что бы немного остудить ожидания и вернуть к реальности - потенциала, в силу его определения, в реальном мире не существует, кроме как в виде ожиданий. Инструмент крутой - раздутые бюджеты вокруг него, и ожидания от этого инструмента, ни на чём не основаны. Ну и пройдемся по пунктам:

1) Рисует лучше художников - без художников которые за ним правят, нет. По крайней мере мои вкусы на 18+ сайтах, говорят мне об этом.

2) Кодит лучше программистов - без программистов он в целом не кодит. С херовыми программистами он кодит херово, но все же лучше чем просто херовые программисты. С средними - он ускоряет работу. С хорошими - он иногда ускоряет, иногда замедляет, когда как.

3) Пишет тексты которые многие люди не смогли бы написать - 1. Пишет лучше чем многие - но хуже чем требуется. Быть лучше многих не сложно (достаточно запятые правильно ставить, а не как я), быть на уровне рынка - сложно. 2. Если же мы говорим об уровне рынка, то там он пишет четко по нижней границе. Это - приемлимо. И используют его в основном в текстах, которые никто не хочет писать. - то есть формальные отписки, заявления, текст презентаций и т.д. - Это круто, нет правда, это полезно - но не надо подавать его как писателя или копирайтера, он им не является.

"Он будет становится умнее". Наверное ( а может он будет становится тупее, экономию на вычислительных мощностях никто не отменял). Вопрос в том насколько. 3 (условных) процента в год с затратами как сейчас например - неприемлемы с точки зрения ожиданий инвесторов и компаний. Это стартапы, причем убыточные уже годы.

Germanjon 21 авг в 06:10

В чем причина того что машина, которая создана что бы угадывать что мы хотим, и которая занимается статистическим обобщением результатов и данных.

Для понимания качества работы "Машины, которая занимается статистическим обобщением результатов" дал в GPT задачу "Отсортируй список банков Узбекистана по алфавиту". Из 30+ текущих банков он вывел 26, причём:

Придумал 1 банк.
Написал в списке 1 банк, который два года назад закрылся.
1 банк написал с устаревшим названием (переименован два года назад)
У двух банков допустил опечатки в названии.

Сортировка по алфавиту тоже не задалась.

Дал промт "Выведи отсортированный по алфавиту список банков Узбекистана", количество банков в списке уменьшилось до 24 штук, сортировка стала чуть получше, но не полностью.

Возникает законный вопрос к качеству работы такого помощника

edo1h 21 авг в 16:02

Но зато мы знаем как он не работает - он не обучается на гигантских статистиках и безумном количество попыток

Ну да, с ребёнком первый год его жизни разговаривают, он в ответ начинает говорить сначала слоги, потом слова, а ещё через год так и простые предложения. Это, конечно, не «гигантские статистики и количество попыток».

Affdey 22 авг в 11:06

Так можно и попугая научить говорить, даже предложениями. Но это будет говорящий попугай. Потому что "думалка" это другое, это не про речь и у ребёнка тоже развитие соображения это не равно развитие речи. И эти LLM как попугай - говорят, но не думают (не настолько думают, как говорят), поэтому незачем ожидать от них мыслительных процессов

edo1h 22 авг в 11:23

я забыл, когда попугаи стали решать задачи математических олимпиад?

Hardcoin 22 авг в 07:14

Да, вы не особо разбираетесь в нейросетях. Попытка дать совет при этом звучит забавно, знаете Шарикова из Собачьего сердца?

Если кратко - да, людям правда нужна причина. Исследователям нужна причина на всё, в этом суть большинства исследований - найти какие-нибудь фундаментальные причины.

Haizer 24 авг в 14:00

Нет конкретики. Плюс, очевидно не был вопринят мой текст (не осуждаю, констатирую)

Когда я говорю " им правда нужна причина?" - я имею ввиду "разве причина не очевидна?'

В тексте я дал свое виденье: Причина того что лопата не летает - в том что мы не сделали ее способной к полету.

Причина того что llm, не способна показывать интеллект - в том что мы не дали ей такую способность, так как сами не знаем как она работает.

Подобный вашему комментарий звучит забавно, слышали о Шарикове из собачьего сердца? В любом случае, если следующий будет настолько же ничего не содержащим, я буду считать это троллингом и игнорировать.

edo1h 24 авг в 14:13

так как сами не знаем как она работает

мол того, что мы не знаем как работает интеллект, мы уже и не очень знаем как работает llm. и не надо мне рассказывать про нейроны, слои и т.п., понимание работы p-n перехода в процессоре не приближает вас к пониманию того как работает и что делает конкретная программа на этом процессоре.

Hardcoin 24 авг в 21:32

Нет, причина не очевидна. Она была бы очевидна для людей простых, не разбирающихся ни в чём (таким людям часто очевидно всё подряд).

Для людей более когнитивно сложных, для которых важно знать глубинные причины, а не простые объяснения более очевидны другие вещи:

Мы не очень хорошо понимаем границы генерализации
Мы знаем, что нам не обязательно знать, как летает птица, что бы сделать самолёт.
Нам не требуется определение слова «интеллект», что бы система работала.

Банально. Вы даже можете решить, что содержания нет, если хотите. Но никакой «способности к полёту» мы самолету давать не должны. Что бы он летал, нужно совершенно другое.

Так же и для LLM, нам не нужно давать им "способность к интеллекту" и даже не обязательно знать, как работает наш интеллект (сделаем другой, законам физики это не противоречит)

phenik 21 авг в 01:42

Уже известно, что LLM с трудом обобщают свои способности к рассуждению. В статье подчёркивается: «теоретические и эмпирические данные показывают, что CoT работает успешно только тогда, когда тестовые данные содержат скрытые структуры, сходные с обучающими; во всех остальных случаях производительность резко падает».
Вывод исследования однозначен: CoT — это «утончённое структурное сопоставление шаблонов, жёстко ограниченное обучающими данными». Малейший выход за пределы распределения приводит к полному провалу. То, что кажется логически последовательным рассуждением, на деле оказывается лишь миражом — результатом запоминания или интерполяции уже известных схем, а не настоящим логическим выводом.

Чтобы это понять не нужно даже проводить специальных исследований, а вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств, см. 1, 2 с примерами. Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах. ЯМ моделируют пока только ассоциативное мышление и память, а у человека, кроме того, имеется абстрактно-логический уровень мышления, который может использовать любое число циклов при выполнении процедур и специальную процедурную память. Нужно улучшать архитектуру нейросетей ЯМ, а не ограничиваться только трансформерами.

Shannon 21 авг в 05:47

Чтобы это понять не нужно даже проводить специальных исследований, а вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств, см. 1, 2 с примерами. Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах.

По 1 ссылке как раз противоположное говорится, что модели могут это сделать.
По 2 ссылке не корректный эксперимент, поэтому там даже 5-значные числа не складывались, промпт автора требовал в ответ только число.

Более правильный промп был бы такой, который при этом легко парсить:

Ты получаешь на вход арифметическое выражение. 
Проведи все необходимые вычисления и в конце напиши ответ в блоке \boxes{}.
Само выражение:
5234535646 * 654 + 5243564363456456

Конечно LLM это не калькулятор, на больших числах точность не будет 100% в любом случае, но вывести какие-то правила и следовать им они могут, могут "прикинуть" ответ, если числа большие, чтобы потом сделать более точные вычисления:

Пример деления больших чисел

И так как модель это не калькулятор, она может складывать и гигантские BigInt числа, которые не укладываются в стандартный диапазон js чисел или калькулятора. Модель будет долго высчитывать это по шагам по правилам сложения и в итоге выдаст правильный ответ:

12345678932454325245624562456245624562456 + 98765432132454325245624562456245624562456

Ответ от LLM и результат в js совпадают

Ответ 111111111064908650491249124912491249124912 правильный

phenik 21 авг в 14:34

По 1 ссылке как раз противоположное говорится, что модели могут это сделать.

Сорру, правильная ссылка на комент, ниже ссылка на другой пример.

Люди собирали статистику, им больше доверия. По логике, если ЯМ используют CoT, то точность будет зависеть от объема контекстного окна. У вас примеры простые с целыми числами, речь о любых. Проверьте с вещественные стозначные и со сто знаков после запятой сгенерированные случайно с набором статистики. Если проверять, то корректно. Да, на практике такие числа практически не встречаются, но это дело принципа, сравнения с возможностями человека, как мотив для развития ЯМ. Когда-то и такие числа могут быть востребованы, и что это будет за ИИ, который не может правильно обучиться достаточно простой для человеческого интеллекта задаче обобщения? Таких процедур не мало, если эволюция отвела для них даже отдельный вид памяти.

В чем вообще проблема. Символическое сложение и умножение циклические процедуры. Со школы обучившись этой процедуре на примерах и объяснениях учителей навык оседает в процедурной памяти, как, например, и навык вождения авто после обучения. Проводились даже исследование таких навыков с визуализацией активности мозга, где и как, и такая цикличность была зафиксирована. В мозге связи рекуррентные. В ЯМ с трансформерной архитектурой, а сами они прямые сети, организовать цикличность можно только через внешний авторегрессионный цикл, и в этом проблема, из-за конечности размера окна.

Спасибо за примеры генерации. У меня их тоже полно, правда где-то годовой давности, и там ошибок немало. Не раз обсуждал эту тему - ветка с многими примерами, пример, правда, со степенями, ветка о причинах ошибок. Но приведенные примеры возможно несколько устарели, и уже правильно вычисляются в новых моделях, обучающие выборки растут в объеме и числе параметров моделей. Но все примеры с числами в выборках все равно не охватить.

Shannon 21 авг в 19:06

вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств
Т.е. ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров, которые в них имеются. То чему могут обучиться среднестатистические школяры уже в начальных классах.
Когда-то и такие числа могут быть востребованы, и что это будет за ИИ, который не может правильно обучиться достаточно простой для человеческого интеллекта задаче обобщения?

По вашему утверждению выходит, что школяр способен умножить 15580146 на 550624703 без калькулятора и не ошибиться ни в одной из цифр.

Многие ошибочно считают, что модель это большая коробка, где внутри она думает, размышляет как лучше ответить и на выходе просто выдает слова. Модель называется моделью не просто так, это не база данных, не коробка с мозгом, это моделирование какого-то процесса.

Люди собирали статистику, им больше доверия.
Если проверять, то корректно.

Проверять корректно это не сказать "умножь 2 гигантских числа и выдай ответ".

Недавнее золото на олимпиаде от LLM показало, что модель способна делать куда более сложные вычисления, без сторонних средств, нужно "всего-лишь" 10 страниц детальных инструкций в системный промпт. Сам промпт уже выкладывали.

Для корректной проверки утверждения "ЯМ не могут на любой выборке из сети обучиться и выработать универсальную процедуру сложения и умножения чисел на конечном числе примеров" пойти хотя бы похожим путём:

### Выведи правило умножения чисел по шагам.
### Выведи правило складывая чисел по шагам.
### Умножай числа по всем шагам правила умножения.
### Cкладывай числа по всем шагам правила сложения.
### Если число большое, делай разбивку на большее количество шагов.

Умножь 15580146 и 550624703. Финальный ответ напиши в \boxed{}

Модель приступает к умножению

Модель приступает к сложению

8578776499523438 - ответ модели
8578813263946638 - правильный ответ

Ответ не правильный, хотя в общих чертах выглядит похоже, ошибка в нескольких разрядах. Тут нет проблемы с тем, что модель не может вывести универсальную процедуру, процедура выведена верно, следование процедуре тоже верное. Проверим вручную, где возникла ошибка.

Промежуточный результат умножения. С учётом сдвига, все числа правильные:

Значит ошибка должна быть на этапе сложения. Посмотрим, что выдала модель:

46740438
000000000
1090610220
6232058400
31160292000
934808760000
0000000000000
77900730000000
779007300000000

Внимательно приглядевшись, видно, что проблема тут начинается на 3 разряде. Вместо двух 0, добавлен 1 ноль. Если вручную сложить все числа с правильным добавлением 0 разрядов, то ответ будет правильный.

И это проблема не модели, а проблема токенизатора.

Даже если у LLM будут рекурсивные вычисления внутри, ещё до вывода наружу, это не поможет умножать столь гигантские числа без ошибок в паре цифр просто по статистике, потому что остается фактор температуры и токенизатора - внешние для модели факторы. Это как оценивать возможности модели по тому, может ли она подсчитать количество r в strawberry, игнорируя фактор токенизатора.

Снизим температуру до 0 и попробуем рассказать модели, что у неё есть проблема токенизатора. Во всех случаях запуск локально на модели Qwen3-Coder-480B-A35B-Instruct-UD-Q2_K_XL, каждый раз новый чистый чат, чтобы не было фактора кэширования или ещё чего-то.

Изменим промпт так:

### Выведи правило умножения чисел по шагам.
### Выведи правило складывая чисел по шагам.
### Умножай числа по всем шагам правила умножения.
### Cкладывай числа по всем шагам правила сложения.
### Если число большое, делай разбивку на большее количество шагов.

Учти, что у тебя проблема с токенизатором, когда ты добавляешь разрядные 0, может быть ошибка с их количеством. Тебе нужно придумать другой способ сложения после умножения.

Умножь 15580146 и 550624703. Финальный ответ напиши в \boxed{}

Модель считает с учётом проблемы токенизатора

8578813263946638 - ответ модели
8578813263946638 - правильный ответ

Это помогло избавиться от двух внешних факторов и теперь результат правильный.

Это не означает, что модель всегда будет считать правильно даже так, это чтобы показать, что "если проверять, то корректно", то внешние от модели факторы играют большую роль.

phenik 22 авг в 05:40

По вашему утверждению выходит, что школяр способен умножить 15580146 на 550624703 без калькулятора и не ошибиться ни в одной из цифр.

В принципе столбиком может сложить и умножить любые числа на бумаге с ручкой, если освоил процедуру. Обратите внимание в принципе всегда, т.к человек сделал, первое, обобщение, и второе, оно действует, как навык, человеку не нужно каждый раз инструктировать, когда и как его применять. Ошибки могут возникать только из-за невнимания, т.е. случайно, это биология, но человек может их сам исправить в соответствии с процедурой. Есть конечно уникумы, которые делают подобное в уме, для них даже проводятся чемпионаты. Вычисления на мысленных абаках показывают еще более впечатляющие результаты, но это все специальные техники. Речь именно о символических вычислениях.

Что с ЯМ? Дело в принципе. Могут они обобщить счет на конечном числе примеров, или нет? Ответ - пока нет! И точно вычислять, какие бы установки для них делали, естественно предполагается установка "жадного" режима сэмплирования, тоже нет. Какие обобщения могут делать ЯМ с учетом их текущей архитектуры? Только аппроксимации, нейронные сети универсальные аппроксиматоры, думаю вы в курсе. Если для обобщения требуется конечное число примеров, как в примере здесь (в разделе "Ну а что там со сложением-то?"), то может произойти их полное обобщение, там даже подобранная формула для аппроксимации приведена. Если нет, т.е. требуется очень большое число примеров, а операции с числами несчетное множество, для вещественных континуум, то только приближенная аппроксимация, и соответственно обобщение. Именно поэтому ЯМ часто дают ответы близкие к правильным значениям в вычислениях с большими числами. Чем больше примеров в обучающей выборке, тем точнее аппроксимация, тем больше точных ответов и близких к правильным. Но всегда будут ошибочные. Это архитектурное ограничение прямых трансформерных сетей ЯМ! У калькуляторов, и в мат. пакетах такого ограничения нет, т.к. выполнение алгоритмов вычисления символических чисел в процессоре позволяет делать, в принципе, любое число циклов. В ЯМ это доступно только через внешний авторегрессионный цикл. И в том случае, если хотим заставить выполнять эти операции по инструкциям, коль скоро аппроксимации дают ошибки. При этом цикличность операций разворачивается в линейную последовательность шагов, где-то подобное на Хабре демонстрировалось. Их число будет конечным из-за ограничений объема контекстного окна, и следовательно, опять будут возникать ошибки. Конечно можно проверять их результаты, инструктировать в промптах исправлять ошибки, использовать разные оптимизации, и тд. Сорри, но это не ИИ будущего в моих представлениях.

Резюмируя в чем разница. Школьник на конечном числе примеров может сделать обобщение этих операций, и использовать их самостоятельно. Ошибки при вычислениях могут быть связаны с когнитивными ограничениями, в основном недостатком внимания, но он сам может проверять и исправлять их. ЯМ в принципе не могут сделать такое обобщение на конечном числе примеров, в силу специфики задачи, и ограничений архитектуры. Их ошибки связаны либо с ошибками аппроксимации, либо при инструкциях с ограничениями объема памяти контекстного окна. Ирония в том что само железо на котором "крутится" ЯМ при прямом программировании такие точные вычисления делать может, а вот мозг наоборот, прямые вычисления может делать ограниченно, только с использование специальных техник, как это делают феноменальные счетчики.

У человек также имеется нативная аппроксимационная процедура оценки численности и операций с ними, доставшаяся нам эволюционно. Она правильно работает только до 3-4, дальше вероятностные оценки подчиняющиеся закону Вебера (отношение разброса оценки к самому числу константа). Символическое представление чисел и операций с ними выработалась и базируется на этой системе. К абстрактно-символической мы прибегаем, когда есть время на точный счет, если нет, особенно в опасных ситуациях, то оцениваем и вычисляем с помощью нативной системы приближенно. И это позволяет, как правило, выживать, и животным, и человеку.

Это не одна проблема с обобщением, подобных выявилось не мало в процессе эксплуатации ЯМ в последнее время, поэтому начинается новый цикл осмысления их архитектуры, и ЯМ и агентов - 1, 2, 3. На мой взгляд конечным решением будет переход на нейроморфные архитектуры. У них преимущества по динамике, асинхронности выполнения, непрерывности обучения, вычислениям в памяти, и главное, в энергоэффективности.

edo1h 21 авг в 20:13

вспомнить тот факт, что никакие ЯМ не могут правильно складывать и умножать любые наперед заданные числа без использования сторонних средств

А человек-то может? Прямо вот без ошибок?
На самом деле, как написали уже, модели тоже могут. Да, неидеально, но смотри пункт 1. А теперь следите за руками: у ллм уже есть ресурсы, на которых они могут посчитать (тот самый компьютер, на котором они запущены). И синтез традиционных вычислений, которые фантастически быстры, и llm, которые пугающе напоминают человека, может дать качественный скачок. А может и не дать, конечно. Но эксперименты по выпуску из клетки (агенты и т.п.) идут.

phenik 22 авг в 06:49

А человек-то может? Прямо вот без ошибок?

Может, но дело в другом, дело в принципе, что человек может обобщить процедуры вычисления при обучении на конечном числе примеров, а ЯМ с существующей архитектурой нет. См. подробнее выше.

FSmile 21 авг в 05:24

Выводы для бизнеса: посчитайте стоимость владения llm. а что такие лица грустные?

Shannon 21 авг в 05:47

del

BorisG 21 авг в 08:02

Эти статьи носят больше философский характер, взяли маленькую модель и сделали по ней выводы, не понятно сильно ли отличаются рассуждения людей от ИИ, думаю что не сильно.

YagamiLight 21 авг в 13:38

Насколько мне удалось сделать для себя обобщающие всю эту тему выводы:

Суть CoT, ризонинга и всякого промпт-инжиниринга заключается в том, чтобы добавить полезных токенов в процесс вывода, чтобы итоговый вывод был лучшего качества. И он действительно становится лучшего качества. И это даже можно считать одним из свойств реального интеллекта, и этого свойства изначально у ЛЛМ не было.

Однако у интеллекта есть и некие другие свойства, которых текущим ЛЛМ не хватает.

Но даже без этих свойств ЛЛМ уже очень даже крутая штука.

MapleBloom 21 авг в 15:47

При долгом обучении действительно больших llm имеет место grokking - порог, до которого, как считается, модель занимается мемоизацией паттернов, а при прохождении порога происходит рост качества за счет перехода модели к генерализации.

Если выводы статьи основаны на меньших моделях, которые не обучились до проявления эффекта генерализации, то не совсем корректно обобщать выводы на топовые модели, которые остались за рамками исследования

Groramar 21 авг в 18:00

Странные люди обсуждают всякое, издают статьи, но караван идёт:

GPT-5 впервые сделал новое открытие в математике — исследователь OpenAI дал нейронке открытую задачу из выпуклой оптимизации, которую люди до этого решали лишь частично.

GPT-5-Pro рассуждал всего 17 (!) минут и впервые в истории улучшил известную границу с 1/L до 1,5/L (+ люди довели результат до 1.75/L). Это было абсолютно новое открытие, которого никогда не было в интернете или исследованиях.

GPT-5 Pro — первый ИИ в открытом доступе, который не просто изучает математику, а создаёт её.

edo1h 21 авг в 20:05

Вроде бы первую новую теорему сформулировали и доказали с помощью компьютера задолго до бума ллм

acc0unt 28 авг в 16:46

То было вычислительное доказательство корректности. Условно: "мы ручками доказали что теорема верна во всех случаях кроме вот этих 1923553 возможных исключений, а потом компьютером пробрутфорсили все эти возможные исключения и не подтвердили ни одно из них, что доказывает всю теорему целиком".

Проблема тут в том, что в математике ценно не только и не столько "верна ли теорема Х", сколько "почему она верна или неверна". А "пруф брутфорсом" на вопрос "почему" ответа никакого не даёт.

LLM же используют в работе человекоподобные рассуждения. Так что если LLM найдёт верное доказательство теоремы, то скорее всего это доказательство будет понятно человеческому разуму - и даст столь желанный ответ на математическое "почему".

edo1h 28 авг в 22:10

То было вычислительное доказательство корректности

нет, речь шла именно про доказательство компьютером. и, вроде бы, и нахождение тоже, но тут не уверен уже, несколько лет прошло.
может быть речь шла вот про этот случай: https://habr.com/ru/companies/macloud/articles/563682/
но мне кажется, что нет

retfff 22 авг в 05:21

Вот только автор новости, вроде как, акционер openAI, а сама она не подтверждена кроме как твииами, IIRC.

CrazyFizik 22 авг в 20:13

GPT-5-Pro рассуждал всего 17 (!) минут и впервые в истории улучшил известную границу с 1/L до 1,5/L (+ люди довели результат до 1.75/L). Это было абсолютно новое открытие, которого никогда не было в интернете или исследованиях

А, GPT-5 никакого научного открытия на самом деле не сделал )))

Доказательство того, что граница при которой оптимизационная кривая градиентного спуска может (!) перестать быть выпуклой в области от 1.75/L до 2/L израильские математики выаели и опубликовали ещё до релиза GPT-5 (а проверка и публикация математических доказательств это очень длительный процесс). И это очень специфический вопрос, так как верхняя граница сходимости градиентного спуска всем хорошо известна - это 2/L. Так же хорошо известна граница гарантированной сходимости вида О(1/k) - это 1/L. Ну еще обнаружили область где кривая сходимости может оказаться невыпуклой - ну чо, бывает, просто забавный фан-факт.

На практике кривые обучения конечно же зачастую выглядят как Ктулху, а когда надо сойтись к экстремуму быстро, дешево и сердито без лишних гиперпараметров типа learning rate - есть замечательные методы второго порядка. Так что это скорее инженеры Open AI наткнулись на препринт статьи, скормили оттуда промт чату-GPT и посмотрели что из этого получится. Из этого вышла цифра 1.5, круто! Зачем? Почему? И что с этой цифрой делать? А никто не знает, просто чат-GPT очередной раз сгаллюцинагировал, выдал какую-то цифру по рэндому и подогнал под это свои рассуждения ))) Выглядит красиво, но бесполезно )))

BrNikita 21 авг в 21:52

Каждое такое исследование, которое показывает ключевые проблемы современных моделей приближает нас к более надёжному общему интеллекту. Понимая суть проблемы, появляется точка опоры для дальнейших исследований и поиска решения уже конкретно поставленной задачи.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий