Lock-free код и шахматы: где LLM показывают свою несостоятельность / Хабр

Все мы привыкли к тому, что нейросети творят чудеса. Suno генерирует музыку неотличимую от человеческой, Flux рисует картины лучше многих художников, Claude переводит тексты так, что даже носители языка не сделают это лучше. Создается впечатление, что искусственный интеллект вот-вот заменит нас во всех сферах деятельности.

Но есть одна маленькая проблема. Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь, что становится стыдно, что знаком с ними.

Когда все идет не по плану

Я активно использую LLM в работе и заметил странную закономерность. Нейросеть легко напишет ассемблер или парсер методом рекурсивного спуска. Код работает, все отлично. Но стоит немного изменить формулировку или попросить решить задачу "не по учебнику" - и начинается цирк.

Попросите написать парсер с использованием регулярных выражений для сложного формата - получите бесконечный цикл исправлений, где устранение одной ошибки порождает две новых. Попросите lock-free MPMC queue - получите красивый код с ABA-проблемой и гонками между потоками, которые нейросеть "забыла" учесть.

Самое забавное, что LLM прекрасно рассуждают о hazard pointers, упоминают нужные статьи, даже реализуют сами hazard pointers. Но правильно их использовать не могут. Это как студент, который выучил все определения из учебника, но не понимает, как применить их на практике. Или разглагольствует об ABA проблеме, но не решает ее в коде. Или утверждает, что код написан по описанию из конкретной научной статьи, но это просто ложь.

Шахматный кошмар

Недавно я посмотрел обзор турнира между LLM по шахматам. И это было откровение. Если вы думаете, что программирование - сложная задача для нейросетей, то шахматы - это просто катастрофа.

Представьте себе:

- Нейросеть материализует себе третью ладью посреди доски из воздуха

- Пытается перепрыгнуть ферзем через собственную пешку

- Внезапно начинает понимать правила инвертированно и пытается уйти из-под шаха каждым недопустимым способом (на битое поле, на занятое другой своей фигурой поле) и называет недопустимыми все нормальные варианты.

- Ставит фигуру под удар и забывает про нее на несколько ходов

- Не видит мат в один ход, но объявляет "мат" после бессмысленного хода

- Рассуждает о преимуществах хода, который собирается сделать, при этом выдавая просто серию откровенно ложных утверждений

При этом дебюты нейросети часто разыгрывают безупречно! Точно так же, как безупречно пишут стандартные алгоритмы из учебников.

В чем же дело?

Между программированием lock-free структур данных и игрой в шахматы есть фундаментальное сходство. Обе задачи требуют:

1. Анализа состояний - нужно рассмотреть, как различные потоки (или игроки) могут повлиять друг на друга

2. Проверки инвариантов - убедиться, что важные правила не нарушаются

3. Планирования на несколько шагов вперед - предвидеть последствия своих действий

И вот именно это LLM делать не умеют. Совсем.

Разглагольствование vs размышление

Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс. Они пишут длинные рассуждения, взвешивают варианты, делают выводы. Но на самом деле они просто подбирают вероятные продолжения текста, создавая иллюзию думания.

Настоящее размышление требует:

- Построения внутренней модели ситуации

- Симуляции различных сценариев развития событий

- Проверки согласованности решений с установленными правилами

- Способности отказаться от привлекательного, но неверного варианта

У современных LLM для этого просто нет механизмов. Они застряли на уровне автодополнения.

Тест на настоящий интеллект

Я пришел к выводу, что для оценки реальных способностей нейросети к размышлению лучше всего подходят именно шахматы. Это гораздо нагляднее и понятнее, чем анализ lock-free кода.

Когда нейросеть начнет стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуя фигуры из воздуха - вот тогда можно будет говорить о настоящем прорыве в ИИ.

Неудобная правда

Задачи можно разделить на три категории:

1. Задачи по учебнику - есть известный алгоритм, его нужно просто воспроизвести

2. Задачи с ограниченным перебором - нужно рассмотреть несколько вариантов и выбрать лучший

3. Задачи стратегического планирования - требуется анализ на несколько ходов вперед

Большинство впечатляющих демонстраций LLM основаны на задачах первого типа - воспроизведении известных паттернов. Это создает иллюзию универсального интеллекта, но реальность гораздо скромнее. LLM отлично справляются только с первым типом. Со вторым - иногда везет. А третий тип - это для них темный лес.

LLM сегодня - это невероятно мощные машины для распознавания и воспроизведения паттернов. Но до настоящего мышления им еще очень далеко. Архитектура трансформеров просто не способна на это.

Пока LLM не научатся по-настоящему рассуждать, а не просто красиво разглагольствовать, они останутся очень полезными в определенных задачах, но ограниченными инструментами.

Lock-free код и шахматы: где LLM показывают свою несостоятельность