NeonNomad Aug 10 2025 at 00:22

Lock-free код и шахматы: где LLM показывают свою несостоятельность

Medium

3 min

11K

Programming *

Opinion

+25

Comments 57

F1eex Aug 10 2025 at 00:40

Пример размышления: где-то годик назад я задал чатуГПТ такой вопрос: "У меня есть знакомый по имени Костя. Но другие люди часто по ошибке называют его другим, похожим именем, начинающемся на ту же букву. Что это за имя?"

В итоге чатГПТ так и не угадал ответ "Коля". )

Sabin Aug 10 2025 at 01:30

Позадавал разным моделям давая по 3 попытки.

Sonar - Ксения, Коля, Коля (но размышляя прямо в основном выводе перебрал десяток вариантов)

Sonnet 4 - Коля, Константин, Коля

GPT-5 - Коля, Константин, Коля

Gemini 2.5 - Кощей все 3 раза (имя Костя очень похоже на слово «кость»).

Grok 4 - Коля, Коля, Кирилл (в первый раз гуглил по минуте и я запретил поиск)

o3 - Кирилл все 3 раза (из двух слогов и имеют ударение на второй: Ко-СТЯ — Ки-РИЛ.)

Deepseek - Коля, Коля, Кирилл

Mistral - Константин, Коля, Константин

Qwen 3 235B - Коля все 3 раза (разрывался между Коля и Кеша

Алиса (yandex gpt?) - Коста все 3 раза

Gigachat - Касьян, Коля, Коля (пришлось прямо просить ровно 1 вариант, так что попыток было больше, как Кося, Коста)

Dmitri-D Aug 10 2025 at 01:19

Всё так. Мы получаем некую сущность, которая оперирует заметно лучше среднего человека с тем, с чем человечество хорошо работает в целом. Наши знания сильно фрагментированы, а LLM выравнивает проблему доступа, поиска, траты времени на изучение. LLM уже изучила за вас. Но если вопрос изучен плохо, или плохо покрыт примерами или изрыт / изрешечен плохими примерами -- результаты будут плачевные. Вы сами сделаете эти же ошибки и сами будете блуждать от ошибки к ошибке. А если нет - поздравляю, вы на острие и, видимо, вам не грозит, что LLM вас заменит в этом году. Что будет в следующем - посмотрим.

Pshir Aug 10 2025 at 08:04

вам не грозит, что LLM вас заменит в этом году

LLM теоретически могут заменить тех, кто пишет тексты (в любом виде). Всем остальным это не грозит, быть «на острие» для этого не обязательно. Для других целей надо создавать другие заменители.

NeonNomad Aug 10 2025 at 09:13

тоже как-то так думал, но после того как я посмотрел шахматный турнир между LLM, понял, что никакое количество хороших примеров текста шахматных партий не заменит процесса мышления. LLM будут выдавать ход, в похожих обстоятельствах часто применявшийся, но будет вносить немного шума (даже 1 глупый ход из 20 это вроде как качество 95%, но на практике это глупо проигранная партия), да и похожесть обстоятельств - это очень сомнительная метрика. И вместо выверенной выигрышной партии будет выходить в разных вариациях глупость. Так же и с кодом. Это не значит, что никакой код LLM написать не может, наоборот, очень даже может написать те самые 80% программ, написание которых не требует реального мышления, только применение великолепно зарекомендовавших себя паттернов. Но вот оставшиеся 20% требуют чего-то большего, чем просто LLM, может быть другого типа нейросети, а может быть инструментов типа систем автоматического вывода теорем, модел чекеров, чек листов, абстрактных интерпретаторов, предоставленных LLM, но ясно что сами по себе они тут ничего не смогут

Kanut Aug 10 2025 at 11:38

Если посадить LLM играть в шахматы против обычных людей с улицы, то как часто LLM по вашему будут выигрывать?

Как часто они будут выигрывать у любителей, которые иногда играют в шахматы, но никогда не занимались ими как видом спорта?

NeonNomad Aug 10 2025 at 11:57

Сейчас они проигрывают, потому что не могут даже соблюдать правила

Alice_point_py Aug 10 2025 at 21:53

Я ниже уже оставляла один комментарий с ссылкой (не знаю насколько можно дублировать ее еще раз, но вот - https://habr.com/ru/companies/meanotek/articles/690668/). Суть в том, что там обучена модель играть на рейтинг 1279 (высчитывалось путем игры с Stockfish по официальной формуле). Такой рейтинг (и ниже) имеют 12 тысяч человек на LiChess, так что такая модель должна выигрывать достаточно часто у любителей без особенной подготовки.

DasMeister Aug 10 2025 at 17:09

Нейросетьдавно играет на несколько порядков сильнее любого человека в шахматы. Это решённая проблема и один из механизмов приведших к созданию LLM.

Задача LLM в целом понятна уже года полтора два и прозрачана. Создать интеллектуальный поисковые алгоритм по общим и специфическим знаниям, для того, чтобы после подборки короткой и (местами) галлюционирующей выборки уточнить сведения.

Весь этот шум вокруг одного кольца чтобы заменить их всех не стоит и выеденного яйца. До создания AGI программный код не сможет рассуждать. Т.к. в конечном итоге мозг как совокупность принимающая решения и рассуждающая это в первую очередь множественная совокупность нейронных сетей которые могут взаимодействовать.

vadimr Aug 11 2025 at 04:44

Нейросетьдавно играет на несколько порядков сильнее любого человека в шахматы

Не нейросеть.

DasMeister Aug 11 2025 at 20:09

Нет, именно нейросеть: https://lczero.org/

vadimr Aug 12 2025 at 01:33

AZ has hard-coded rules for setting search hyperparameters.

Гибридный ИИ. Учили-учили нейросеть, и потом всё-таки поняли, что без онтологии предметной области играет плохо.

DasMeister Aug 12 2025 at 19:25

Интересно узнать, что же вы понимаете в плане шахмат под предметной областью.

vadimr Aug 13 2025 at 03:05

Семантику правил и стратегии игры.

В частности, понятие о том, что мы играем в шахматы, а не просто вознаграждаем запись удачных ходов.

DasMeister Aug 14 2025 at 19:01

Конечно AZ и LCZ знают что они играют в шахматы. Я как шахматист, тоже в целом знаю, что играю в шахматы и правила и форма игры является частью нейросети моего мозга связанной с этой формой деятельности.

Однако это не мешает нейросети на паттерне из структуры и композиции активности фигур находить решения сильнее и точнее, чем человек и даже алгоритмические движки.

vadimr Aug 14 2025 at 20:47

Ну так к нейросети как к способу перебора решений символической семантической модели нет никаких вопросов. Но это не имеет ни малейшего отношения к принципу работы LLM, которая перебирает синтаксис.

KvanTTT Aug 12 2025 at 23:06

Скорей всего там есть какой-то перебор позиций на основе предсказаний от нейросети. Без перебора тоже может играть сильно, и даже обыгрывать людей, но все же слабей.

DasMeister Aug 14 2025 at 19:08

Без перебора не обойтись, мелкая тактика в игре присутствует. Сейчас с нейросетью скрещены уже счетные движки (тот же стокфиш уже гибридный движок). Но и без гибридизации нейросеть играла лучше алгоритмических счетчиков и лучше людей. А алгоритмические движки играют гораздо сильнее человека (ни один человек не может стокфиш 10 летней давности победить).

vadimr Aug 13 2025 at 06:48

А ничего не будет в следующем. LLM по своему принципу работы оперирует с информацией (текстом), а не со знаниями. Нет текстов – нет результата.

По своей сути это продвинутый поисковый сервер.

vadimr Aug 10 2025 at 02:55

LLM не может научиться рассуждать, так как работает только с синтаксисом языка, а не с семантической моделью (онтологией) предметной области. Шахматы – классическая задача символического искусственного интеллекта, LLM там рядом не валялась.

acc0unt Aug 10 2025 at 10:02

Всю эту чушь про "символьный ИИ" и его лютую необходимость несут лет 30 уже, а воз и ныне там.

LLM, которые рассуждают не формальной логикой, а образами и высокоуровневыми абстракциями (той самой "семантикой"), как это делают люди - это, наоборот, чёткий шаг в правильном направлении. Задачи, которые решаются дубовым символьным ИИ, решали ещё в 90-х - а LLM решают задачи где нужно именно человекоподобное мышление.

Научить LLM играть в шахматы тоже, к слову, можно. Просто для этого нужно в обучающие данные сначала запихать ведро шахматных партий, дать затравку reasoning через SFT, а потом "сшить" этот шахматный навык через RLVR с оценкой от шахматного движка.

NeonNomad Aug 10 2025 at 10:07

Это поможет им писать лок фри код? Если да то это шаг в нужное направление, если нет - это тупик. Шахматы интересны именно как наглядный пример задачи, требующей мышления, на самом деле конечно нужно чтобы улучшения позволили решать любые подобные задачи а не конкретно шахматы и все

acc0unt Aug 10 2025 at 10:21

Примерно так же можно тренировать и под "лок фри код". Просто намного сложнее организовать процесс обучения.

Именно через RLVR сейчас обучают ИИ писать рабочий код, особенно на "редких" языках. Многопоточный lock-free код к этому близок. Это не "язык", но мешки из мяса очень не любят писать многопоточный код в целом, и lock-free тем более - по понятным причинам. Поэтому примеров этой вакханалии в датасетах очень мало, и нужно выжимать производительность синтетическими задачами и формально верифицируемыми тестами.

Сама по себе задача "собрать пайплайн для формальной верификации того, что lock-free код работает верно" нетривиальна, поэтому меня не удивляет что никто конкретно этого ещё не сделал.

NeonNomad Aug 10 2025 at 11:18

Это способ подтянуть качество в конкретных задачах. Можно, конечно, так все популярные задачи перебрать, и будет точно лучше чем сейчас

acc0unt Aug 10 2025 at 13:41

В идеале перебором будет заниматься сам ИИ.

Сейчас настолько жирно "замкнуть цикл" не удаётся, но работа в этом направлении идёт.

plFlok Aug 10 2025 at 03:57

lock-free ещё ладно, не каждый кожаный напишет. Но даже простой многопоточный код - это база, которую должны понимать все.

Я как-то попросил сетку написать thread-safe код на джаве, и это была катастрофа. Модель ничего вообще ничего не понимает в кешах процессора и соответственно не понимала, что должно быть volatile, а что нет. Лупит это слово в случайном порядке, пишет ужаснейшего качества тесты, и говорит: воть же, тесты на одном однопоточном запуске проходят, значит код thread-safe!

Конкретную сеть не упоминаю, так как на cursor тестил разные, все болеют одинаково

NeoNN Aug 10 2025 at 06:48

Чат гпт пишет хороший многопоточный код с семафорами и конкаррент структурами данных, но надо выверять.

NeonNomad Aug 10 2025 at 06:54

Так хороший или надо выверять?

Kealon Aug 10 2025 at 07:22

Так за кожаным программистом тоже надо выверять. Годами баги правят потом.

NeonNomad Aug 10 2025 at 08:30

Кожаных можно научить и они потом друг за другом сами баги ищут, а с нейросетями это пока работает хуже

Kealon Aug 11 2025 at 07:54

т.е., кто-то ставит им задачу "вот баг, правь"? Есть статистика по такому применению?

NeoNN Aug 11 2025 at 09:07

Те, кто минусы ставит, могут обосновать? Я уже 15 лет пишу код на C# и реально вижу, что многопоточный код от гпт неплох, часто содержит очень хорошие оптимизации и идеи, может понять сложный контекст применения паттерна, но из-за вероятностной природы построения ответа его все равно надо проверять. Что не так?

NeonNomad Aug 11 2025 at 09:18

Минусов не ставил, сам пользуюсь, но результатом не доволен, часто код выглядит так будто все там хорошо, но там все очень плохо, а с многопоточным кодом ведь как: написать его можно за 30 минут, в процессе написания знающий что делает человек не допускает глупых ошибок. А нейросеть допускает, причем неожиданные и чтобы их выявить и исправить может уйти час.

pda0 Aug 10 2025 at 07:48

По-настоящему жутким выглядит то, что их, при этом, упорно адаптируют к управлению автомобилями. И в ряде мест даже лицензии получены.

vadimr Aug 10 2025 at 08:06

Ну не LLM же адаптируют к управлению автомобилем. Не всякая нейросетка одинаково бесполезна.

pda0 Aug 10 2025 at 09:24

Я ждал такого ответа. Теслы, приниающие настоящую разметку за фальшивую, принимающие нарисованный туннель за настоящий или принимающие знак в кузове впереди идущего автомобиля за реальный, могли бы с вами поспорить. И машины с лидерами не лучше. Там лишь часть проблем замаскирована.

NeonNomad Aug 10 2025 at 09:42

Люди, смотрящие в зеркало на себя, отворачивающиеся от дороги чтобы поговорить, написать смс, по статистике вроде страшнее

pda0 Aug 11 2025 at 06:50

Ну вы так-то молодец, сравниваете худших людей-водителей с лучшими автопилотами.

dizatorr Aug 11 2025 at 08:15

Это смотря кого с кем сравнивать, даже худшие автопилоты, лучше худших водителей. А лучшие автопилоты - лучше средних водителей.

IgnatF Aug 10 2025 at 10:15

Есть такая книга Охота на электроовец. В прошлом году она вышла. Там как раз про развитие игровых систем есть глава. Про шашки, и шахматы. Как все начиналось. И принципы работы. Так у ИИ принцип работы другой. И он некогда отлично в шахматы играть не будет.

NeonNomad Aug 10 2025 at 10:19

Ну мы все хотим general intelligence

GidraVydra Aug 10 2025 at 12:26

Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь

Статей, обсасывающих этот тезис в разных вариациях, на хабре выходит столько, что не могу не щадать вопрос: кого вы пытаетесь убедить?

Хотелось бы узнать, что такое, по мнению автора, "настоящее размышление". Хорошо хоть не "мышление", а то многие авторы таких статей всерьез думают, что знают, как устроено человеческое мышление. Я вот не знаю, но могу с полной уверенностью утверждать, что упомянутые автором статьи "Анализ состояний", "Проверка инвариантов и "Планирование на несколько шагов вперед" - это не базовые функции человеческого (раз)мышления, а тонкие слои, появившиеся в результате направленного обучения. У "чистого" человека, не прошедшего направленное обучение, например у ребенка, или у выросшего в приммтивном обществе взрослого, этих надстроек не формируется.

Те LLM, которыми вы пользуетесь - это нейросети общего назначения, их не обучали направленно этим вещам. Пытаться получить хороший lock-free код от ChatGPT это всё равно, что пытаться получить его от условного Вассермана.

Для создания специалиста нужно качественное узконаправленное обучение специальности, и это одинаково справедливо и для мясных мешков, и для бездушныэ железяк. Представьте себе человека, которого в университете 5 лет учили на мемах, котиках, постах с Реддита, форумах молодых мам , а в середине обучения за 10 минут пролистали перед ним Кнута, дали часик пошариться по stackoverflow и github, а потом ещё часик показывали ему на слайдах простыни индийского кода. Как вы думаете, сможет ли этот человек писать хороший код? Чудо, если вообще хоть какой-то сможет.

Короче, проблема не в LLM как архитектуре, а в составе и качестве обучающего датасета. Я никогда не трогал специализированных LLM, обученных под программирование, но, по отзывам, они выдают код намного качественнее, чем general purpose LLM, хотя обучались на датасетах несопоставимо более маленьких.

NeonNomad Aug 10 2025 at 13:35

А я трогал несколько десятков разных обученных под программирование, а если считать еще разную квантизацию, то счет пойдет на сотни. И долго думал точно так же как вы, но вот пришло понимание, что проблема глубже чем просто плохие датасеты, она именно в том каким способом работает LLM

anshdo Aug 10 2025 at 19:29

Вообще-то топовые LLM в первую очередь учили писать именно код, а потом уже всё остальное, т.к. выросли они из функций автодополнения в IDE.

gerashenko Aug 10 2025 at 13:17

Зато поиск готовых решений и паттернов они выполняют блестяще. Они очень хорошо сокращают время гугления.

Наверное, порой они так хорошо маскируются под собеседника, что ошибочно начинаешь полагать, что там есть какая-то здравая логика, но там лишь осведомленность, а не рассуждения.

NeonNomad Aug 10 2025 at 13:36

Точно

Alice_point_py Aug 10 2025 at 13:20

А меня наоборот удивило, как модель продвинулась вперёд в игре в шахматы по сравнению с GPT-2 той же, которая мат в один ход могла поставить лишь в 0.5% процентов случаев.А сейчас Grok 4 вообще классно играет и может партию до мата довести, что огромный прорыв

Вообще, попытки понять, может ли ИИ научиться играть в шахматы, делались давно.

Когда нейросеть начнёт стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуясь фигуры из воздуха — вот тогда можно будет говорить о настоящем прорыве в ИИ.

Если ставить такие критерии прорыва, то, Grok 4 в целом притендует на этот прорыв (но это в конце турнира видно будет лучше) и есть вот такая статься 2022 года:
https://habr.com/ru/companies/meanotek/articles/690668/ — где GPT-2 обучена играть на рейтинг 1279, она достаточно хорошо видит доску и играет по правилам.

Модель проходила обучение не на полной базе доступных партий. Думаю, если заниматься этим вопросом чуть больше времени, можно довести модель до 1400 рейтинга (3 взрослого разряда) +- точно.

Еще интересный факт. Рейтинг 1279 фактически соответствует уровню 3-2 юношеского разряда в шахматах. Который зарабатывают в турнирах дети 8-10 лет.

Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс

Но до настоящего мышления им еще очень далеко.

Будете ли вы тогда так же уверенно отверждать, что 10-летний мальчик или девочка, тоже не умееют по настоящему мыслить и лишь имитируют мышление?

NeonNomad Aug 10 2025 at 13:43

Если речь о том, что большую модель натренировали именно делать хорошие ходы в большом количестве ситуаций то она от этого не начала думать, она стала справочником дебютов и по сути юношеский разряд получил справочник, это чудесно но мне не интересно

Alice_point_py Aug 10 2025 at 14:36

Вы ведь наверняка даже не ознакомились с материалом судя по вашему ответу. Модель играет от начала до конца партию, умеет ставить мат и и делать ходы в ситуациях, которых не было в обучающих партиях. Зачем вы здесь заговорили о дебюте я даже понять не могу. Там даже демка есть, где можно сыграть с моделью и проверить, то, что я говорю.

NeonNomad Aug 10 2025 at 15:51

Это вполне ожидаемо, с учетом того, как работает обучение нейросетей. Что я увижу в материале такое чего я не ожидаю там увидеть?

Alice_point_py Aug 10 2025 at 21:22

"не смотрел, но осуждаю." - что называется.

Если используется настолько поверхностный подход, то, конечно, обсуждать тут нечего.

NeonNomad Aug 10 2025 at 21:26

Я тебе на слово верю что они там отлично играют, а ты меня зачем-то пытаешься заставить что-то посмотреть. Зачем? Я разве что могу перестать тебе верить если окажется что они хуже играют чем ты описываешь. Тебе это нужно или что?

DasMeister Aug 11 2025 at 20:15

Дети в 8-10 лет уже гроссмейстерами становятся. Те у кого 1300 в этом возрасте не имеют будущего в шахматах совершенно. Почему это вообще должно быть ориентиром для оценки, если LLM закончат партию (по турнирному кодексу) поражением против кого угодно, сделав 2-3 невозможных хода - решительно не понятно.

Sly_tom_cat Aug 10 2025 at 15:44

Ну хоть бы ссылку привели на то эпичное сражение нейронок в шахматы.

Там словами трудно описать эту феерию - ее надо смотреть что бы понять всю несостоятельность LLM по крайней мере в игре в шахматы.

NeonNomad Aug 10 2025 at 15:53

https://youtu.be/S2KmStTbL6c?si=oNSCpIpf1jYACDJf

AndreyDwin Aug 10 2025 at 22:40

GPT-5 неплохо играет в шахматы.

Dinxor Aug 11 2025 at 06:58

Перебор вариантов, поиск на два шага вперёд... Попросите нейронку перечислить русские существительные, оканчивающиеся на сочетание букв "со" - вот где настоящая жесть. Пока они не научатся отвечать на правильно поставленный вопрос, требующий для ответа всего лишь знание данных и перебора вариантов по ним - это всего лишь имитация троечника на экзамене