Комментарии / Профиль Alice_point

Пользователь

Подписчики

Lock-free код и шахматы: где LLM показывают свою несостоятельность

Alice_point_py 10 авг 2025 в 21:53

Я ниже уже оставляла один комментарий с ссылкой (не знаю насколько можно дублировать ее еще раз, но вот - https://habr.com/ru/companies/meanotek/articles/690668/). Суть в том, что там обучена модель играть на рейтинг 1279 (высчитывалось путем игры с Stockfish по официальной формуле). Такой рейтинг (и ниже) имеют 12 тысяч человек на LiChess, так что такая модель должна выигрывать достаточно часто у любителей без особенной подготовки.

Lock-free код и шахматы: где LLM показывают свою несостоятельность

Alice_point_py 10 авг 2025 в 21:22

"не смотрел, но осуждаю." - что называется.

Если используется настолько поверхностный подход, то, конечно, обсуждать тут нечего.

Lock-free код и шахматы: где LLM показывают свою несостоятельность

Alice_point_py 10 авг 2025 в 14:36

Вы ведь наверняка даже не ознакомились с материалом судя по вашему ответу. Модель играет от начала до конца партию, умеет ставить мат и и делать ходы в ситуациях, которых не было в обучающих партиях. Зачем вы здесь заговорили о дебюте я даже понять не могу. Там даже демка есть, где можно сыграть с моделью и проверить, то, что я говорю.

Lock-free код и шахматы: где LLM показывают свою несостоятельность

Alice_point_py 10 авг 2025 в 13:20

А меня наоборот удивило, как модель продвинулась вперёд в игре в шахматы по сравнению с GPT-2 той же, которая мат в один ход могла поставить лишь в 0.5% процентов случаев.А сейчас Grok 4 вообще классно играет и может партию до мата довести, что огромный прорыв

Вообще, попытки понять, может ли ИИ научиться играть в шахматы, делались давно.

Когда нейросеть начнёт стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуясь фигуры из воздуха — вот тогда можно будет говорить о настоящем прорыве в ИИ.

Если ставить такие критерии прорыва, то, Grok 4 в целом притендует на этот прорыв (но это в конце турнира видно будет лучше) и есть вот такая статься 2022 года:
https://habr.com/ru/companies/meanotek/articles/690668/ — где GPT-2 обучена играть на рейтинг 1279, она достаточно хорошо видит доску и играет по правилам.

Модель проходила обучение не на полной базе доступных партий. Думаю, если заниматься этим вопросом чуть больше времени, можно довести модель до 1400 рейтинга (3 взрослого разряда) +- точно.

Еще интересный факт. Рейтинг 1279 фактически соответствует уровню 3-2 юношеского разряда в шахматах. Который зарабатывают в турнирах дети 8-10 лет.

Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс

Но до настоящего мышления им еще очень далеко.

Будете ли вы тогда так же уверенно отверждать, что 10-летний мальчик или девочка, тоже не умееют по настоящему мыслить и лишь имитируют мышление?

Ваша модель не играет в шахматы, а только притворяется

Alice_point_py 31 июл 2025 в 15:47

Добрый день, спасибо за ваш пост.

Я безусловно глубоко признателен коллегам @Durham и @Alice_point_py (если они не являются одним лицом - в этом случае признателен дважды) - за предпринятые усилия подвигающие нас в изучении возможностей LLM в применении к логическим задачам.

Да, мы разные люди — у каждого своё мнение.

Насколько я понимаю, компания Meanotek представляемая автором комментария и автором статьи на которую он ссылается (и в которой видимо принимал непосредственное участие) занимается продвижением и продажей ИИ-моделей, так что некая предвзятость позиции их понятна.

Вы говорите, что статья — просто маркетинг. Но это не совсем справедливо:
критиковать можно, но лучше по делу, а не переходя на личности. Указывать на возможную предвзятость полезно, но не повод считать работу "заказной". У многих IT-компаний, особенно после всплеска интереса к ИИ, есть научные команды. Мы сначала делали статью ради науки — понять, куда движется технология. Только потом она стала кейсом.

Теперь по существу. Если я правильно понимаю, ваше мнение строится на такой базе:
1. Я слабый шахматист

2. Я сыграл 3 партии
2.1. В 2 партиях рокировка сделана с ошибкой / непозволена
2.2.. В 3-й был зевнут ферзь

И вывод — что модель очень слабый игрок, который даже сути правил не понимает

По рокировке: Так действительно не должно быть, но дело в том, что модель
"запрещать" что-либо не может. Я сейчас проверила и выяснилось, что проблема была в
скрипте шахматной доски на сайте — сайт с 2022 года часто обновляли, и никто не проверял как работает демка, поэтому она немного "подпортилась". Спасибо, что заметили — мы это уже починили. Еще отмечу, что рокировка, это база шахмат, она есть почти в каждой партии.
Если бы модель её не понимала, это противоречило бы самой сути ИИ - следовать шаблонам. Ведь ход королём в дебюте без рокировки огромная редкость.

По зевку: тут отвечу просто, да, модель ошибается. Её уровень — 1279 ELO. На таком уровне люди регулярно зевают фигуры и это не определяет еще победителя.

Еще момент, вы делаете вывод на основании трёх партий, но этого маловато, чтобы судить о способностях модели. LLM учатся иначе, чем люди. Представьте: вас посадили за шахматы без объяснений. Не сказали ни про правила, ни про цели, ни про разные виды игры (быстрые, классические, Фишера, шветка). И сразу посадили играть в блиц (3 минуты на партию). Сколько партий вы проиграли бы, прежде чем начать понимать? 100? 1000? И это при том, что человек может проиграть одну партию и сесть продумать варианты, представить их, построить гипотезу. Или даже каждый ход. А модель обученная методом, где идет прямое прогнозирование ледующего слово, в каком-то смысле, не имеет возможности рассуждать. Они должны действовать сразу, не думая, а как уже умеют. В таких условиях данные размером в 1–3 миллиона - это лишь маленькая крупица.

Отсюда частично и возникает вывод:

Проблема не в архитектуре, а в данных

И это не вопрос формальности, как вы пишете у себя, а серьезная проблема над которой работает много исследователей.

Как я поднял трафик на 50% за месяц с помощью ИИ-контента: мой кейс, ошибки и уроки

Alice_point_py 30 июл 2025 в 19:58

Спасибо за интересную статью, с конкретными названиями,шагами и результатами)

-1

Почему LLM так плохо играют в шахматы (и что с этим делать)

Alice_point_py 30 ноя 2024 в 12:19

В шахматах, так же есть проблема с выборкой данных, которая препятствует обучению моделей: https://habr.com/ru/companies/meanotek/articles/690668/

Приходите к нам на завод, у нас тяжело

Alice_point_py 26 ноя 2023 в 10:46

А что? Не все так радужно? Звучит все действительно так, будто в заводском IT есть и большие ресурсы для развития проектов и мотивация бизнеса постоянно расти, развиваться и большой выбор чем конкретно заниматься (много разных параллельных проектов), свобода действий и так далее, далее

Эксклюзив: детализация уровней сотрудников Shopify. Часть 1

Alice_point_py 20 июн 2023 в 07:27

Очень увлекательная статья, спасибо что написали ее. Буду надеяться, что вторая часть непременно будет))

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 11 окт 2022 в 11:33

Спасибо и вам, без таких любопытных читателях как вы, выпуск подобных статей был бы в итоге невозможен) Поэтому я искренне рада, что вам понравилось ее читать)
Это действительно хорошее наблюдение

Да, 3 раза вот так повторять позицию - это ничья по правилам, но я и ждал чего-нибудь от неё. Наверное как раз такая необычность и неправильность, и привела её к дальнейшим ошибкам, и что важно - к грубым ошибкам, ведь в базе данных нет скорее всего подобных розыгрышей.

Кажется, что модель должна повторять ходы, но на самом деле это не всегда так. К примеру, обычные шахматисты часто делают повторения не из-за того, что хотят ничью, а набирая время несколькими быстрыми ходами. А перед ходом который должен фиксировать ничью делают отклонение (или же после троекратного повторения, просто не фиксируют ничью а продолжают играть). Поэтому в выборке модели вполне может встречаться повторение, которое в итоге не заканчивается ничьей. Еще могу предположить, что из-за того, что модель играет с контекстом в котором стоит результат 0-1 в пользу модели, то, в некоторых позициях это может стимулировать ее делать не лучший ход (по ее мнению), который в нашем случае приводит к ничье по правилам, а тот который позволит выиграть. Но так как она не знает как победить, то просто "сыпется" .

Как решать проблему неготовности модели к нестандартным ходам - на данный момент идей не имею

Возможно это решится, простым увеличением выборки обучения за счет чего увеличится ее способности к обобщению, как к примеру произошло, когда проверялось, что будут делать черные на 1. e4 e5 2. d4 exd4 3. Qxd4 Nc6 4. Qxg7, что ооооочень нестандартно. Первые модели "игнорировали" ферзя на g7, а те, что учились на более крупных данных спокойно его ели (хотя ход от этого не стал менее редким и абсурдным в такой партии).

Или думаю это возможно за счет партий stockfish, так как движок лишен присущего человеку "чувства прекрасного" и в этом плане всегда старается сделать лучший ход в конкретной позиции, а не играть по знакомым схемам и расстановкам

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 11 окт 2022 в 11:19

Как говорится: "Не бывает глупых вопросов. Глуп тот вопрос, который не был задан."

Спасибо за ваш вопрос)))

Думаю вы на самом деле правы и результаты будут похожи, только с той разницей, что обучаться она будет существенно дольше и потребуется больше данных. Так как предобученые модели уже обучались шахматным партиям (вместе со всем остальным), за счет чего и имеют элементарное представление о них. В не обученной же модели, нам придется восполнять это все с нуля

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 29 сен 2022 в 16:09

Благодарю)) очень приятно видеть такие комментарии)

Вы действительно заметили интересную деталь

Современные программы играют как монстры, эта -- как человек, этим и ценна

Причем я думаю, что вы очень верно подметили ценность таких моделей. Их создание может приносить пользу на тренировках шахматистов, где можно будет настроить модель на определенный уровень игры и стиль, подобрать дебютный репертуар. Человек так может работать над слабыми и усиливать свои сильные стороны. При подготовке к сопернику, можно подгрузить партии интересующего игрока, после чего модель станет "им"(например, так можно сыграть с гениальным, но умершим шахматистом) и игрок сможет увидеть, каких сюрпризов можно ожидать от соперника.

Мне кажется такая возможность может поднять общий уровень игры людей, так что такая разработка не бессмысленна и имеет пользу для обучения.

Думаю нас еще ждет множество открытий в шахматах и в развитии ИИ))

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 29 сен 2022 в 14:40

Эффективней оттеснять королем короля, а не ферзем

Почему вы так думаете?

Оттеснять королем короля у вас не получится, так как соперник будет вставать в оппозицию вашему королю(вставать напротив вашего короля) и не позволит себя оттеснить.

Если речь идет об оттеснении с помощью короля и ферзя, то с точки зрения количества ходов при правильном оттеснении это действительно не менее эффективный метод, правда с одним "но". Данным способом ставить мат на "автомате" сложнее, так как нужно думать с какой точке лучше дать шах королю и нужно ли его делать

К примеру, здесь человек может думать о том, пора ли давать шах и если да, то куда или может, нужно продолжать ходить королем.

Конечно для сильного игрока это не проблема, но у слабого шахматиста может возникнуть дилемма и он (допустим) проиграет по времени.

С этой стороны, метод в котором человек отрезает короля своим ферзем буквой Г более надежный, так как более автоматический и позволяет любому шахматисту поставить мат на задумываясь. Поэтому ему и учат обычно детей и новичков.

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 29 сен 2022 в 14:01

Думаю, ваше предположение хорошее и в практическом плане) Основная беда
там заключается во времени, которое требуется для того, чтобы получить
датасет, а именно: 15 дней беспрерывной игры движка. Более подробный
разбор этого вопроса, есть ниже в комментариях)

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 29 сен 2022 в 12:55

Для человека, не сильно разбирающимся в вопросе вы сделали очень хорошее предположение. Я уже выше отвечала частично на ваш вопрос, но дополнительно отмечу, что ваше утверждение о

Я исхожу из предположения, что игра, которая закончилась сдачей должна иметь какой-то явный конец

в целом справедливо, если человек с хорошем рейтингом ( а это +1700 где-то и это важный момент, так как более слабые шахматисты не всегда могут правильно оценить позицию и могут сдаться там, где еще не все потеряно) сдал партию добровольно(!), а не из-за потери флага, где вся игра еще может быть впереди. Так же, в выборке присутствуют не только "живые" партии, но и сыгранные онлайн и для них ситуация еще сложнее. К примеру, кто-то во время партии мог решить, что ему пора идти есть мороженое и бросить партию просто так или же иметь проблему с интернетом из-за чего возникнет техническое поражение спустя несколько минут.

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 29 сен 2022 в 12:49

Да, я думаю сама по себе это хорошая идея. Из недостатков здесь лишь
проблема времени существует. Чтобы сделать приличный датасет, нужно
будет собрать около 2 000 000 партий, а значит движку нужно будет
сделать 8 000 000 - 15 000 000 миллионов ходов, что бы их закончить.
Потому что партии могут быть не только брошены перед самим матом, но
из-за того, что у одно из соперников упал флаг (и доигрывать нужно 20
ходов) или же у соперника решающее преимущество как король + ферзь
против короля, но доигрывать до мата еще ходов 7. Даже если дать движку
0.1 времени на ход нужно будет около 15 дней ожидания. Конечно это
возможно, но на момент когда обнаружилась данная проблема, уже не
хватало времени. В будущем, я обязательно учту эту возможность.

Шахматы и вопрос разумности больших языковых моделей

Alice_point_py 29 сен 2022 в 12:47

Спасибо, что сообщили. Мне не удалось повторить эту ошибку, поэтому посмотреть что случилось нельзя. Чтобы этого избежать, было поставлено логирование, поэтому если такая ситуация повториться, можете смело писать и я поправлю ошибку

Определение типа личности по тексту (на замену закрытому IBM Watson Personality Insights)

Alice_point_py 20 сен 2022 в 21:52

Может показаться, что Personality Insights это исключительно вредный и общественно опасный продукт для вторжения в личную жизнь

не совсем поняла, как возникла такая точка зрения? В том плане, что люди сейчас постоянно подвергаются подобным анализа, просто более точечным: подрор музыки, видео, фильмов, статей исходя из истории просмотров или запросов поисковика. Таких течений очень много и нельзя сказать, что люди воспринимают это как посягательство на личное или же вред. Так как многие рады тому, что им могут помочь рекомендации. И не нужно час искать инфу под свой вкус, так как лента подскажет (тут конечно рождается спор о создании информационных пузырей, но это уже другой аспект вопроса)

Что мы действительно (не)знаем о наличии сознания у сверхбольших нейросетей?

Alice_point_py 30 июн 2022 в 23:25

В итоге, исследователи приходят к интересному выводу о том, что в процессе чтения текста и мозг и языковые модели похожим образом выполняют следующие действия [12]: 1. оба занимаются непрерывным предсказанием следующего слова до начала слова в тексте

Кстати, то что модель языковая формирует ответ не словосочетаниями и мыслями, а по отдельным словам, не является ли принципиальной разницей в нашем мышлении?

Ведь как я понимаю, утверждение про мозг о постоянном предсказании следующего слова, распространяется лишь на чтение текстов, а не весь процесс обмена информации