Comments 57
Пример размышления: где-то годик назад я задал чатуГПТ такой вопрос: "У меня есть знакомый по имени Костя. Но другие люди часто по ошибке называют его другим, похожим именем, начинающемся на ту же букву. Что это за имя?"
В итоге чатГПТ так и не угадал ответ "Коля". )
Позадавал разным моделям давая по 3 попытки.
Sonar - Ксения, Коля, Коля (но размышляя прямо в основном выводе перебрал десяток вариантов)
Sonnet 4 - Коля, Константин, Коля
GPT-5 - Коля, Константин, Коля
Gemini 2.5 - Кощей все 3 раза (имя Костя очень похоже на слово «кость»).
Grok 4 - Коля, Коля, Кирилл (в первый раз гуглил по минуте и я запретил поиск)
o3 - Кирилл все 3 раза (из двух слогов и имеют ударение на второй: Ко-СТЯ — Ки-РИЛ.)
Deepseek - Коля, Коля, Кирилл
Mistral - Константин, Коля, Константин
Qwen 3 235B - Коля все 3 раза (разрывался между Коля и Кеша
Алиса (yandex gpt?) - Коста все 3 раза
Gigachat - Касьян, Коля, Коля (пришлось прямо просить ровно 1 вариант, так что попыток было больше, как Кося, Коста)
Всё так. Мы получаем некую сущность, которая оперирует заметно лучше среднего человека с тем, с чем человечество хорошо работает в целом. Наши знания сильно фрагментированы, а LLM выравнивает проблему доступа, поиска, траты времени на изучение. LLM уже изучила за вас. Но если вопрос изучен плохо, или плохо покрыт примерами или изрыт / изрешечен плохими примерами -- результаты будут плачевные. Вы сами сделаете эти же ошибки и сами будете блуждать от ошибки к ошибке. А если нет - поздравляю, вы на острие и, видимо, вам не грозит, что LLM вас заменит в этом году. Что будет в следующем - посмотрим.
вам не грозит, что LLM вас заменит в этом году
LLM теоретически могут заменить тех, кто пишет тексты (в любом виде). Всем остальным это не грозит, быть «на острие» для этого не обязательно. Для других целей надо создавать другие заменители.
тоже как-то так думал, но после того как я посмотрел шахматный турнир между LLM, понял, что никакое количество хороших примеров текста шахматных партий не заменит процесса мышления. LLM будут выдавать ход, в похожих обстоятельствах часто применявшийся, но будет вносить немного шума (даже 1 глупый ход из 20 это вроде как качество 95%, но на практике это глупо проигранная партия), да и похожесть обстоятельств - это очень сомнительная метрика. И вместо выверенной выигрышной партии будет выходить в разных вариациях глупость. Так же и с кодом. Это не значит, что никакой код LLM написать не может, наоборот, очень даже может написать те самые 80% программ, написание которых не требует реального мышления, только применение великолепно зарекомендовавших себя паттернов. Но вот оставшиеся 20% требуют чего-то большего, чем просто LLM, может быть другого типа нейросети, а может быть инструментов типа систем автоматического вывода теорем, модел чекеров, чек листов, абстрактных интерпретаторов, предоставленных LLM, но ясно что сами по себе они тут ничего не смогут
Если посадить LLM играть в шахматы против обычных людей с улицы, то как часто LLM по вашему будут выигрывать?
Как часто они будут выигрывать у любителей, которые иногда играют в шахматы, но никогда не занимались ими как видом спорта?
Сейчас они проигрывают, потому что не могут даже соблюдать правила
Я ниже уже оставляла один комментарий с ссылкой (не знаю насколько можно дублировать ее еще раз, но вот - https://habr.com/ru/companies/meanotek/articles/690668/). Суть в том, что там обучена модель играть на рейтинг 1279 (высчитывалось путем игры с Stockfish по официальной формуле). Такой рейтинг (и ниже) имеют 12 тысяч человек на LiChess, так что такая модель должна выигрывать достаточно часто у любителей без особенной подготовки.
Нейросетьдавно играет на несколько порядков сильнее любого человека в шахматы. Это решённая проблема и один из механизмов приведших к созданию LLM.
Задача LLM в целом понятна уже года полтора два и прозрачана. Создать интеллектуальный поисковые алгоритм по общим и специфическим знаниям, для того, чтобы после подборки короткой и (местами) галлюционирующей выборки уточнить сведения.
Весь этот шум вокруг одного кольца чтобы заменить их всех не стоит и выеденного яйца. До создания AGI программный код не сможет рассуждать. Т.к. в конечном итоге мозг как совокупность принимающая решения и рассуждающая это в первую очередь множественная совокупность нейронных сетей которые могут взаимодействовать.
Нейросетьдавно играет на несколько порядков сильнее любого человека в шахматы
Не нейросеть.
Нет, именно нейросеть: https://lczero.org/
AZ has hard-coded rules for setting search hyperparameters.
Гибридный ИИ. Учили-учили нейросеть, и потом всё-таки поняли, что без онтологии предметной области играет плохо.
Интересно узнать, что же вы понимаете в плане шахмат под предметной областью.
Семантику правил и стратегии игры.
В частности, понятие о том, что мы играем в шахматы, а не просто вознаграждаем запись удачных ходов.
Конечно AZ и LCZ знают что они играют в шахматы. Я как шахматист, тоже в целом знаю, что играю в шахматы и правила и форма игры является частью нейросети моего мозга связанной с этой формой деятельности.
Однако это не мешает нейросети на паттерне из структуры и композиции активности фигур находить решения сильнее и точнее, чем человек и даже алгоритмические движки.
Скорей всего там есть какой-то перебор позиций на основе предсказаний от нейросети. Без перебора тоже может играть сильно, и даже обыгрывать людей, но все же слабей.
Без перебора не обойтись, мелкая тактика в игре присутствует. Сейчас с нейросетью скрещены уже счетные движки (тот же стокфиш уже гибридный движок). Но и без гибридизации нейросеть играла лучше алгоритмических счетчиков и лучше людей. А алгоритмические движки играют гораздо сильнее человека (ни один человек не может стокфиш 10 летней давности победить).
А ничего не будет в следующем. LLM по своему принципу работы оперирует с информацией (текстом), а не со знаниями. Нет текстов – нет результата.
По своей сути это продвинутый поисковый сервер.
LLM не может научиться рассуждать, так как работает только с синтаксисом языка, а не с семантической моделью (онтологией) предметной области. Шахматы – классическая задача символического искусственного интеллекта, LLM там рядом не валялась.
Всю эту чушь про "символьный ИИ" и его лютую необходимость несут лет 30 уже, а воз и ныне там.
LLM, которые рассуждают не формальной логикой, а образами и высокоуровневыми абстракциями (той самой "семантикой"), как это делают люди - это, наоборот, чёткий шаг в правильном направлении. Задачи, которые решаются дубовым символьным ИИ, решали ещё в 90-х - а LLM решают задачи где нужно именно человекоподобное мышление.
Научить LLM играть в шахматы тоже, к слову, можно. Просто для этого нужно в обучающие данные сначала запихать ведро шахматных партий, дать затравку reasoning через SFT, а потом "сшить" этот шахматный навык через RLVR с оценкой от шахматного движка.
Это поможет им писать лок фри код? Если да то это шаг в нужное направление, если нет - это тупик. Шахматы интересны именно как наглядный пример задачи, требующей мышления, на самом деле конечно нужно чтобы улучшения позволили решать любые подобные задачи а не конкретно шахматы и все
Примерно так же можно тренировать и под "лок фри код". Просто намного сложнее организовать процесс обучения.
Именно через RLVR сейчас обучают ИИ писать рабочий код, особенно на "редких" языках. Многопоточный lock-free код к этому близок. Это не "язык", но мешки из мяса очень не любят писать многопоточный код в целом, и lock-free тем более - по понятным причинам. Поэтому примеров этой вакханалии в датасетах очень мало, и нужно выжимать производительность синтетическими задачами и формально верифицируемыми тестами.
Сама по себе задача "собрать пайплайн для формальной верификации того, что lock-free код работает верно" нетривиальна, поэтому меня не удивляет что никто конкретно этого ещё не сделал.
lock-free ещё ладно, не каждый кожаный напишет. Но даже простой многопоточный код - это база, которую должны понимать все.
Я как-то попросил сетку написать thread-safe код на джаве, и это была катастрофа. Модель ничего вообще ничего не понимает в кешах процессора и соответственно не понимала, что должно быть volatile, а что нет. Лупит это слово в случайном порядке, пишет ужаснейшего качества тесты, и говорит: воть же, тесты на одном однопоточном запуске проходят, значит код thread-safe!
Конкретную сеть не упоминаю, так как на cursor тестил разные, все болеют одинаково
Чат гпт пишет хороший многопоточный код с семафорами и конкаррент структурами данных, но надо выверять.
Так хороший или надо выверять?
Те, кто минусы ставит, могут обосновать? Я уже 15 лет пишу код на C# и реально вижу, что многопоточный код от гпт неплох, часто содержит очень хорошие оптимизации и идеи, может понять сложный контекст применения паттерна, но из-за вероятностной природы построения ответа его все равно надо проверять. Что не так?
Минусов не ставил, сам пользуюсь, но результатом не доволен, часто код выглядит так будто все там хорошо, но там все очень плохо, а с многопоточным кодом ведь как: написать его можно за 30 минут, в процессе написания знающий что делает человек не допускает глупых ошибок. А нейросеть допускает, причем неожиданные и чтобы их выявить и исправить может уйти час.
По-настоящему жутким выглядит то, что их, при этом, упорно адаптируют к управлению автомобилями. И в ряде мест даже лицензии получены.
Ну не LLM же адаптируют к управлению автомобилем. Не всякая нейросетка одинаково бесполезна.
Я ждал такого ответа. Теслы, приниающие настоящую разметку за фальшивую, принимающие нарисованный туннель за настоящий или принимающие знак в кузове впереди идущего автомобиля за реальный, могли бы с вами поспорить. И машины с лидерами не лучше. Там лишь часть проблем замаскирована.
Есть такая книга Охота на электроовец. В прошлом году она вышла. Там как раз про развитие игровых систем есть глава. Про шашки, и шахматы. Как все начиналось. И принципы работы. Так у ИИ принцип работы другой. И он некогда отлично в шахматы играть не будет.
Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь
Статей, обсасывающих этот тезис в разных вариациях, на хабре выходит столько, что не могу не щадать вопрос: кого вы пытаетесь убедить?
Хотелось бы узнать, что такое, по мнению автора, "настоящее размышление". Хорошо хоть не "мышление", а то многие авторы таких статей всерьез думают, что знают, как устроено человеческое мышление. Я вот не знаю, но могу с полной уверенностью утверждать, что упомянутые автором статьи "Анализ состояний", "Проверка инвариантов и "Планирование на несколько шагов вперед" - это не базовые функции человеческого (раз)мышления, а тонкие слои, появившиеся в результате направленного обучения. У "чистого" человека, не прошедшего направленное обучение, например у ребенка, или у выросшего в приммтивном обществе взрослого, этих надстроек не формируется.
Те LLM, которыми вы пользуетесь - это нейросети общего назначения, их не обучали направленно этим вещам. Пытаться получить хороший lock-free код от ChatGPT это всё равно, что пытаться получить его от условного Вассермана.
Для создания специалиста нужно качественное узконаправленное обучение специальности, и это одинаково справедливо и для мясных мешков, и для бездушныэ железяк. Представьте себе человека, которого в университете 5 лет учили на мемах, котиках, постах с Реддита, форумах молодых мам , а в середине обучения за 10 минут пролистали перед ним Кнута, дали часик пошариться по stackoverflow и github, а потом ещё часик показывали ему на слайдах простыни индийского кода. Как вы думаете, сможет ли этот человек писать хороший код? Чудо, если вообще хоть какой-то сможет.
Короче, проблема не в LLM как архитектуре, а в составе и качестве обучающего датасета. Я никогда не трогал специализированных LLM, обученных под программирование, но, по отзывам, они выдают код намного качественнее, чем general purpose LLM, хотя обучались на датасетах несопоставимо более маленьких.
А я трогал несколько десятков разных обученных под программирование, а если считать еще разную квантизацию, то счет пойдет на сотни. И долго думал точно так же как вы, но вот пришло понимание, что проблема глубже чем просто плохие датасеты, она именно в том каким способом работает LLM
Вообще-то топовые LLM в первую очередь учили писать именно код, а потом уже всё остальное, т.к. выросли они из функций автодополнения в IDE.
Зато поиск готовых решений и паттернов они выполняют блестяще. Они очень хорошо сокращают время гугления.
Наверное, порой они так хорошо маскируются под собеседника, что ошибочно начинаешь полагать, что там есть какая-то здравая логика, но там лишь осведомленность, а не рассуждения.
А меня наоборот удивило, как модель продвинулась вперёд в игре в шахматы по сравнению с GPT-2 той же, которая мат в один ход могла поставить лишь в 0.5% процентов случаев.А сейчас Grok 4 вообще классно играет и может партию до мата довести, что огромный прорыв
Вообще, попытки понять, может ли ИИ научиться играть в шахматы, делались давно.
Когда нейросеть начнёт стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуясь фигуры из воздуха — вот тогда можно будет говорить о настоящем прорыве в ИИ.
Если ставить такие критерии прорыва, то, Grok 4 в целом притендует на этот прорыв (но это в конце турнира видно будет лучше) и есть вот такая статься 2022 года:
https://habr.com/ru/companies/meanotek/articles/690668/ — где GPT-2 обучена играть на рейтинг 1279, она достаточно хорошо видит доску и играет по правилам.
Модель проходила обучение не на полной базе доступных партий. Думаю, если заниматься этим вопросом чуть больше времени, можно довести модель до 1400 рейтинга (3 взрослого разряда) +- точно.
Еще интересный факт. Рейтинг 1279 фактически соответствует уровню 3-2 юношеского разряда в шахматах. Который зарабатывают в турнирах дети 8-10 лет.
Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс
Но до настоящего мышления им еще очень далеко.
Будете ли вы тогда так же уверенно отверждать, что 10-летний мальчик или девочка, тоже не умееют по настоящему мыслить и лишь имитируют мышление?
Если речь о том, что большую модель натренировали именно делать хорошие ходы в большом количестве ситуаций то она от этого не начала думать, она стала справочником дебютов и по сути юношеский разряд получил справочник, это чудесно но мне не интересно
Вы ведь наверняка даже не ознакомились с материалом судя по вашему ответу. Модель играет от начала до конца партию, умеет ставить мат и и делать ходы в ситуациях, которых не было в обучающих партиях. Зачем вы здесь заговорили о дебюте я даже понять не могу. Там даже демка есть, где можно сыграть с моделью и проверить, то, что я говорю.
Это вполне ожидаемо, с учетом того, как работает обучение нейросетей. Что я увижу в материале такое чего я не ожидаю там увидеть?
"не смотрел, но осуждаю." - что называется.
Если используется настолько поверхностный подход, то, конечно, обсуждать тут нечего.
Дети в 8-10 лет уже гроссмейстерами становятся. Те у кого 1300 в этом возрасте не имеют будущего в шахматах совершенно. Почему это вообще должно быть ориентиром для оценки, если LLM закончат партию (по турнирному кодексу) поражением против кого угодно, сделав 2-3 невозможных хода - решительно не понятно.
Ну хоть бы ссылку привели на то эпичное сражение нейронок в шахматы.
Там словами трудно описать эту феерию - ее надо смотреть что бы понять всю несостоятельность LLM по крайней мере в игре в шахматы.
GPT-5 неплохо играет в шахматы.
Перебор вариантов, поиск на два шага вперёд... Попросите нейронку перечислить русские существительные, оканчивающиеся на сочетание букв "со" - вот где настоящая жесть. Пока они не научатся отвечать на правильно поставленный вопрос, требующий для ответа всего лишь знание данных и перебора вариантов по ним - это всего лишь имитация троечника на экзамене
Lock-free код и шахматы: где LLM показывают свою несостоятельность