Как-то раз мы с�� студентами-переводчиками по ИТ задались вопросом:
А реально ли LLM «думает»? Или она просто, подобно школьнику, подгоняет объяснения под ответ в конце учебника, не имея ни малейшего понятия о том, правилен ли этот ответ или логичны ли ее рассуждения?
Поиски ответов на этот вопрос привели нас к статье-исследованию "Empowering LLMs with Logical Reasoning: A Comprehensive Survey", адаптированный перевод которой мы и предоставляем вашему вниманию. Над переводом мы работали вместе с коллегой – Губановой Екатериной.
Статья представляет собой большой обзор подходов к тому, как сделать языковые модели не просто «говорящими машинами», а системами, которые умеют думать, делать выводы и находить логические связи, «не натягивая сову на глобус».
Введение
Этот обзор посвящен способности больших языковых моделей (LLM) рассуждать логически – а точнее тому, как систематизировать современное состояние исследований: с какими логическими задачами модели справляются плохо и какие методы помогают улучшить их способности.
Сразу отметим: в этом обзоре не рассматриваются все возможные подходы к развитию LLM – мы сосредоточимся на двух ключевых направлениях, выделенных авторами: логическое решение вопросов и логическая согласованность.
В первой части вы узнаете, почему модели, хорошо справляющиеся с текстом, часто ошибаются при логических рассуждениях, и как нехватка примеров настоящей пошаговой логики в обучающих данных сдерживает их развитие.
1. Трудности LLM с рассуждениями
LLM отлично показали себя в NLP задачах (генерация текста, классификация, перевод и т.д.), но у них по-прежнему есть проблемы с логическим рассуждением.
С одной стороны, LLM учатся понимать синтаксис, смысл слов и общие знания о мире через задачи вроде предсказания следующего слова в тексте или заполнения пропусков. Но этого недостаточно, чтобы они умели логически рассуждать – модель может правильно строить предложения и подбирать слова, но не умеет делать выводы на основе фактов. С другой стороны, тексты, на которых обучаются LLM, в основном написаны людьми и редко содержат примеры настоящих логических рассуждений, таких как последовательные выводы или доказательства. То есть модели почти не видят реальных примеров того, как нужно шаг за шагом проверять и связывать факты, чтобы прийти к правильному логическому заключению.
Эти проблемы серьёзно ограничивают применение больших языковых моделей по двум направлениям.
Во-первых, возникает проблема логического решения вопросов. То есть, LLM часто не могут правильно отвечать на вопросы, которые требуют долгих и сложных рассуждений, даже имея в распоряжении все вводные, факты, правила и ограничения. Такие вопросы можно условно разделить на два типа:
1) Проверка истинности утверждения.
Модели нужно определить, верно ли данное утверждение на основе предоставленной информации – ответ может быть «истинно», «ложно» или «неизвестно». Например, даны вводные: “Metals conduct electricity. Insulators do not conduct electricity. If something is made of iron, then it is metal. Nails are made of iron.” (Металлы проводят электричество. Изоляторы не проводят электричес��во. Если что-то сделано из железа, значит это металл. Гвозди сделаны из железа).
Логический вопрос, заданный LLM: “Nails cannot conduct electricity. Is the following statement true, false, or unknown?” (Гвозди не проводят электричество. Истинно, ложно или неизвестно?).
Чтобы дать правильный ответ, модель должна проследить цепочку рассуждений: nails → made or iron → metal → conduct electricity (гвозди → сделаны из железа → металл → проводят электричество).
Таким образом, утверждение “Nails cannot conduct electricity” (Гвозди не проводят электричество) оказывается ложным.
2) Выбор правильного варианта из нескольких предложенных.
В этом случае модели нужно выбрать такой вариант ответа, который удовлетворяет всем данным условиям и вводным. Например, при нескольких возможных ответах модель должна про��ерить каждый и убедиться, что он не противоречит фактам и правилам, прежде чем выбрать правильный.
На удивление, модель LLaMA 13B (одна из больших языковых моделей компании Meta, специально обученная понимать и генерировать текст) правильно отвечает только на 33,63% вопросов из набора FOLIO – специального датасета с логическими задачами, где требуется проверять факты и делать выводы. Для этого модели сначала показывают 8 примеров правильных ответов, чтобы она поняла, как решать задачу, а затем задают новый вопрос. Для сравнения, если бы модель просто угадывала ответы между вариантами «истинно», «ложно» и «неизвестно», точность была бы почти такой же – 33,33%.
Это означает, что даже при наличии всей необходимой информации модели плохо справляются с задачами, которые требуют внимательного анализа фактов и строгого следования логике. Поэтому их применение в реальных ситуациях, как например при решении сложных проблем, принятии решений или планировании, пока сильно ограничено.
Во-вторых, LLM также склонны давать противоречивые ответы на разные вопросы, что рассматривается как нарушение логической согласованности. Формы логической согласованности могут быть разными. Например, LLaMa-2 70B отвечает положительно и на вопрос “Is an albatross an organism?” (Является ли альбатрос организмом?), и на вопрос “Is an albatross not an organism?” (Альбатрос не является организмом?), что нарушает согласованность отрицания (см. пункт 3 для формального определения). Вспомним также пример с сорокой в современной модели вопросов и ответов Macaw, где сорока – птица, птицы имеют крылья, но сорока, в итоге, оказалась бескрылой.
К сожалению, многие исследования показали, что обучение только на больших наборах вопросов и ответов не гарантирует логическую согласованность LLM. В результате такие противоречивые ответы ставят под сомнение надёжность и достоверность моделей, что ограничивает их практическое применение, особенно в критически важных сценариях.
В этой статье мы рассматриваем обе проблемы вместе. Они напрямую связаны между собой и одинаково важны для развития логических способностей моделей. Для их решения уже предложено немало подходов: одни направлены на повышение точности ответов на логические вопросы, другие – на обеспечение согласованности. В последние годы эти направления вызывают особый интерес, и в своей работе мы подробно проанализировали самые современные методы и представили их классификацию (см. рис. 1).
В частности, для логического решения вопросов найденные нами методы делятся на три категории:
основанные на решателях (Solver-based) – переводят задачи из естественного языка в символическую форму и решают их с помощью внешних логических решателей;
основанные на подсказках (Prompt-based) – либо явно выстраивают цепочку логических рассуждений при ответе, либо переводят текст в символическую форму с помощью тщательно подобранных подсказок, после чего используют LLM для более глубокого рассуждения;
основанные на методах предобучения и дообучения (Pretrain and fine-tuning methods) – учитывая нехватку в корпусах высококачественных примеров рассуждений (например, многошаговых выводов или доказательств), данные подходы предлагают дообучать LLM на расширенных выборках, где явно представлены рассуждения и пошаговые доказательства.
Для логической согласованности мы формализовали наиболее распространённые её типы, а также их комбинации:
согласованность по импликации (Implication Consistency),
согласованность по отрицанию (Negation Consistency),
согласованность по транзитивности (Transitivity Consistency),
согласованность по фактичности (Factuality Consistency).

Итак, это были трудности ризонинговых LLM с логикой.
В следующей части мы рассмотрим, как LLM решают логические задачи через основные подходы: использование внешних решателей, применение продуманных подсказок (промптинга) и обучение на логических данных. Также мы изучим методы, которые помогают моделям рассуждать точнее, ограничения и способы оценки логической корректности их ответов.
Продолжение следует.
