Обзор проблем и решений в ризонинговых LLM. Часть 1 / Хабр

Как-то раз мы со студентами-переводчиками по ИТ задались вопросом:

А реально ли LLM «думает»? Или она просто, подобно школьнику, подгоняет объяснения под ответ в конце учебника, не имея ни малейшего понятия о том, правилен ли этот ответ или логичны ли ее рассуждения?

Поиски ответов на этот вопрос привели нас к статье-исследованию "Empowering LLMs with Logical Reasoning: A Comprehensive Survey", адаптированный перевод которой мы и предоставляем вашему вниманию. Над переводом мы работали вместе с коллегой – Губановой Екатериной.

Статья представляет собой большой обзор подходов к тому, как сделать языковые модели не просто «говорящими машинами», а системами, которые умеют думать, делать выводы и находить логические связи, «не натягивая сову на глобус».

Введение

Этот обзор посвящен способности больших языковых моделей (LLM) рассуждать логически – а точнее тому, как систематизировать современное состояние исследований: с какими логическими задачами модели справляются плохо и какие методы помогают улучшить их способности.

Сразу отметим: в этом обзоре не рассматриваются все возможные подходы к развитию LLM – мы сосредоточимся на двух ключевых направлениях, выделенных авторами: логическое решение вопросов и логическая согласованность.

В первой части вы узнаете, почему модели, хорошо справляющиеся с текстом, часто ошибаются при логических рассуждениях, и как нехватка примеров настоящей пошаговой логики в обучающих данных сдерживает их развитие.

1. Трудности LLM с рассуждениями

LLM отлично показали себя в NLP задачах (генерация текста, классификация, перевод и т.д.), но у них по-прежнему есть проблемы с логическим рассуждением.

С одной стороны, LLM учатся понимать синтаксис, смысл слов и общие знания о мире через задачи вроде предсказания следующего слова в тексте или заполнения пропусков. Но этого недостаточно, чтобы они умели логически рассуждать – модель может правильно строить предложения и подбирать слова, но не умеет делать выводы на основе фактов. С другой стороны, тексты, на которых обучаются LLM, в основном написаны людьми и редко содержат примеры настоящих логических рассуждений, таких как последовательные выводы или доказательства. То есть модели почти не видят реальных примеров того, как нужно шаг за шагом проверять и связывать факты, чтобы прийти к правильному логическому заключению.

Эти проблемы серьёзно ограничивают применение больших языковых моделей по двум направлениям.

Во-первых, возникает проблема логического решения вопросов. То есть, LLM часто не могут правильно отвечать на вопросы, которые требуют долгих и сложных рассуждений, даже имея в распоряжении все вводные, факты, правила и ограничения. Такие вопросы можно условно разделить на два типа:

1) Проверка истинности утверждения.

Модели нужно определить, верно ли данное утверждение на основе предоставленной информации – ответ может быть «истинно», «ложно» или «неизвестно». Например, даны вводные: “Metals conduct electricity. Insulators do not conduct electricity. If something is made of iron, then it is metal. Nails are made of iron.” (Металлы проводят электричество. Изоляторы не проводят электричество. Если что-то сделано из железа, значит это металл. Гвозди сделаны из железа).

Логический вопрос, заданный LLM: “Nails cannot conduct electricity. Is the following statement true, false, or unknown?” (Гвозди не проводят электричество. Истинно, ложно или неизвестно?).

Чтобы дать правильный ответ, модель должна проследить цепочку рассуждений: nails → made or iron → metal → conduct electricity (гвозди → сделаны из железа → металл → проводят электричество).

Таким образом, утверждение “Nails cannot conduct electricity” (Гвозди не проводят электричество) оказывается ложным.

2) Выбор правильного варианта из нескольких предложенных.

В этом случае модели нужно выбрать такой вариант ответа, который удовлетворяет всем данным условиям и вводным. Например, при нескольких возможных ответах модель должна проверить каждый и убедиться, что он не противоречит фактам и правилам, прежде чем выбрать правильный.

На удивление, модель LLaMA 13B (одна из больших языковых моделей компании Meta, специально обученная понимать и генерировать текст) правильно отвечает только на 33,63% вопросов из набора FOLIO – специального датасета с логическими задачами, где требуется проверять факты и делать выводы. Для этого модели сначала показывают 8 примеров правильных ответов, чтобы она поняла, как решать задачу, а затем задают новый вопрос. Для сравнения, если бы модель просто угадывала ответы между вариантами «истинно», «ложно» и «неизвестно», точность была бы почти такой же – 33,33%.

Это означает, что даже при наличии всей необходимой информации модели плохо справляются с задачами, которые требуют внимательного анализа фактов и строгого следования логике. Поэтому их применение в реальных ситуациях, как например при решении сложных проблем, принятии решений или планировании, пока сильно ограничено.

Во-вторых, LLM также склонны давать противоречивые ответы на разные вопросы, что рассматривается как нарушение логической согласованности. Формы логической согласованности могут быть разными. Например, LLaMa-2 70B отвечает положительно и на вопрос “Is an albatross an organism?” (Является ли альбатрос организмом?), и на вопрос “Is an albatross not an organism?” (Альбатрос не является организмом?), что нарушает согласованность отрицания (см. пункт 3 для формального определения). Вспомним также пример с сорокой в современной модели вопросов и ответов Macaw, где сорока – птица, птицы имеют крылья, но сорока, в итоге, оказалась бескрылой.

К сожалению, многие исследования показали, что обучение только на больших наборах вопросов и ответов не гарантирует логическую согласованность LLM. В результате такие противоречивые ответы ставят под сомнение надёжность и достоверность моделей, что ограничивает их практическое применение, особенно в критически важных сценариях.

В этой статье мы рассматриваем обе проблемы вместе. Они напрямую связаны между собой и одинаково важны для развития логических способностей моделей. Для их решения уже предложено немало подходов: одни направлены на повышение точности ответов на логические вопросы, другие – на обеспечение согласованности. В последние годы эти направления вызывают особый интерес, и в своей работе мы подробно проанализировали самые современные методы и представили их классификацию (см. рис. 1).

В частности, для логического решения вопросов найденные нами методы делятся на три категории:

основанные на решателях (Solver-based) – переводят задачи из естественного языка в символическую форму и решают их с помощью внешних логических решателей;
основанные на подсказках (Prompt-based) – либо явно выстраивают цепочку логических рассуждений при ответе, либо переводят текст в символическую форму с помощью тщательно подобранных подсказок, после чего используют LLM для более глубокого рассуждения;
основанные на методах предобучения и дообучения (Pretrain and fine-tuning methods) – учитывая нехватку в корпусах высококачественных примеров рассуждений (например, многошаговых выводов или доказательств), данные подходы предлагают дообучать LLM на расширенных выборках, где явно представлены рассуждения и пошаговые доказательства.

Для логической согласованности мы формализовали наиболее распространённые её типы, а также их комбинации:

согласованность по импликации (Implication Consistency),
согласованность по отрицанию (Negation Consistency),
согласованность по транзитивности (Transitivity Consistency),
согласованность по фактичности (Factuality Consistency).

Рис. 1. Таксономическое дерево логического рассуждения, разделённое на две основные ветви: логическое решение вопросов и логическая согласованность

Итак, это были трудности ризонинговых LLM с логикой.
В следующей части мы рассмотрим, как LLM решают логические задачи через основные подходы: использование внешних решателей, применение продуманных подсказок (промптинга) и обучение на логических данных. Также мы изучим методы, которые помогают моделям рассуждать точнее, ограничения и способы оценки логической корректности их ответов.

Продолжение следует.