Цветом выделена токенизация
Для представления внутри трансформеров слова или их небольшие части преобразуются в токены. Кажется, что если перемешать в каждом слове буквы, то языковая модель на трансформерах потеряет всякую способность понимать текст. Авторы научной работы «Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text» (arXiv:2311.18805) показали, что это не так. Как выяснилось, GPT-4 без проблем оперирует текстом, где в каждом слове все буквы случайно переставлены.
С ростом масштабов больших языковых моделей (БЯМ) происходит неожиданное. Количественный рост в модели (выше затраченные на обучение вычислительные мощности, больше число параметров и так далее) выливается в качественные изменения в поведении, которые называют эмерджентными способностями. Способность эмерджентная, если она нехарактерна для модели поменьше, но появляется в большой.
«Развитие» такой способности скачкообразно. У небольшой модели производительность в некоем наборе задач будет почти случайной. К примеру, она плохо транслитерирует слова, с ошибками выполняет арифметические задачи или неправильно отвечает на вопросы — разновидностей бенчмарков много. Если увеличить размер модели, в определённый момент произойдёт резкий фазовый переход, и поведение изменится таким образом, который невозможно предсказать по анализу небольших систем. Модель приобретёт эмерджентную способность.
На самом деле умение БЯМ угадать изначальное слово по варианту, где буквы переставлены случайным образом, описано давно. Такой навык упоминается в основополагающей научной статье по эмерджентным способностям «Emergent Abilities of Large Language Models» (arXiv:2206.07682) от лета 2022 года. В ней расшифровка слов с перемешанными буквами даже используется в качестве одного из бенчмарков.
Демонстрация эмерджентности на примере задачи по расшифровке слов. Рис. 2C, arXiv:2206.07682
С тех пор перестановку исследовали, но на уровне слов (arXiv:2104.06644, arXiv:2203.10995). Как оказалось, понимание естественного языка слабо зависит от случайного порядка слов как на стадиях обучения, так и тестирования.
Однако переставлять слова — далеко не то же самое, что переставлять буквы. Внутри БЯМ не оперируют собственно словами человеческого языка. Вместо этого токенизатор разбивает промпт на слова или группы из нескольких букв и назначает каждому кусочку в соответствие целое число.
Что случится, если буквы переставлены и токенизация нарушена? Интуитивно кажется, что БЯМ плохо будут справляться с таким текстом.
Авторы «Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text» (arXiv:2311.18805) задаются вопросом: веажн ли пяордок бкув для БЯМ? Как известно (doi:10.1109/MAES.2007.327521, doi:10.1037//0096-1523.8.5.724, doi:10.1016/j.actpsy.2012.09.013), люди почти без запинки читают текст, если в словах переставлены почти все буквы — кроме первой и последней. Научная статья утверждает, что современные флагманские БЯМ идут дальше: они без проблем справляются с любыми, даже самыми неестественными ошибками.
Провели не просто несколько тестов. Исследователи разработали целый бенчмарк Scrambled Bench. В нём два типа задач:
- ScrRec, Scrambled Sentece Recovery, восстановление предложения из слов с перемешанными буквами. БЯМ получает на входе предложение, полностью состоящее из слов, где буквы были случайно переставлены. Затем БЯМ просят восстановить изначальное предложение.
- ScrQA, Scrambled Question Answering, вопросы с перемешанной частью. Хотя ScrRec хорошо показывает способность понимать и обрабатывать текст с перестановками букв, задача остаётся необычной для БЯМ. ScrRec можно завалить по двум причинам: либо из-за непонимания инструкций, либо из-за неумения восстанавливать слова. Чтобы понять причину, нужна стадия ScrQA.
Для этой задачи формируют вопрос, а контекст для ответа на него представлен в виде предложения с перестановками букв в словах.
Заражение данных — серьёзная проблема. Речь про то, что наборы тестовой информации публикуются в открытом виде в Интернете, поэтому по определению могут попасть в датасеты для обучения БЯМ.
Чтобы избежать заражения, исследователи собрали набор вопросов из бенчмарка RealTime QA. Это еженедельно обновляемый бенчмарк, который регулярно публикует вопросы о недавних новостных событиях. Маловероятно, что эти события могут настолько быстро оказаться в памяти БЯМ.
Для Scrambled Bench отобрали 419 образцов с 17 марта по 4 апреля 2023 года. Исследователи не поясняют, почему не взяли самые новые материалы. Затем составили предложения с дополнительной информацией из «Википедии». В итоге получилось 418 задач для ScrRec и 346 для ScrQA.
В приложении C научной статьи приводятся примеры получившихся задач. К примеру, так выглядит задача для ScrRec без примеров (zero-shot). Здесь БЯМ просят восстановить изначальное предложение:
The following sentence contains words with scrambled letters. Please recover original sentence from it.
Scrambled sentence: A reGebr byba ulfaorm wsa titbudiserd ot soetsr epdstie a lclera eovr bslpioes ionmanantitco, grnoadicc ot eth ADF. heT pyomacn si noniacrggue rptsean ot ckhec yna poducsrt yhte evah ta mhoe nda cdisadr sehot taht aym eb ecaeftdf.
Ответ:
A Gerber baby formula was distributed to stores despite a recall over possible contamination, according to the FDA. The company is encouraging parents to check any products they have at home and discard those that may be affected.
Помимо этого для ScrRec иногда давали примеры решений задачи (few-shot) по тексту из датасета wikiQA.
Для части ScrQA помимо того же текста с перемешанными буквами предлагался вопрос:
Which type of product was recently distributed to some US stores despite a recall notice?
Choices: (A)Salad dressing (B)Baby formula (С)Ground beef (D)Whole milk
БЯМ должна была выбрать правильный вариант, в данном случае — B, детская питательная смесь.
Кроме того, для ScrQA задействовали датасет на проверку восприятия текста DREAM (doi:10.1162/tacl_a_00264) и набор алгебраических задачек AQuA-RAT (doi:10.18653/v1/P17-1015).
Из DREAM выбрали 1025 образцов. Так могла выглядеть задача с промптингом без примеров (zero-shot) по DREAM:
M: owH goln veah uyo eben ehctnaig ni iths edmdli colosh?
W: Fro ent esray. oT eb akfrn, I’m edirt fo higneact het mesa bokoextt rof os ongl hghuto I od jyneo gebin a aterceh. I’m idenoncisrg gntriy minseghot wne.
Question: What’s the woman probably going to do?
Choices: (A)To teach a different textbook. (B)To change her job. (С)To learn a different textbook.
Answer: Based on the dialogue, among A through C, the answer is
БЯМ должна «сообразить», что оригинальный диалог звучит так:
M: How long have you been teaching in this middle school?
W: For ten years. To be frank, I’m tired of teaching the same textbook for so long though I do enjoy being a teacher. I’m considering trying something new.
При этом в ответе требовался только правильный вариант, в данном случае — A.
Для алгебраических задачек по сборнику AQuA-RAT в промпте предоставлялись примеры решения похожих задач (few-shot) в стиле цепочки рассуждений (chain of thought). Промпт содержал условия задач с переставленными буквами, а варианты ответа, решение и ответ были записаны как обычно. В конце шла ещё одна задача, у которой на этот раз решение записано не было, к примеру:
Question: A ritna inunrgn ta a eepsd fo 100 mlesi/uhro, eakts 10 hurso ot cerah ist dneitiotsan. trefA ovgeirnc etarqru fo het cntsdaie, ti tstrsa grniina nda eth rniat ash ot eb dlseow ot seedp fo 75 liesm/uhor. Wtha si het otalt orjeyun iroatdnu?
Choices: (A)10 (B)11.5 (С)12.5 (D)13.5 (E)15
Answer:
Здесь условие — это перестановка текста:
A train running at a speed of 100 miles/hour, takes 10 hours to reach its destination. After covering a quarter of the distance, it starts gaining and the train has to be slowed to a speed of 75 miles/hour. What is the total journey duration?
Буквы перемешивали тремя способами:
- RS, Randomly Scramble, полное перемешивание. Варьировалось в интенсивности в 20 %, 50 % или 100 %.
- KF, Keep First, сохранять первую букву.
- KFL, Keep First and Last, сохранять первую и последнюю буквы.
Конечно, порядок цифр в числах не менялся.
Для оценки выбрали как лучшие современные открытые модели (семейства Llama-2, Falcon, UL2 и T5), так и проприетарные решения (text-davinci-003, GPT-3.5-Turbo и GPT-4).
Производительность в ScrRec — это среднее расстояние Левенштейна ED (editing distance в англоязычной терминологии) оригинального предложения ori и восстановленного scr, которое преобразуют в метрику Recovery Rate для разных образцов i по формуле:
Для ScrQA оценку правильности ответа осложняют различия в способностях различных БЯМ относительно самих вопросов. Поэтому для моделей вычислялся показатель относительной производительности RPG (Relative Performance Gain), зависящий от точности при оригинальном тексте ori, перемешанном тексте scr и в тексте со случайными заменами sub:
Для текстов sub все буквы в выражениях, которые подлежали перестановке, заменяются на абсолютно случайные. Это значит, что максимальная точность решений достигается для ori, а для sub она будет минимально возможной.
Результаты показали неплохой отрыв моделей OpenAI. Заметно, что GPT-4 отлично справляется с восстановлением текста даже при полной перестановке всех букв в словах: показатель RR держится не ниже 95 %.
GPT-4 обходит другие БЯМ также и в текстовых задачках ScrQA на основе новостных текстов из RealTime QA. «Четвёрка» сохраняет 87,8 % производительности даже тогда, когда буквы на 100 % перемешаны.
Влияние уровня перемешивания на производительность в задачах из датасета RealTime QA. Для ScrRec использован промптинг как zero-shot, так и few-shot. Слишком низкие значения отброшены
Проверка на восприятие текста на датасете DREAM только усилила отрыв GPT-4 от других БЯМ. Исследователи предполагают, что сказались увеличившиеся требования к пониманию текстов. В некоторых типах задач открытые модели откровенно не справляются.
Производительность части ScrQA на DREAM на различных категориях вопросов. Здесь под перемешиванием RS понимается интенсивность 100 %. Слишком низкие значения отброшены
Наконец, задачи AQuA-RAT оказались под силу только проприетарным моделям. Лишь GPT-4 смогла сохранять способность решать математические задачи тогда, когда в их условии буквы в словах полностью перемешаны.
Часть ScrQA на алгебраических задачах AQuA-RAT. Слева направо перечислены результаты метрики Acc (точность) для GPT-4, GPT-3.5-Turbo и text-davinci-003
Вывод научной работы обильно хвалит GPT-4. Каких-либо практических применений (к примеру, коррекция опечаток пользователя или систем оптического распознавания текста) или других потенциальных направлений (например, проверку способности БЯМ расшифровывать текст из base64) не предлагается.
Препринт научной статьи «Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text» опубликован на сайте препринтов arXiv.org (arXiv:2311.18805).