Когда появились ранние большие языковые модели стали проводить разные тесты на их способность рассуждать. И очень быстро обнаружилось что они не умеют распознавать буквы, потому что при их обучении текст разбивается не на буквы, а на токены, они просто не видят букв. Популярной к этому иллюстрацией был вопрос “Сколько букв r в слове strawberry?”, модели во многих случаях сразу отвечали неправильно. Потом придумали заставлять модель думать по шагам “Подумай, как можно узнать сколько букв в слове и скажи сколько букв r в слове strawberry?”. На что модель отвечала что-то в духе “Чтобы узнать сколько букв r в слове strawberry нужно разбить слово на буквы и посчитать их. Давай посчитаем s t r a w b e r r y. В слове strawberry три буквы r”. Очевидно, что теперь OpenAI пытается научить модель самостоятельно применять промежуточные шаги, но при этом исследовать не один путь, а целое дерево возможных решений, примерно, как они делали с AlphaZero.
Когда появились ранние большие языковые модели стали проводить разные тесты на их способность рассуждать. И очень быстро обнаружилось что они не умеют распознавать буквы, потому что при их обучении текст разбивается не на буквы, а на токены, они просто не видят букв. Популярной к этому иллюстрацией был вопрос “Сколько букв r в слове strawberry?”, модели во многих случаях сразу отвечали неправильно. Потом придумали заставлять модель думать по шагам “Подумай, как можно узнать сколько букв в слове и скажи сколько букв r в слове strawberry?”. На что модель отвечала что-то в духе “Чтобы узнать сколько букв r в слове strawberry нужно разбить слово на буквы и посчитать их. Давай посчитаем s t r a w b e r r y. В слове strawberry три буквы r”. Очевидно, что теперь OpenAI пытается научить модель самостоятельно применять промежуточные шаги, но при этом исследовать не один путь, а целое дерево возможных решений, примерно, как они делали с AlphaZero.