maybe_elf Aug 28 2024 at 07:17

Исследование: LLM не могут справиться с подсчётом букв «r» в слове «strawberry»

2 min

23K

Machine learning * Artificial IntelligenceLearning languages

Comments 25

2medic Aug 28 2024 at 08:09

Они не только не умеют считать буквы, они действительно не знают, из каких букв состоит слово. Попросил LLM объяснить, как запомнить ключ -n для указания схемы утилите pg_dump.

Ответ удивил

Fedor_Sumkin Aug 30 2024 at 14:29

Это просто "великое сдвижение букв" m - n в саксонских языках. Лингвисты об этом знают.

(Шутка).

Lev3250 Aug 28 2024 at 08:14

Простите за short, но это прям иллюстрация к статье

SuharkovMP Aug 28 2024 at 08:34

Так ведь каждой задаче - свой инструмент. С тем же успехом можно взять образец ДНК неведомой прыгающей твари, чтобы после обработки его в секвенаторе с вероятностью 70% заявить, что это лягушка. Или просто посмотреть на строение твари.

unC0Rr Aug 28 2024 at 08:36

Другими словами, ИИ понимает, что есть токены «straw» и «berry», которые вместе составляют «strawberry», но модель не знает, что это слово состоит из букв «s», «t», «r», «a», «w», «b», «e», «r», «r» и «y», и они располагаются именно в таком порядке.

icya Aug 28 2024 at 09:56

Это не доказывает факт, что модель по исходному запросу понимает, что слово состоит их каких-то там букв и что нужно считать количество нужных букв в слове.

Даже если дать модели инструкцию разбивать слова на отдельные буквы и считать их, она использует эту информацию как дополнительные контекст для генерации ответа. Честный подсчётом букв это всё равно тяжело назвать.

turbotankist Aug 28 2024 at 18:27

Ребёнок, который уже умеет говорить, но ещё не умеет писать и читать тоже не решит эту задачу, а мы знаем из каких букв состоят слова тоже знаем как дополнительный контекст - в уме по буквам будем произносить слово и считать.

Doman Aug 28 2024 at 09:14

Достаточно добавить "think step by step" в конец промпта и LLM выдаст правильный результат. Большие языковые модели думают "вслух", поэтому всегда лучше давать им пространство для размышлений.

okhsunrog Aug 28 2024 at 09:53

И действительно, спросил Claude 3.5 Sonnet:

Скрытый текст

how many "r" letter are there in "strawberry" word?think step by step

Certainly! Let's think through this step by step:

First, let's write out the word "strawberry": strawberry
Now, let's go through the word letter by letter and count the "r" occurrences: s - not an "r" t - not an "r" r - this is our first "r" (count: 1) a - not an "r" w - not an "r" b - not an "r" e - not an "r" r - this is our second "r" (count: 2) r - this is our third "r" (count: 3) y - not an "r"
After going through all the letters, we can conclude:

There are 3 "r" letters in the word "strawberry".

To verify this, we can also use a simple Python script:

word = "strawberry"
r_count = word.count("r")
print(f"The number of 'r' letters in '{word}' is: {r_count}")

count_r.py

This script would output: "The number of 'r' letters in 'strawberry' is: 3"

So, our manual count is correct. There are indeed 3 "r" letters in the word "strawberry".

TheProfessional Aug 31 2024 at 01:42

До того, как увидел ваш вариант - придумал свой: Попросил чатгпт писать слово strawberry, считать буквы r, а затем проверять себя) Тоже правильный ответ выходит.

sanek1d Aug 28 2024 at 09:35

трансформатора

или

трансформера

Вообще это старая история уже. И есть теория, что OpenAI поэтому и назвали свою новую модель Strawberry - ирония + шаг вперед.

khch Aug 28 2024 at 10:15

У меня тоже сначала двесосчитал. И даже стал расскладывать мне буквы по позициям.
И 8-ю сосчитал, а 9-ю - нет.
Указал на ошибку - исправился.
Но неприятно, конечно.

khch Aug 30 2024 at 06:35

Но что еще характерно.
Вот диалог:

which kind of transformation represented matrix with columns 0, 1 and 1, 0

ChatGPT said:

ChatGPT

The matrix with columns (01)(01)(01) and (10)(10)(10), written as:

A=(0110)\mathbf{A} = (0110)A=(0110)

represents a reflection transformation across the line y=xy = xy=x in a 2D Cartesian coordinate system.

Explanation:

The first column, (01)(01)(01), indicates that the transformation maps the standard basis vector e1=(10)\mathbf{e}_1 = (10)e1=(10) to e2=(01)\mathbf{e}_2 = (01)e2=(01).
The second column, (10)(10)(10), indicates that the transformation maps the standard basis vector e2=(01)\mathbf{e}_2 = (01)e2=(01) to e1=(10)\mathbf{e}_1 = (10)e1=(10).

This swapping of coordinates corresponds to reflecting any point across the line where x=yx = yx=y. So, for any vector (xy)(xy)(xy), the transformation by this matrix would result in (yx)(yx)(yx).

Но в диалоге на русском он сначала ответил, что эта матрица поворачивает на 90 град, но когда я указал ему на ошибку - исправился.
Но он сначала взял в пример вектор (0, 1) поэтому у него вышел поворот и он обобщил этот случай.

Khach1979 Aug 30 2024 at 07:04

Но что еще характерно.
Вот диалог:

which kind of transformation represented matrix with columns 0, 1 and 1, 0

ChatGPT said:

ChatGPT

The matrix with columns (01)(01)(01) and (10)(10)(10), written as:

A=(0110)\mathbf{A} = (0110)A=(0110)

represents a reflection transformation across the line y=xy = xy=x in a 2D Cartesian coordinate system.

Explanation:

The first column, (01)(01)(01), indicates that the transformation maps the standard basis vector e1=(10)\mathbf{e}_1 = (10)e1=(10) to e2=(01)\mathbf{e}_2 = (01)e2=(01).
The second column, (10)(10)(10), indicates that the transformation maps the standard basis vector e2=(01)\mathbf{e}_2 = (01)e2=(01) to e1=(10)\mathbf{e}_1 = (10)e1=(10).

This swapping of coordinates corresponds to reflecting any point across the line where x=yx = yx=y. So, for any vector (xy)(xy)(xy), the transformation by this matrix would result in (yx)(yx)(yx).

Но в диалоге на русском он сначала ответил, что ээта матрица поворачивает на 90 град, но когда я указал ему на ошибку - исправился.
Но он сначала взял в пример вектор (0, 1) поэтому у него вышел поворот и он обощил этот случай.

bb17 Aug 28 2024 at 10:35

Примечательно, что жпт добавляет мозго ... эээ .... вразумительный комментарий, почему именно две буквы "r" "in reality". Яркий пример результата обучения на массиве "исключительности".

S_Corvin Aug 28 2024 at 13:02

Google Advanced:

В слове "рентгеноэлектрокардиографический" 3 буквы "а".

jtmartell Aug 28 2024 at 15:08

Любопытно. Мне удалось убедить gwen2, что буквы r три, а вот gemini 1.5 со мной не согласилась, при том выдала занимательное:

S - одна буква
T - одна буква
R - одна буква
A - одна буква
W - одна буква
B - одна буква
E - одна буква
R - вторая буква r
R - третья буква r (нет)
Y - одна буква
Как видите, в слове strawberry есть две буквы r.

Но не объяснила, почему посчитала третью букву и при этом отказалась от нее сразу же.

Zhuroff Aug 28 2024 at 16:44

Нормально они все понимают, если иную терминологию избрать. Если спросить, сколько раз символ "r" встречается в слове "strawberry" - то, по крайней мере, чат гпт нормально считает.

ideological Aug 28 2024 at 19:25

Ох, сколько ещё открытий чудных предстоит узнать таким исследователям).

Потом вообще выяснится что нейросети, оказывается, просто предсказывают следующий токен исходя из контекста и не могут определить и проверить факт или научиться навыку.

Troft Aug 29 2024 at 16:17

Хз, зашёл в первую попавшуюся нейросеть и..

Иван

сколько букв r в слове strawberry?

Personal robot

with a soft smile, maria answers. There are three letters 'r' in the word'strawberry'. Is there anything else you would like to know?

DenizK Aug 30 2024 at 01:14

DeepSeek врывается в чат:

В слове "strawberry" на английском языке две буквы "r".

arturfed Aug 30 2024 at 19:01

nTu4Ka Aug 30 2024 at 22:15

Эти горе иследователи не понимают что такое ЛЛМы и используют шокирующие заголовки, чтобы выудить внимание.

TheProfessional Aug 31 2024 at 01:59

Тут ещё, я думаю, большая проблема в том, что отсутствует возможность использовать пользователей того же чата-гпт, как "супервизоров" модели. Например, если модель ошибается, пользователь её исправляет и просит запомнить результат. Затем этот чат отправляется модераторам с согласия пользователя, которые перепроверяют исправленный пользователем ответ, и, если он верный, то это новое "знание" используется для обучения модели.

А то получается, в модель загрузили один раз данные и все, дальше она никак не развивается и не учится до момента загрузки новых данных.

Естественно, этим самым модератором может стать поисковик гугл, а не реальный человек, ведь чат-гпт может выходить в интернет.

iTaurus Nov 15 2024 at 09:02

Я сам задавал вопрос нейросети, запоминает ли она результат общения и использует ли его далее. Она ответила "нет, дообучения не происходит".

С одной стороны обучение нейросетки "в полях" было бы полезным.

С другой стороны: посмотрите, что сделали с Акинатором....