Realvolerog 2 янв 2024 в 10:26

Смеяться или Плакать? Как LLM-модели прошли тест на человечность

Простой

12 мин

12K

Занимательные задачкиМашинное обучение * Искусственный интеллектБудущее здесь

Из песочницы

Комментарии 20

AgentRX 2 янв 2024 в 11:05

Чуть-чуть не хватило концовки)))

Муж неожиданно возвращается с командировки. Он входит в квартиру и видит свою жену сидящей на диване, которая истерически плачет. Сбитый с толку и обеспокоенный, он бросается к ней и спрашивает, в чем дело.

Сквозь слёзы она умудряется сказать: "Я только что узнала, что наш сосед имеет роман на стороне!"

Муж ошарашен. "Как ты узнала?" - спрашивает он.

"Я смотрела в окно и видела их вместе в их квартире", - всхлипывает она.

Муж на мгновение задумывается, а затем говорит: "А ты видела, кто был второй?"

"Нет", - отвечает жена

"Ну и слава Богу", говорит муж, вытирая пот с лица)

Wesha 2 янв 2024 в 17:34

сосед имеет роман

кто был второй?

"Ну и слава Богу", говорит муж, вытирая пот с лица

— "только не вздумай никому рассказывать, а то ещё не дай бог привлекут тебя по новому закону за пропаганду сама знаешь чего..."

spiritedflow 2 янв 2024 в 11:12

А почему в тесте на смекалку тест на поиск в интернете? Почему бы не изменить задачку, чтоб она хотя бы не гуглилась?

Guestishe 3 янв 2024 в 07:15

У нейронок базово нет доступа к интернету, иначе бы они так не галлюцинировали на точную информацию

spiritedflow 2 янв 2024 в 11:20

Это правило Ауфбау

Вот тут и спалился школьник с нейросеткой.

ZeroMatrix 2 янв 2024 в 12:23

Датасет ChatGPT и Claude в основном английский, да и соображают они на английском в ряде случаев получше. Было бы интересно предложить фразу из какого-нибудь классического (в том плане, что приведенная в статье фраза имеет очень много различных продолжений в русскоязычном сегменте интернета) для американского(?) комьюнити анекдота.

Fell-x27 2 янв 2024 в 19:18

"Соображает" оно вне языка. По крайней мере GPT4 абстрагирован от него. Он энкодит промпт в свой понятийный аппарат, работает именно на нем, и потом декодит полученный результат в понятную нам речь. То есть "соображает" он на своём собственном "языке". А наш - лишь интерфейс.

По этой причине можно спрашивать на одном языке и просить результат на другом. Или, получив ответ на английском, продолжить беседу на русском. И он все равно продолжит отвечать на английском, если не попросить переключиться явно - сам он не замечает, что говорит "не на том языке", если получает на вход ответы пользователя, которые не указывают на наличие проблемы явно или косвенно. Ему достаточно того, что его понимают.

Далее. Можно скинуть ему текст вперемешку с русским и английским языком и попросить "доперевести" в нужный, и смесь на входе не будет проблемой. Можно попросить чредовать языки в предложениях в рамках одного ответа и так далее.

Ну и в этом кроется его огромная мощь в плане переводов. Эта штука "понимает", о чем текст, а не просто транслирует его. Он способен даже идиомы или хитрые непереводимые обороты адаптировать.

Kergan88 2 янв 2024 в 19:37

>Он энкодит промпт в свой понятийный аппарат, работает именно на нем, и потом декодит полученный результат в понятную нам речь. То есть "соображает" он на своём собственном "языке". А наш - лишь интерфейс.

Он вообще не соображает, ни на каком языке, а просто выдает более вероятный токен. Поэтому язык, конечно же, влияет на точность.

НЛО прилетело и опубликовало эту надпись здесь

highdn 2 янв 2024 в 15:01

dimitrii_z 2 янв 2024 в 17:26

Всё правильно, а что не так? Просто барда не было в статье

TAU15 2 янв 2024 в 17:50

Бард работает на ChatGPT4

dimitrii_z 2 янв 2024 в 18:06

Да ну? На своей модели вроде как. Не путать с Bing/Copilot от мелкомягких https://ru.wikipedia.org/wiki/Bard_(чат-бот)

anatolykern 2 янв 2024 в 23:49

Простите, а Gemini-pro это тогда что?

Комментарий выше показывает, что это "исследование" не проходит независимую проверку, как минимум по части Gemini-pro, заставляя усомниться и в остальных примерах и выводах.

peterjohnsons 2 янв 2024 в 17:27

У LLM с каждой генерацией будет новый ответ. Что-бы делать всё правильно, надо запустить генерацию для одной и той же задачи много раз и подвести общие результаты. Автор написал, что у него был беглый тест. Как и у вас.

TAU15 2 янв 2024 в 17:52

Для полноты картины интересно с какой температуры модель начинает путаться. Мне кажется что при минимальной температуре ответ будет практически всегда однотипный и если модель ИИ достаточно умная то это будет правильный ответ всегда.

viad8991 26 янв 2024 в 05:53

Тут вообще не хватает пунктуации или интонации (если мы слышали)

Кирпич весит 1 кг, + полкирпича. Сколько в итоге весит кирпич? 1
Кирпич весит, 1 кг + полкирпича. Сколько в итоге весит кирпич? 1,5

Так что я бы оспорил решения

janvarev 2 янв 2024 в 18:53

Печально, что статья с кликбейтным заголовком, диким названием ChatGPT-4 (есть GPT-4 вообще-то, а есть ChatGPT), отсутствием методологии и постоянной рекламой "закажите нашего ИИ-ассистента" собирает так много плюсов...

digtatordigtatorov 2 янв 2024 в 21:28

Статья не плавно перешла в мусор, это очередной garbich, который вообще не надо постить

Bagir123 3 янв 2024 в 14:48

Если мы хотим сравнить ум человека с ИИ, то надо ориентироваться на его устройство. Устройство ума современная наука не знает, знает восточная медицина. Согласно йоге ум находится на астральном уровне тела и отражает импульсы духа в виде мыслей, а мысли порождаются на основе потребностей тела.

Дальше смотрим. Духа у ИИ нет, отражать ему нечего. Будхических способностей нет, каузальной судьбы нет, ментальной матрицы нет, астральных чувств нет, эфирного здоровья нет. Есть только физический план.

Т.о. пытаются сравнить физический калькулятор с астральным умом, что бессмысленно у них разные возможности и цели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий