Как стать автором
Обновить

Смеяться или Плакать? Как LLM-модели прошли тест на человечность

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров11K
Всего голосов 17: ↑10 и ↓7+6
Комментарии20

Комментарии 20

Чуть-чуть не хватило концовки)))

Муж неожиданно возвращается с командировки. Он входит в квартиру и видит свою жену сидящей на диване, которая истерически плачет. Сбитый с толку и обеспокоенный, он бросается к ней и спрашивает, в чем дело.

Сквозь слёзы она умудряется сказать: "Я только что узнала, что наш сосед имеет роман на стороне!"

Муж ошарашен. "Как ты узнала?" - спрашивает он.

"Я смотрела в окно и видела их вместе в их квартире", - всхлипывает она.

Муж на мгновение задумывается, а затем говорит: "А ты видела, кто был второй?"

"Нет", - отвечает жена

"Ну и слава Богу", говорит муж, вытирая пот с лица)

сосед имеет роман

кто был второй?

"Ну и слава Богу", говорит муж, вытирая пот с лица

— "только не вздумай никому рассказывать, а то ещё не дай бог привлекут тебя по новому закону за пропаганду сама знаешь чего..."

А почему в тесте на смекалку тест на поиск в интернете? Почему бы не изменить задачку, чтоб она хотя бы не гуглилась?

У нейронок базово нет доступа к интернету, иначе бы они так не галлюцинировали на точную информацию

Это правило Ауфбау

Вот тут и спалился школьник с нейросеткой.

Датасет ChatGPT и Claude в основном английский, да и соображают они на английском в ряде случаев получше. Было бы интересно предложить фразу из какого-нибудь классического (в том плане, что приведенная в статье фраза имеет очень много различных продолжений в русскоязычном сегменте интернета) для американского(?) комьюнити анекдота.

"Соображает" оно вне языка. По крайней мере GPT4 абстрагирован от него. Он энкодит промпт в свой понятийный аппарат, работает именно на нем, и потом декодит полученный результат в понятную нам речь. То есть "соображает" он на своём собственном "языке". А наш - лишь интерфейс.

По этой причине можно спрашивать на одном языке и просить результат на другом. Или, получив ответ на английском, продолжить беседу на русском. И он все равно продолжит отвечать на английском, если не попросить переключиться явно - сам он не замечает, что говорит "не на том языке", если получает на вход ответы пользователя, которые не указывают на наличие проблемы явно или косвенно. Ему достаточно того, что его понимают.

Далее. Можно скинуть ему текст вперемешку с русским и английским языком и попросить "доперевести" в нужный, и смесь на входе не будет проблемой. Можно попросить чредовать языки в предложениях в рамках одного ответа и так далее.

Ну и в этом кроется его огромная мощь в плане переводов. Эта штука "понимает", о чем текст, а не просто транслирует его. Он способен даже идиомы или хитрые непереводимые обороты адаптировать.

>Он энкодит промпт в свой понятийный аппарат, работает именно на нем, и потом декодит полученный результат в понятную нам речь. То есть "соображает" он на своём собственном "языке". А наш - лишь интерфейс.

Он вообще не соображает, ни на каком языке, а просто выдает более вероятный токен. Поэтому язык, конечно же, влияет на точность.

Да, что-то вроде "Заходит ковбой в бар..."

Что я делаю неправильно?
Что я делаю неправильно?

Всё правильно, а что не так? Просто барда не было в статье

Бард работает на ChatGPT4

Простите, а Gemini-pro это тогда что?

Комментарий выше показывает, что это "исследование" не проходит независимую проверку, как минимум по части Gemini-pro, заставляя усомниться и в остальных примерах и выводах.

У LLM с каждой генерацией будет новый ответ. Что-бы делать всё правильно, надо запустить генерацию для одной и той же задачи много раз и подвести общие результаты. Автор написал, что у него был беглый тест. Как и у вас.

Для полноты картины интересно с какой температуры модель начинает путаться. Мне кажется что при минимальной температуре ответ будет практически всегда однотипный и если модель ИИ достаточно умная то это будет правильный ответ всегда.

Тут вообще не хватает пунктуации или интонации (если мы слышали)

Кирпич весит 1 кг, + полкирпича. Сколько в итоге весит кирпич? 1
Кирпич весит, 1 кг + полкирпича. Сколько в итоге весит кирпич? 1,5

Так что я бы оспорил решения

Печально, что статья с кликбейтным заголовком, диким названием ChatGPT-4 (есть GPT-4 вообще-то, а есть ChatGPT), отсутствием методологии и постоянной рекламой "закажите нашего ИИ-ассистента" собирает так много плюсов...

Статья не плавно перешла в мусор, это очередной garbich, который вообще не надо постить

Если мы хотим сравнить ум человека с ИИ, то надо ориентироваться на его устройство. Устройство ума современная наука не знает, знает восточная медицина. Согласно йоге ум находится на астральном уровне тела и отражает импульсы духа в виде мыслей, а мысли порождаются на основе потребностей тела.

Дальше смотрим. Духа у ИИ нет, отражать ему нечего. Будхических способностей нет, каузальной судьбы нет, ментальной матрицы нет, астральных чувств нет, эфирного здоровья нет. Есть только физический план.

Т.о. пытаются сравнить физический калькулятор с астральным умом, что бессмысленно у них разные возможности и цели.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории