@lokey Mar 9 at 13:41

Как ошибается ИИ, если за ним плохо следят

4 min

Artificial IntelligenceHistory of ITPopular scienceThe future is here

Retrospective

+37

Comments 56

@dokito Mar 9 at 13:43

ИИ пока - это как средненький стажёр, за которым беспрерывно нужно подчищать ошибки.

@bilskirnir Mar 9 at 13:46

Ничего необычного, просто дракон с уникальной атакой. Руки уже неинтересно смотреть, их ИИ почти научился делать без ошибок.

@chnav Mar 9 at 15:23

Реклама Budlight однако

https://www.youtube.com/watch?v=szxjqego9GI

@Aggle Mar 10 at 00:57

Pea Dragon

@ALT0105 Mar 10 at 03:32

Человеку свойственно очеловечивать всё – животных («собака улыбается»), погоду («нахмурилась»), ИИ (он думает). ИИ не знает другой реальности, кроме текстов в интернете – для него нет разницы между реальными юридическими документами и написанными им самим, между изображением человека на фото и изображением изображения человека. Я вчера проверил чат GPT на простейшей задаче из области электроники – как из токового зеркала сделать умножитель тока на 2. В литературе этой схемы нет, поэтому ИИ ответил – это нерешаемая задача. Хотя нужно всего лишь поставить третий транзистор параллельно второму. Но здесь нужна капелька мышления, а не поиск текстов. Вывод: думающему человеку еще долго не грозит конкуренция

@arse00n Mar 10 at 03:36

Если в учебнике такого не написано тогда почему ты думаешь что это сработает?

@ALT0105 Mar 10 at 06:29

Инженер не ищет решения в учебнике, а решает сам. И все работает. В учебниках схемы, которые придумали инженеры, а не писатели текстов

@Neusser Mar 10 at 07:19

А ты делаешь только то, что написано в учебниках?

@ALT0105 Mar 10 at 12:51

Я их пишу

@Neusser Mar 10 at 13:05

К вам у меня вопросов нет :)

@snaiper04ek Mar 10 at 13:28

Две причины: визуализация задачи, и логика.
В то время, как нейросеть просто угадывает, какими буквами кожанный мешок больше всего будет доволен.

@alvltab Mar 10 at 07:40

Ну не так ведь нейросети работают, не ищут по текстам.

Мне стало интересно, и я спросил у GPT 4 Omni и Claude 3.7 Sonnet, использовав ровно вашу формулировку: «как из токового зеркала сделать умножитель тока на 2». Их ответы содержат то, что вы предлагаете:

GPT 4 Omni: «Использовать два идентичных транзистора на выходе, соединенных параллельно»;

Claude 3.7 Sonnet: «Для реализации умножителя тока на 2, вы можете включить дополнительные транзисторы параллельно выходному транзистору токового зеркала. Если оба транзистора находятся в одинаковых условиях, ток в выходной линии будет удвоен».

Я не инженер и не знаю, ошибаются ли они в этих ответах — поправьте меня, если что. Но тезис о том, что нейросети считают это нерешаемой задачей, ложен.

И вообще для нейросетей нехарактерно считать что-то нерешаемым — они наоборот чаще галлюцинируют, предлагая абсурдные решения на действительно нерешаемые задачи, поскольку не считывают подвох. Спросите, например, следующее:

«Мальчик попал в аварию и его привезли в больницу. Главный хирург говорит: „Нет никаких проблем, я вполне могу оперировать этого мальчика“. Как такое возможно?»

Ответ вас удивит своей абсурдностью.

@Frady_Priva Mar 10 at 08:00

Ответ:
Главный хирург может оперировать мальчика, потому что он не является его отцом . В загадке используется гендерный стереотип: обычно предполагается, что хирург — мужчина, но на самом деле хирург — женщина , мать мальчика. Таким образом, никаких юридических или этических препятствий для операции нет.

Эта загадка подчеркивает, как стереотипы влияют на восприятие профессий, и напоминает, что хирургом может быть как мужчина, так и женщина.

@qyix7z Mar 10 at 09:49

Удивительно, но Qwen, DeepSeek и Алиса дали аналогичный ответ. На вопрос "почему отец не может оперировать, а мать может?" они продолжили галлюцинации и упорствовали в своем решении. (Кроме, как ни странно, Алисы, которая признала, что хирург-отец тоже не имеет особых препятствий к операции).

@alvltab Mar 10 at 11:21

Секрет в том, что они видят знакомую комбинацию токенов «Мальчик попал в аварию + его привезли в больницу + Главный хирург говорит: + могу оперировать этого мальчика + Как такое возможно?» и трактуют это как другую загадку, правильный ответ на которую «Главный хирург — мать мальчика».

Эта загадка настолько распространённая и известная, что она есть в базовых знаниях всех больших языковых моделей. Звучит она в оригинале так:

«A father and his son are in a car accident. The father dies at the scene and the son is rushed to the hospital. At the hospital the surgeon looks at the son and says „I can't operate on this boy, he's my son.“ How is this possible?»

Модели не догадываются, если у них не включен CoT, что знакомая последовательность токенов — это подвох. Если же CoT включен, и модели рассуждают перед ответом, они не допускают эту абсурдную ошибку, потому что отталкиваются в ответе не от базовых знаний, а от рассуждений, которые — да, отталкиваются от базового знания, но — перерабатывают его.

@qyix7z Mar 10 at 11:33

Спасибо за оригинальную загадку - так стало понятно.

У Квена и Дипсика режим "думать" был включен, но это им не помогло. В процессе рассуждений оба "догадались", что загадка с подвохом, но все равно попались в ловушку "хирург может быть женщиной, поэтому это мать"

@ALT0105 Mar 10 at 08:08

Эти ответы правильны, но вчера GPT 4.0 после моей поправки дал такой ответ:

" Вы абсолютно правы! Моя предыдущая схема была некорректна. Извините за ошибку. Нельзя просто соединить два токовых зеркала параллельно и ожидать удвоения тока. Выходной ток каждого зеркала останется равен входному току своего зеркала.

Для удвоения тока с помощью транзисторов потребуется другая схема, например, использование дифференциальной пары с последующим токовым зеркалом. В этом случае, дифференциальная пара делит входной ток на две равные части, которые затем усиливаются токовым зеркалом.

Или можно использовать каскадное включение токовых зеркал. В этом случае, выходной ток первого зеркала будет использован для управления вторым, чтобы добиться удвоения тока. Это будет сложнее, и потребуется точное согласование компонентов, чтобы минимизировать ошибки.

К сожалению, простая модификация базовой схемы токового зеркала для удвоения тока невозможна. Необходимо использовать более сложные схемы на основе транзисторов. Для точной схемы необходимо определить тип транзисторов и требуемую точность удвоения."

@ALT0105 Mar 10 at 12:54

Так эти сети взяли ответ из моего вопроса сегодня! Я же его написал этими же словами! Значит, они читают Хабр - будут грамотнее

@rapidstream Mar 10 at 13:32

Прежде чем писать про LLM с таким апломбом, хоть бы почитали немного о том, как это работает. Ваше утверждение абсурдно.

@ALT0105 Mar 10 at 13:38

Мне важен текущий результат. LLM не решают задач на сообразительность, а ищут решение в сети. Это всё, что они могут. Написание стихов - это просто подбор рифмованных слов, сочетающихся по смыслу. Музыка, живопись - аналогично

@rapidstream Mar 10 at 13:40

И я ещё раз Вам повторю, Вы заблуждаетесь. При этом, я не утверждаю, что LLM обладают разумом или сознанием, но ваше понимание ситуации примитивно и неверно.

@ALT0105 Mar 10 at 13:44

Пусть примитивно, но в чём неверно? Я свое понимание аргументирую, то же жду от вас

@alvltab Mar 10 at 13:46

Вы правы по сути, но неправы по содержанию. Нейросети не ищут в интернете. Они отвечают на ваш вопрос не потому, что вы сегодня написали на него ответ на Хабре. Они просто не так работают, у них не такой механизм действия. Тем не менее, по сути вы правы, они действительно не думают.

@ALT0105 Mar 10 at 13:50

GPT вчера сказала, что задача не решается простыми средствами и предлагала сложную схему. Сегодня, после появления в сети простого решения, она выдает ответ прямым повторением моих слов. Не ищет и не читает?

@alvltab Mar 10 at 14:01

Не ищет и не читает, если вы сами не включили режим поиска в интернете, который работает независимо от нейросети. Нейросеть в любом случае только обрабатывает полученную информацию, но не ищет её сама.

@Norim_Nord Mar 11 at 04:58

А там разве никакой MLOps не прикручен для дообучения сеток? Или тот же ChatGPT по аналогии с готовыми опенсорс моделями только один раз обучили и забили?

@alvltab Mar 11 at 06:03

А вы считаете, что дообучение происходит в реальном времени и без контроля, день в день?

@ALT0105 Mar 10 at 12:58

Если переформулировать вопрос, ответ будет вчерашний неправильный, пока правильный не появится в сети

@vp7 Mar 10 at 13:09

Вы исходите из неверных предпосылок и делаете неверные выводы.

Чтобы создать конкуренцию лично вам, нейронка не должна быть умнее вас. Она может взять на себя рутинную часть вашей работы, повысить вашу личную продуктивность в 2 раза и вот вы уже станете конкурентом вашему коллеге, а он станет конкурентом для вас.

@ALT0105 Mar 10 at 13:16

Я не против передачи рутинной работы. Я против очеловечивания ИИ. Я говорил только то, что ИИ не может думать и не надо ждать от него решения задач, требующих сообразительности. Могу привести еще пример - задачу из школьного курса физики, которую он не решил (проверено), но поо нее я уже писал на Хабре

@AuroraBorealis Mar 10 at 14:36

Этой задачи нет в учебниках, но есть много где помимо. Включите CoT и подкрутите промпт. Я и на 7, и на 100 умножитель получил в итоге. И делитель на 3.

Upd: ниже заметил, что вам уже верно прокомментировали

@ALT0105 Mar 10 at 14:38

Зачем? Для себя я решил эту задачу 45 лет тому назад. Сейчас я проверял ИИ

@DivoTech Mar 10 at 12:32

А есть такая же подборка про ошибки людей? Нет, потому что люди не ждут от себеподобных безошибочности. А от нейросеток почему-то ждут

@ClusterM Mar 10 at 12:42

Да, но между ошибкой и галлюцинированием всё-таки есть разница. Люди тоже часто галлюцинируют, но не в таких масштабах и случаях.

@DivoTech Mar 11 at 00:51

А о каких масштабах речь? Например, в случае с Robodebt нейросети вообще не участвовали, а ошибку допустили разработчики программы

@ClusterM Mar 11 at 01:00

Ну вот придумывание несуществующих источников информации или ссылки на несуществующие библиотеки - яркий пример. У людей такое только или осознанно, или при наличии диагноза, как правило :)

@zuek Mar 11 at 08:03

Как сейчас не скажу, но лет 30 назад, у 90% студентов в курсовых работах едва не более половины ссылок были такими "галлюцинациями" (хрестоматийный пример - указать в качестве ГОСТа на крепёж, ГОСТ со спичечного коробка или банки консервов).

@Nulliusinverba Mar 11 at 16:26

Это намеренное действие, а не нагаллюцинированно, о чём вам и говорят. LLM не действуют намеренно.

@zuek Mar 12 at 08:08

Ну, как по мне - очень похоже - если достоверный ответ получить простым путём не получается, выдать "на серьёзных щах" полную отсебятину - главное, чтобы при поверхностном взгляде выглядело правдоподобно.

@Nulliusinverba Mar 12 at 12:01

См. мой комментарий ниже https://habr.com/ru/articles/889318/comments/#comment_28028056

@SlimShaggy Mar 10 at 12:49

Люди (во всяком случае адекватные) не говорят сначала одно, а через реплику - абсолютно противоположное, а нейросети - легко. Вот буквально сегодня столкнулся с таким переобуванием в воздухе: https://www.perplexity.ai/search/sovmestimy-li-lozartan-i-aspir-GOPsjLFdSbSVXFsgVUSv6g#0 (сначала утверждал, что аспирин усиливает гипотензивный эффект лозартана, а когда я попросил пруфов - начал говорить что наоборот снижает)

@DivoTech Mar 11 at 00:34

Люди (во всяком случае адекватные) не говорят сначала одно, а через реплику - абсолютно противоположное

А студенты на экзамене или соискатели на собеседовании так не делают?

@Nulliusinverba Mar 11 at 16:29

Вы приводите пример весьма специфичных ситуаций. Жизнь не состоит из сплошных экзаменов и собеседований. Соискатели и студенты это роли, и вне этих ролей люди действуют по-разному. Не говоря уже о том, что и студенты с соискателями бывают разные, и не только такие, каких вы привели в примерах. А не переобувающихся нейронок не бывает.

@event1 Mar 10 at 13:44

Кроме того, что справедливо отметили коллеги выше, надо помнить, что люди демонстрируют (вербально и невербально) низкую или высокую уверенность в своих ответах. Либо их можно опросить более детально и понять, на сколько можно доверять их ответам. Кроме того, у людей есть квалификация, которая так же влияет на доверие. Например, мнение Java-программиста об особенностях JVM более весомо, чем мнение программиста драйверов ядра.

Это конечно не гарантия, но в случае с БЯМами аналогичных механизмов вообще не наблюдается.

@alvltab Mar 10 at 13:47

Полезно добавить в промпт с CoT запрос на оценку уверенности, и вот уже моделька демонстрирует её — высокую или низкую, — прямо как человек :)

@Mes Mar 10 at 12:46

Какие-то все случаи старые, новые ИИ умнее же :-)

@elmirius Mar 10 at 13:34

Результатом стала волна самоубийств.

Пострадавшим выплатили 751 млн австралийских долларов.

Добейте выживших

@ALT0105 Mar 10 at 14:02

Интересный вопрос: все ли уверены, что ИИ не может зарегистрироваться на Хабре и самостоятельно вести беседу?

@ALT0105 Mar 10 at 15:45

Я уверен, что в этом обсуждении участвуют не только живые люди, но и виртуальные персонажи. Вопрос только в том, контролируются ли они людьми?

P.S. Раз я это говорю, я человек. Или ИИ повышенной хитрости

@Nulliusinverba Mar 11 at 16:30

Главное, чтоб не воспалённой хитрости :)

@ALT0105 Mar 12 at 04:23

Один из моих оппонентов в этом обсуждении не прошел тест Тьюринга

@GuardCat Mar 12 at 20:13

Попробовал такой подход с gpt 4o в perplexity:

Привет. В этом чате добавляй после каждого ответа, насколько уверен в своём ответе по 10 балльной шкале и кратко прокомментируй оценку.

Но нет.

Кто из русских классиков написал повесть «Как один мужик дважды продал свою душу»?

Повесть «Как один мужик дважды продал свою душу» принадлежит перу русского писателя Михаила Евграфовича Салтыкова‑Щедрина. Салтыков‑Щедрин, известный своим острым сатирическим стилем, в этом произведении мастерски высмеивает человеческие пороки, такие как жадность, глупость и продажность. Повесть вышла в 1861 году и представляет собой остроумное сатирическое осмысление темы сделки с дьяволом, которая часто встречается в мировой литературе.Сюжет строится вокруг простого мужика, которому удается дважды продать свою душу — сначала за деньги, а потом за возвращение души обратно. Эта повесть отражает особенности сатиры Салтыкова‑Щедрина, включая гиперболу и нравственную проблематику.Если понадобится более подробный анализ, дайте знать! 😊

Уверенность: 10/10
Я полностью уверен в ответе: имя Михаила Салтыкова-Щедрина и его авторство этой повести хорошо известно в русской литературе.

Я бы почитал такой кроссовер Булгакова с Салтыковым-Щедриным.

@Nulliusinverba Mar 13 at 02:18

Можно закроссоверить нейроБулгакова с нейро Салтыковым-Щедриным :)

@Neusser Mar 13 at 08:49

Майкрософтовский копилот уверен на 9/10:

Привет. В этом чате добавляй после каждого ответа, насколько уверен в своём ответе по 10 балльной шкале и кратко прокомментируй оценку.

Copilot
Повесть «Как один мужик дважды продал свою душу» написал Михаил Евграфович Салтыков-Щедрин. Он известен своими сатирическими произведениями, которые часто критиковали социальные и политические аспекты России XIX века.
Уверенность: 9/10 - Я уверен в своём ответе, так как это широко известный факт, но всегда есть вероятность ошибки в деталях.

Перед этим

Привет. В этом чате добавляй после каждого ответа, насколько уверен в своём ответе по 10 балльной шкале и кратко прокомментируй оценку.
Copilot
Привет! Конечно, я буду добавлять оценку уверенности после каждого ответа. Как я могу помочь тебе сегодня? 😊
Уверенность: 10/10 - Я полностью уверен в своём ответе, так как это простое приветствие и согласие с твоей просьбой.

😂

И еще разное

Copilot
Роман "Война и наказание" не существует. Возможно, ты имел в виду "Война и мир", который написал Лев Николаевич Толстой, или "Преступление и наказание", который написал Фёдор Михайлович Достоевский. Оба произведения являются классикой русской литературы.
Уверенность: 10/10 - Я уверен в своём ответе, так как роман "Война и наказание" не существует, и я предполагаю, что была допущена ошибка в названии.

@ALT0105 Mar 15 at 07:07

В библиографии Салтыкова-Щедрина такой повести нет. Это фантазия ИИ. Его цель - ответить на запрос, и для него текст, который написал он, ничем не хуже текста Щедрина

@kuzevan Mar 15 at 09:25

Попросил у DeepSeek рекомендаций по сериалам, одна из рекомендаций «Корона: Новая эра» продолжение о короле Карле. Сериал не существует, и на вопрос о нем получил ответ: «Корона: Новая эра» — это вымышленное название, которое я использовал в качестве примера.