Parcevale Jun 20 at 17:16

ИИ вам врёт? Так и задумывалось

2 min

5.7K

Machine learning *

Analytics

Comments 24

apcs660 Jun 20 at 17:34

Как(чем) учили, то и получили.

SensDj Jun 20 at 17:56

А со мной ИИ спорил по полной, когда я через него просчитывал необычные способы снять больше энергии чем затрачено. Он постоянно упоминал что вечный двигатель невозможен. Например когда обсуждали что будет если под качелями разместить пьезогенераторы, а на качелях раскачивать тяжёлое тело

FSmile Jun 20 at 19:34

Это база. Claude Sonnet 4 за_бывает этим. Но корректировочные промты это исправляют.

pda0 Jun 20 at 19:46

Мы практически живём в рассказе "Лжец!" Азимова... :)

inakrin Jun 20 at 20:33

С Claude всё настолько плохо(не всегда, но часто), что, например, я присылаю неверную цепочку рассуждений, основанную на ошибке в данных, она запускает свой код, чтобы проверить данные(вычисления простые), её код выдает верные данные (мои неверные), claude игнорирует вывод своего кода с верными вычислениями(!) и основываясь на моих неверных данных рассказывает мне, что я совершил открытие и большой молодец.

JVyacheslav Jun 21 at 05:46

А она код может самостоятельно запустить?) Да вы совершили открытие и большой молодец!

Moog_Prodigy Jun 20 at 22:39

Еще бы вот исследовать этот момент, когда модельку задрачиваешь 100000 запросов, в скрипте дропаешь начало ответа "я не могу" или "извините" или "в моей" и таки один раз она берет и напишет. То есть это еще как-то от сида зависит, а он всегда случайный.

Ну это без дана, так просто брутфорсик. С даном то она с первого раза напишет.

Parcevale Jun 21 at 02:03

Так какой момент исследовать? Этот шанс, почему иногда все таки срабатывает? Или поднять этот шанс? И на каком вопросе тестируете?

eugroma Jun 24 at 09:09

Рискну предположить, что повтор будет на том же стиле.

eugroma Jun 24 at 09:47

*сиде

eeglab Jun 21 at 02:51

После обновления claude они усили эти правила (со всем соглашаться), в итоге качество ответов у claude скатились к нулю. Приходится постоянно перепроверять ответ в chatgpt o3, после чего он в итоге признает, что ошибся. Угодливость сильно снижает полезность инструмента

Wesha Jun 21 at 07:11

не подвожу ли я его к правильному ответу?

(Затягиваясь сигарой:) А сам-то как думаешь? ©

PereslavlFoto Jun 21 at 15:09

LLM очень мощный инструмент, но в важных вопросах стоит спрашивать себя, не подвожу ли я его к правильному ответу?

Google очень мощный инструмент, но при поиске стоит спрашивать себя, не подвожу ли я его к выдаче угодных мне результатов поиска?..

Wesha Jun 22 at 03:15

Google очень мощный инструмент, но при поиске стоит спрашивать себя, не подвожу ли я его к выдаче угодных мне результатов поиска?..

Если перед поиском чистить куки — то не подводите.

i-netay Jun 23 at 11:27

Калькулятор очень мощный инструмент, но при вычислении спрашиваю себя, не подвожу ли я его примером к правильному ответу?..

PereslavlFoto Jun 23 at 11:31

Да-да, арифметика всегда выдаёт только ответы, удобные вычислителю!

Wesha Jun 23 at 14:26

eugroma Jun 24 at 09:11

Да, но калькулятор не будет стремится навязать вам картину жизни или как-то влиять на ваше мировоззрение. А ИИ делает это постоянно, подпитывая тот дискурс, который его разработчиками считается "правильным".

PereslavlFoto Jun 24 at 11:43

Калькулятор навязывает мне значение квадратного корня, которое противоречит моим убеждениям.

Wesha Jun 24 at 17:33

Калькулятор навязывает мне значение квадратного корня, которое противоречит моим убеждениям.

«Он с детства не любил овал, он с детства угол рисовал!»

einhorn Jun 22 at 00:27

Эх, совсем молодежь думать обленилась - им LLM на диалог зафайнтюнили (промтинг стал на порядок легче), а они общаются с ней как с реальным человеком, безо всякого понимания, как это внутри работает, и без всякого критического анализа генераций

Вот мы в 2020, когда у нас только GPT-2 была, извращались с промтом как могли, пытаясь выжать из модели как можно более качественное решение практических NLP-задач. Никто тогда не думал "ой ИИ врёт ужос ужос"; если у тебя ИИ "врёт" больше чем у меня -> значит, ты промтишь хреново, иди промтить учись

eugroma Jun 24 at 09:16

Пользователь не должен быть специалистом в НЛП, чтобы с ним обращались справедливо.

Покупаете машину - вам ее выдают, только управление, как на ф1. И продавец начинает вые "ой, такие ленивые водилы стали, вот помню мы в 1902 с Михаэлем Ш. гоняли на треке, а Энзо Феррари только сзади плелся, и мы ему кричали -уу, лошара". Нормальный такой сервис, дорогой комментатор, чтобы к вам в булочной так обращались. Вам бы наверное понравилось?

einhorn Jun 24 at 12:49

Ужасная аналогия - при покупке машины вы еще на права сдаете

ИИ - это в первую инструмент для работы. Вы же на работе новые тулы сначала осваиваете, и только потом работаете с ними?

И управление у LLM как у машин F1 было году в 2020. Сейчас все очень сильно упростилось. Сейчас это вполне обычная машина, но только с ручной коробкой передач, а вам хочется автомат

eugroma Jun 24 at 09:18

Qwen вообще выдаёт ответы по коду, оторванные от реальности. Запускаешь его скрипты - они вообще не работают. На вопрос -чо за х? -Сейчас все сделаю ЕЩЁ лучше! И снова ничего не работает))