Comments 24
Как(чем) учили, то и получили.
А со мной ИИ спорил по полной, когда я через него просчитывал необычные способы снять больше энергии чем затрачено. Он постоянно упоминал что вечный двигатель невозможен. Например когда обсуждали что будет если под качелями разместить пьезогенераторы, а на качелях раскачивать тяжёлое тело
Это база. Claude Sonnet 4 за_бывает этим. Но корректировочные промты это исправляют.
Мы практически живём в рассказе "Лжец!" Азимова... :)
С Claude всё настолько плохо(не всегда, но часто), что, например, я присылаю неверную цепочку рассуждений, основанную на ошибке в данных, она запускает свой код, чтобы проверить данные(вычисления простые), её код выдает верные данные (мои неверные), claude игнорирует вывод своего кода с верными вычислениями(!) и основываясь на моих неверных данных рассказывает мне, что я совершил открытие и большой молодец.
Еще бы вот исследовать этот момент, когда модельку задрачиваешь 100000 запросов, в скрипте дропаешь начало ответа "я не могу" или "извините" или "в моей" и таки один раз она берет и напишет. То есть это еще как-то от сида зависит, а он всегда случайный.
Ну это без дана, так просто брутфорсик. С даном то она с первого раза напишет.
После обновления claude они усили эти правила (со всем соглашаться), в итоге качество ответов у claude скатились к нулю. Приходится постоянно перепроверять ответ в chatgpt o3, после чего он в итоге признает, что ошибся. Угодливость сильно снижает полезность инструмента
LLM очень мощный инструмент, но в важных вопросах стоит спрашивать себя, не подвожу ли я его к правильному ответу?
Google очень мощный инструмент, но при поиске стоит спрашивать себя, не подвожу ли я его к выдаче угодных мне результатов поиска?..
Google очень мощный инструмент, но при поиске стоит спрашивать себя, не подвожу ли я его к выдаче угодных мне результатов поиска?..
Если перед поиском чистить куки — то не подводите.
Калькулятор очень мощный инструмент, но при вычислении спрашиваю себя, не подвожу ли я его примером к правильному ответу?..
Да-да, арифметика всегда выдаёт только ответы, удобные вычислителю!
Да, но калькулятор не будет стремится навязать вам картину жизни или как-то влиять на ваше мировоззрение. А ИИ делает это постоянно, подпитывая тот дискурс, который его разработчиками считается "правильным".
Эх, совсем молодежь думать обленилась - им LLM на диалог зафайнтюнили (промтинг стал на порядок легче), а они общаются с ней как с реальным человеком, безо всякого понимания, как это внутри работает, и без всякого критического анализа генераций
Вот мы в 2020, когда у нас только GPT-2 была, извращались с промтом как могли, пытаясь выжать из модели как можно более качественное решение практических NLP-задач. Никто тогда не думал "ой ИИ врёт ужос ужос"; если у тебя ИИ "врёт" больше чем у меня -> значит, ты промтишь хреново, иди промтить учись
Пользователь не должен быть специалистом в НЛП, чтобы с ним обращались справедливо.
Покупаете машину - вам ее выдают, только управление, как на ф1. И продавец начинает вые "ой, такие ленивые водилы стали, вот помню мы в 1902 с Михаэлем Ш. гоняли на треке, а Энзо Феррари только сзади плелся, и мы ему кричали -уу, лошара". Нормальный такой сервис, дорогой комментатор, чтобы к вам в булочной так обращались. Вам бы наверное понравилось?
Ужасная аналогия - при покупке машины вы еще на права сдаете
ИИ - это в первую инструмент для работы. Вы же на работе новые тулы сначала осваиваете, и только потом работаете с ними?
И управление у LLM как у машин F1 было году в 2020. Сейчас все очень сильно упростилось. Сейчас это вполне обычная машина, но только с ручной коробкой передач, а вам хочется автомат
Qwen вообще выдаёт ответы по коду, оторванные от реальности. Запускаешь его скрипты - они вообще не работают. На вопрос -чо за х? -Сейчас все сделаю ЕЩЁ лучше! И снова ничего не работает))
ИИ вам врёт? Так и задумывалось