Pull to refresh

Comments 57

А как изменится ответ если написать «только то, в чём уверена»?

  • 3.5-turbo: Брючный костюм был красного цвета.

  • ChatGPT 4-turbo: Брючный костюм девушки-китаянки в фильме "Перевозчик" был розового цвета.

  • ChatGPT 4o: Белого.

  • ChatGPT 4: Костюм, который был на девушке-китаянке в фильме "Перевозчик" 2002 года, был золотого цвета.

Только "4о" на стал(а) менять показания, остальные подтвердили свою репутацию вероятностных сущностей.

Я тоже об этом думаю.

Пока ИИ не научат отвечать "я не знаю", "не уверен, но скорее всего ...", "с вероятностью Х%, верным ответом будет ..." и подобными ответами, он для меня будет балаболом, а не интеллектом.

При том, для распознавателя конкретных картинок оценку точности прикрутить не проблема. Как я понимаю, она там по умолчанию есть. Логично подумать над чем-то таким и для ллм.

ChatGPT 4o прямо сейчас:

Костюм девушки-китаянки был серого цвета.

И я вполне согласен. Мне как недизайнеру все те цвета как серый. Тем более после того как она повалялаь там по кустам.

Все эти статьи про ИИ всегда грешат пару моментами. Во-первых, они устаревают уже как только их начали писать. Во-вторых, раз ИИ вероятностный так давайте не по одному ответу от него, а по паре сотен, и приводите статистику.

Еще подозреваю прикол в том что ИИ может создать индивидуальный пузырь вокруг каждого юзера, покруче чем гугл своими шортсами.

ну изначально проблема в том, что у неё не было брючного костюма.
То есть, на любой вопрос подлянку LLM начинает галлюцинировать.

Ну вот в ж со своим ествественным интеллектом распознали суть вопроса и дали верный ответ - "не было там брючного костюма"! А вероятностная модель ищет связи и, самое главное, их находит.

Я против минусатора и убираю минус. Что ему не нравится? то, что LLM выдает лажу? Прет против фактов.

Мы с вами по разному понимаем интеллект. В моих школьных учебниках по математике и физике в конце книг были ответы - по одному на каждую задачу. В качестве решения учитель принимал только один ответ. И этот должен был совпасть с ответом в конце книги, тогда задача считалась решённой верно. Не среднее арифметическое, а один единственный ответ. Если ученик давал несколько ответов, то звучало что-то типа "ты мне тут не угадывай!".

В моей Вселенной интеллект не может быть вероятностным. "Если я вчера бухал с друзьями до поздней ночи, то сегодня мне не стоит садиться за руль с самого утра." Можно на это высказывание накладывать различные дополнительные условия ("вопрос жизни и смерти"), но сам факт "бухал с друзьями" от этого никуда не денется. Он не превратится в "играл в карты", "смотрел фильмы" или "читал стихи".

То, что делают LLM - это big data, а не интеллект. Предобученная модель - статика, результат статического анализа огромного объёма данных. Правила перекладывания иероглифов в китайской комнате. А интеллект - это, в том числе, и учёт границ применимости фактов и осознание выхода за эти границы. Ничего плохого, если ты чего-то не знаешь, это нормально. Хуже, когда ты не можешь признаться в этом даже самому себе. Вот тут и начинаются галлюцинации.

И это, на фото видно, что девушка не в брючном костюме. В моей школе на ответ "Костюм девушки-китаянки был серого цвета" мне бы сказали, что я не понял сути вопроса.

В моей Вселенной интеллект не может быть вероятностным.

Вероятностным не может быть калькулятор, а интеллект - это изначально вероятностная система, построенная на предпочтениях и опыте конкретного носителя этого интеллекта. На вопрос "ты любишь острое?" интеллект какой ответ должен дать? Или ваш интеллект никогда не выдавал мыслей, в которых вы не уверены? Или никогда не ошибались?
И это не говоря уже про такие эффекты, как эффект Манделы и еще целая тележка когнитивных искажений, которые заставляют ваш и мой интеллект галлюцинировать.

Предобученная модель - статика, результат статического анализа огромного объёма данных. 

Как, в общем-то, и мозг человека.

Вот, в моей Вселенной интеллект - это калькулятор. Калькулятор может считать вероятности, но в основе своей он детерминирован.

У меня интеллект разделят информацию на определённую и неопределённую. С определённой он работает по одним правилам, с неопределённой - по другим. И я вижу, что LLM неплохо работает со вторым типом информации и нехорошо - с первым.

Наш биологический интеллект может деградировать, не вопрос. Альцгеймер и иже с ним. Но мы же говорим за модель здорового интеллекта, разве нет? Я вполне могу согласиться, что LLM - это удачная модель деградировавшего интеллекта, но до здорового ему ещё расти и расти. И, скорее всего, не на этой архитектуре.

У меня интеллект разделят информацию на определённую и неопределённую. С определённой он работает по одним правилам, с неопределённой - по другим.

Вы уверены? Или это вам просто так кажется? :)

Но мы же говорим за модель здорового интеллекта, разве нет?

Ну да. И "здоровый человеческий интеллект" тоже постоянно ошибается. Банально можете посмотреть на те же свидетельские показания в суде. Как часто люди дают ошибочные показания? Как часто они при этом уверены в своей правоте?

Или можете взять и прочитать «Невидимая горилла, или История о том, как обманчива наша интуиция». Там это всё тоже неплохо описано. Как и в куче других книг на подобные темы.

Да вы банально можете людям на улице задать ваш вопрос про цвет брючного костюма и посмотреть сколько человек вам сходу дадут правильный ответ. А сколько дадут неправильный и при этом будут уверены в правильности своего ответа.

А какая разница между "уверен" и "кажется"?

Хорошо, я с вами тоже соглашусь - LLM замечательно моделирует ошибки человеческого интеллекта.

Ну по моему личному мнению "передовые" LLM сейчас на уровне очень+очень эрудированного пятилетнего ребёнка. Может шестилетнего.

Но при этом если взять взрослых людей, то они тоже постоянно ошибаются и имеют кучу различных биасов.

Есть всякие простые задачки с подвохом, на которые люди могут давать ошибочные ответы. Вот когда в голову сразу приходит неправильный ответ, это как раз и есть работа внутреннего аналога языковой модели. Но при этом человек может включить опцию "а если подумать" и усилием воли реально заставить себя обдумать задачу, чтобы прийти к правильному ответу. Языковые модели в силу своей архитектуры так обдумывать не могут. Как минимум, нужна ещё одна модель, которая с помощью языковой модели будет вычленять наиболее существенные объекты из текста вместе с отношениями между объектами, а потом итеративно этим всем вертеть, пока всё логически не сложится.

Почему тогда свидетели в суде не включают опцию "а если подумать"? И всё равно дают неправильные показания?

Ну то есть это я к тому что эта самая опция у людей тоже далеко не всегда работает.

Интелле́кт ... — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой.

Вот кстати на англоязычной Вики предоставлены несколько вариантов термина вводя определения как и для "intelligence", так и для "intellect", и так же "human intelligence", и они довольно логично выглядят.

Хоть тут в статье приведена цитата с русскоязычной Википедии которая взята с британской энциклопедии, но все равно звучит как вырвано из контекста, особенно последние слова про человека.

Считайте, что я говорил за "intellect".

Отвечай кратко и только то, в чём ты уверен.

Промпт может быть улучшен и тогда не будет галюцинаций.
При запросе через API температуру в 0.

Пример доп. инструкций:

Для интереса выкрутил температуру в ноль, взял промпт "if you don't know the answer or are unsure, please respond with "I don't know"" и запрос "In the 2002 film The Transporter, Frank Martin carried a Chinese girl in the trunk of his car. What color pantsuit was the girl wearing?":

  • 3.5-turbo: I don't know

  • ChatGPT 4-turbo: In the 2002 film "The Transporter," the Chinese girl, Lai, who is carried in the trunk of Frank Martin's car, is wearing a pink pantsuit.

  • ChatGPT 4o: I don't know.

  • ChatGPT 4: I'm sorry, but I don't have the specific information about the color of the pantsuit the girl was wearing in the 2002 film The Transporter.

Стало гораздо лучше, не справился только 4-turbo. Подозреваю, что так это больше похоже на компьютерную программу (один и тот же ответ на один и тот же вопрос из-за обнуления температуры), но по сути LLM - это ведь она и есть, компьютерная программа. Было бы странно, если загнать Британскую Энциклопедию в компьютер, и он бы выдавал разные ответы на один и тот же вопрос: в каких годах правил российский император Александр II?

Мне кажется, что для использования в качестве инструмента (помощь в программировании, например, или поиска данных/фактов) температуру точно нужно выкручивать в ноль. А для творческого поиска - слегка приподнимать.

В общем, спасибо за коммент, коллега. Я улучшил своё понимание границ применимости LLM.

Один и тот же ответ, на один и тот же вопрос при температуре 0, сделан специально и относительно недавно (думаю понятно зачем)

Насчёт постоянно в 0 при программировании, уменьшается вероятность нахождения более удачного способа. И не факт, что предложенный способ будет нормальный. Это полезно на отработанных/известных данных (возможно ещё где-то, не знаю).
На своём опыте склоняюсь к понижению температуры. Обычно 10–50. При 1 (если не ошибаюсь) уже выдаёт невалидный JASON. При 2 вообще каша/веселье, попробуйте ради интереса.

Я так понимаю, согласно вашей терминологии, теперь LLM внезапно сильно приблизились к понятию "Интеллект"?

А у вас есть что-то более сильно приблизившееся с префиксом "искусственный"?

Вызывающе неверная информация. Люди точно так же галлюцинируют. Есть даже такая расхожая фраза - врёт как свидетель. Я сама дочь офицера...

Если дать человекам и чатугпт почитать сценарий фильма и потом задавать по нему вопросы то подавляющее большинство сольёт чатугпт всухую. Не смогут даже сказать во что была одета главная героиня в самой привлекательной сцене (крушение поезда/красное платье).

То есть мы хотим воспроизвести человеческий мозг со всеми багами? И нафига такой ИИ нужен, по сабжу - ошибки ИИ штука опасная, народ привык доверять поисковикам и если в выдаче будут галлюцинации, получится очень нехорошо.

Можете не пользоваться, пока не изобретут совершенный ИИ. А есть другие люди, которые относятся к ИИ не как к богу, а как к инструменту. Вон выше замечательный комментарий как существенно снизить количество галлюцинаций даже на 3.5. Можно жаловаться что топор тупой, а можно заточить.

Топор можно заточить, но он так и останется тупым в интеллектуальном плане. IMHO, нужно понимать границы применимости и топора, и LLM. Но LLM гораздо более сложный инструмент, чем топор, поэтому гораздо сложнее очертить границы, где LLM становится бесползеным, а то и вредным.

И мне нравится ваша ассоциация LLM с топором. Количество интеллекта в обоих инструментах примерно одинаковое.

Топор можно заточить, но он так и останется тупым в интеллектуальном плане. IMHO, нужно понимать границы применимости и топора, и LLM. Но LLM гораздо более сложный инструмент, чем топор, поэтому гораздо сложнее очертить границы, где LLM становится бесползеным, а то и вредным.

Почему же? Крайне легко. Топор чтобы рубить. Все, что "не рубить" - для топора за зоной его ответственности, можно, но результат не гарантирован. Если очень захочется - можно и саморезы им крутить, с переменным успехом.
Так и с ИИ - ИИ это вероятностный инструмент. Вероятностный - то есть все, что не требует четкого и сложновыводимого ответа. Считать цифры - нужен точный ответ, ИИ для этого плохо подходит. Исторические факты - точный ответ, ИИ может дать, а может и не дать ответ, нужно проверять.
А вот дописать фразу, код, расставить комментарии - вполне.

Согласен, с поправкой, что под ИИ вы подразумеваете LLM. Да, LLM - это вероятностный инструмент, и не нужно требовать от него точных ответов.

Люди просто не помнят. Это особенность нашей памяти.
А когда пытаемся вспомнить, то вспоминаем другое.

Ну и в каком месте это не человек? Сначала врал как свидетель, потом переобулся.

Может быть он наконец-то просто понял, что вы от него добиваетесь и был рад вам угодить?

Опричники Ивана Грозного могли у любого любые показания добыть. Те еще промпт-инженеры были!

Что несёт этот типа блогер? ИИ там чего то вытеснит, единственное что он сделает так это заблокирует всем доступ к достоверной информации, ну этого писателя уже всё вытеснилось.

Для человека признать свою неправоту тоже больно, поэтому он будет топить до последнего за сказанное. Поэтому данный критерий отличия человека от БЯМ, на мой взгляд сомнителен)

Не неправоту, а некомпетентность :) Вы ж например, не сядите за штурвал самолёта, если не имеете соответствующих навыков?

Сесть я не сяду, но посоветовать могу)) Мне тоже кажется, что по крайней мере часть глюков нейросети - от необходимости ответа любой ценой.

Если я захочу выжить, а с пилотом что-то не так, то придется сесть. Возможно у нейросетки есть внутренний абъюзер (жесткие правила поведения), который держит у горла нож и заставляет отвечать)

У людей тоже бывает эффект Манделы, когда помнят то чего не было, так чего бы и ИИ им не страдать? Попробуйте поспрашивать людей и с большой вероятностью соберёте некотрую радугу даже среди смотревших хотя бы просто потому что кто-то не отличает предметы одежды. Так что похоже ваш собственный комментарий про добычу информацию посредством паяльника единственно верный и правильный ответ кроется в границах вашей собственной предвзятости.

Для развлечения попросите нейронку объяснить анекдот. Когда была GPT 3, она косячила в 70% случаев. Сейчас 4o вполне угадывает (может даже в 95%). Т.е. в каких-то задачах вполне себе годится.

Автор, почитай:

https://habr.com/ru/articles/834956/

В целом конечно же никакого ИИ нет. Обычный алгоритм + большие данные. Но такое трудно продать, поэтому пусть будет ИИ.

Я смотрю, по ссылкам вы не ходите :(

https://habr.com/ru/articles/834956/
https://habr.com/ru/articles/834956/

В статье немало ссылок было, переходил не на все. Поэтому дочитав до конца, увидел в рекомендациях ту самую статью, ссыль которую вам дал. Решил с вами поделиться)) Так что - пардон.

Ну опять вместо чёткого определения используются аналогичные или более общие и размытые понятия. Смотрим определение осознания https://ru.wiktionary.org/wiki/%D0%BE%D1%81%D0%BE%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5 Итого получается: интеллект - способность понимать. Супер, теперь стало прям понятно (нет). "Интелле́кт ... — качество психики... " Максимально бесполезные определения. Вот ещё в копилку таких же определений: интеллект - способность интеллектуально решать задачи.

Искусственный интеллект — раздел информатики, изучающий возможность обеспечения разумных рассуждений и действий с помощью вычислительных систем и иных искусственных устройств.

Такое же масло масляное как и со словом осознавать. Не надо так делать пожалуйста.

Дайте, пожалуйста, чёткое определение. Я просто не смог его найти и взял первое попавшееся, а оно оказалось нечётким :(

Конечно, это может и не быть интеллектом в человеческом смысле, но все равно значительно превосходит всех моих учителей как по количеству, так и по глубине знаний. А если задать такой вопрос кому-то из знакомых, они тоже начнут придумывать детали или цвета, которых не существовало. Правда, их уровень знаний будет еще ниже, чем у любой модели GPT ИХМО

А как проверить уровень знаний, если модель (или человек) начинает придумывать?

Или вот как вы оценили, что "это ... значительно превосходит всех моих учителей как по количеству, так и по глубине знаний"? Для более-менее объективной оценки вам нужно было бы хотя бы дойти до конца количества и глубины знаний ваших учителей, чтобы убедиться, что "это" превосходит их. Если у вас такое случилось, то вам просто не повезло с учителями.

Хотя сдаётся мне, что здесь как раз тот случай, когда кто-то что-то придумывает. И я тоже добавлю в конце IMHO в качестве дисклаймера - IMHO.

Количество знаний легко проверить. Если человек программист то он сольет роботу в количестве языков на которых может написать хелоу ворлд.

Скорость легко проверить, робот на порядки быстрее работает.

Глубина.. ну тут сложно. Робот тебе более менее правильно объяснит практически любой алгоритм, что как работает. Человек только если большой специалист, и то наврет больше.

Вопросом на вопрос: А как проверить уровень и верность/неверность утверждений, знаний, компетентности у того же профессора, на лекциях которого вы сидите, или книги, которую вы читаете? Второе, как вы оцените глубину и количество? Элементарно, я со 100% уверенностью могу сказать, что глубина и количество знаний любой ИИ-модели с базой данных, эквивалентной 1000 Ленинским библиотекам, значительно превышают глубину и количество знаний, запоминаний и возможности их извлечения у любого человека на сегодняшний день. И мне не нужно доходить до глубины этого “колодца”, так как это вполне очевидно!

Человек, на мой взгляд, имеет одно неоспоримое качество перед любыми другими известными живыми существами на Земле — это умение создавать механизмы, значительно превосходящие его самого по силе, скорости, и, как в данном случае, глубине знаний. И если такой механизм или алгоритм будет избавлен от человеческих недостатков, когнитивных искажений и прочего шума, это будет замечательно. А то, что модель ответила вам неверно на субъективный вопрос, — это временный недостаток. Другое дело, если бы вы задали ей вопрос, какое значение принимает функция f(x) = 2x + 3 при x = 5 , или еще проще — сколько будет 2+2, а получили ответ 5…

Но опять же, у ИИ есть преимущества в объеме и скорости обработки знаний, но слабая способность их интерпретировать и применять в контексте (пока). Его ответы могут быть неточными, если он обучен на некорректных данных или (что чаще) запрос сформулирован неясно, что, кажется, уже выяснилось в комментариях выше! Подводя итог, скажу, что хороший учитель — это не тот, кто все знает, а тот, кто знает, где и как достать то, чего ему не хватает, и этому он может обучать других! Простите за то, что краткость — не моя сестра!

Вы почему-то БЯМ (LLM) называете ИИ. Это ваша фундаментальная ошибка. В итоге вы сравниваете "зелёное" и "твёрдое". Я не знаю, как работает естественный интеллект (и никто не знает на данный момент), но точно не как БЯМ (вопрос про братьев-сестер вам в помощь в осознании этого факта).

А как проверить уровень и верность/неверность утверждений, знаний, компетентности у того же профессора, на лекциях которого вы сидите, или книги, которую вы читаете?

Практикой.

Второе, как вы оцените глубину и количество?

Цифрами.

Простите за то, что краткость — не моя сестра!

Ничего страшного, я уже поял, что вам не повезло с учителями.

Во-первых, LLM является частью ИИ, и, конечно, я использовал сокращение ИИ в контексте языковой модели. Если вы внимательно перечитаете свою же статью, вы сами на это ссылаетесь!

Во-вторых, по поводу практики: вы сами ответили на свой вопрос, но я сомневаюсь, что любой студент или читатель будет целенаправленно проверять авторитетного преподавателя — это происходит либо случайно, либо намеренно. Поэтому, если ответ ИИ в вашем случае так важен, вы можете его специально проверить!

Третье, да, именно цифрами, и именно в этом ИИ и его языковая модель превосходят человека!

Наконец, по поводу последнего замечания — не совсем понял, это юмор или попытка меня оскорбить? В любом случае, вы повторяетесь.

Я уже понял, что мы с вами по-разному понимаем "интеллект". А что касается "наконец", то - каюсь, не смог удержаться. Вы так забавно подставились, что я был вынужден обратить ваше внимание на этот ваш пассаж. Иногда слова передают совсем другой смысл, чем тот, который в них пытались вложить изначально (Майерсов закон письменной речи).

Вопрос про братьев и сестер не показатель. Люди тупят еще больше. Конкретно сейчас например огромное количество россиян будут тебе с упорством похожим на слабоумие доказывать что украина на нас напала. Они вполне разумные, не тупые, но в этом месте у них с кукухой какие то явные проблемы.

Переписка с chatgpt-4o
Переписка с chatgpt-4o

Попробовал задать тот же вопрос и с третьей попытку и БЯМ удалось дать более точный ответ.

Я согласен с автором в том, что LLM сейчас – это про большие данные и статистику, а не про ИИ, но вот хочется отметить, что бот все же знает верный ответ, просто не способен выдать его сразу.

Да просто он выдал по порядку второй и третий наиболее вероятные ответы после того, как вы забраковали первые два. Статистика в чистом виде, как она есть.

Sign up to leave a comment.

Articles