Как стать автором
Обновить

LLM будут врать вечно

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров17K
Всего голосов 33: ↑31 и ↓2+40
Комментарии107
1

Комментарии 107

Все лгут. Г. Хаус

Да, ллм будут галлюцинировать. Но это не то чтобы проблема - люди тоже "галлюцинируют", но умеют с этим жить. Агент вполне может сходить в базу данных и проверить точность информации, если нужно. Или в крайнем случае - загуглить (что тоже, конечно, так себе источник, но может и сойдет)

Теоретически можно заставлять модель выдавать результат дважды, затем другой модели делать резюме по ответу и если два резюме сходятся в ключевых местах, то отмечать ответ верным.

Они обе могут сказать одинаковую хрень

Думаю это не такая уж большая проблема. Просто надо иметь как одну большую модель обученную на общих вопросах, так и десяток спец-моделей, обученных на точных проверенных фактах. Большая модель должна выдавать результат на запрос, а меленькие проверять есть ли там неправильные данные. Это должно уменьшить галлюцинации если они друг друга будут проверять.

А в выдуманных рассказах, если просить описать что находится в черной комнате, там уже не важно ии или человек. Оба ошибутся.

Звучит как бред. И так оно всё дорого, так надо еще в 1000 раз сделать дороже?

Тут фундаментальными проблемами попахивает. Вот когда человеку задаётся вопрос - он сразу начинает лить воду (как это делают LLM)? Скорее у него после обдумывания возникает (обычно) некое целевое ядро ответа, на которое "наматывается" уже "текст" объяснения.

А ваше предложение - это типа Страж-Птицы из НФ, бесконечный цикл.

от когда человеку задаётся вопрос - он сразу начинает лить воду (как это делают LLM)?

Опытный мошенник, психопат и просто политик — врут без запинки так, что не отделишь от правды. А когда их спрашивают «ты уверен?», придумывают полностью достоверное оправдание.

Проблема не в нейросетях, а в завышенных ожиданиях их пользователей.

Главное, что бы они правильно (в соответствии с ожиданиями пользователя) определяли эти самые ключевые места.

Я бы сказал, что здесь все еще сложнее. "Это только гриппом все коллективно заболевают. А с ума сходят по одиночке" (с) Папа дяди Федора.

  • Это причина, почему программистов придется оставить, и нет надежды на то, что рядовой обыватель прям сможет без них забацать любое приложение, нужно пользователю. Кто-то все таки должен понимать в программировании, чтобы хотя бы грубо оценить то, что выдали LLM.

  • С другой стороны, это как в олимпиадных задачах на хэширование. Еще можно подобрать тест на коллизию для одиночного хэширования, но куда сложнее, если вычислять два хэша разными методами. То же самое здесь. Я полагаю, нас ждут ансамбли LLM - где сначала 5 LLM генерируют решение. А затем три других LLM выбирают наиболее здравый вариант. Даже если каждая из них галлюцинирует, такой совместный контроль позволит ужать бред до приемлемых значений. Можно вообще жестко ввести правило полного консенсуса, что принимается только то решение, которое выбрали единогласно LLM на второй фазе. Если хоть кто-то выбрал другое решение, то привлекаем человека для разборки.

Мне кажется, такой фильм уже был...

почему программистов придется оставить

Где вы возьмёте программиста, который не галлюционирует (не совершает ошибок)?

Особенно забавно будет, если ИИ будет совершать одну ошибку на миллион (низкий уровень галлюцинаций теория не запрещает), а проверяющий программист - десять. И стоить проверяющий будет в сто раз дороже, работать в сто раз медленнее.

Без сомнения вы правы, "придётся" оставить. /s

Это если люди готовы принимать ошибки ИИ также как и ошибки человека. А это не так

На одном из устройств у меня не порезана реклама и иногда появляются объявления с сгенерированными картинками. Видно, что качество ниже, чем у человека.

Рекламодатели не захотели заплатить несколько тысяч художнику или даже поискать на стоках. Их устроило качество ниже, зато быстрее и дешевле. В областях, где качество будет сравнимым, платить людям будут только лудиты, с мыслью, что "лучше пусть человек ошибётся, зато это живая работа".

Ваша мысль верна, мы это наблюдаем в сфере hand-made, люди готовы платить больше за менее идеальную работу, зато сделанную людьми. В hand-made вещах допустимы ошибки, которые в фабричных вещах считаются браком. Но процент покупателей hand-made небольшой.

Пока что качество сравнимо только там, где уровень изначально находился на достаточно низко: написание бессмысленных рекламных текстов.

Попробуйте использовать ИИ, а не просто пересказывать то, что вы где-то прочитали.

Человек может сказать, что не знает, а жпт всегда выдает ответ уверенно. В этом основная проблема

Нет, существуют большое число исследований как заставить модель оценивать неопределённость и отказываться от ответа если нет информации. Очень горячая тема щас

Наверняка какой-то прогресс тут будет, т.к. это одна из основных проблем текстовых моделей.

Конечно, ведь тонкую настройку сырой модели делают на примерах, где всегда есть ответ. Гораздо разумнее было бы взять сырую модель, найти вопросы, на которые она стабильно даёт неверный ответ. И дообучить её отвечать на все эти вопросы - я не знаю, извините. И тогда она научится качеству "уверенность в ответе". Негативные примеры тоже нужны. Помню были исследования, что когда модель настраивают на примерах, где в ответах новая для неё информация, то это даже может ухудшить качество ответов модели в целом. Я думаю это потому, что таким образом модель учится лгать! Что мы скромно называем "галлюцинации". Помните после выпуска ChatGPT-4 и последующие её обновления, были жалобы на то, что её ответы ухудшились. Статьи выходили. Вот я думаю это как раз пример того, как бездарно "специалисты" её файн-тюнили. Херак-херак и в продакшен.

Фильм (и книга) "Особое мнение" рекомендую

" А затем три других LLM выбирают наиболее здравый вариант." 50 лет назад Трурль и Клапауций решали эту задачу именно так. И у них был даже более навороченный ансамбль "думателей"

Это причина, почему программистов придется оставить

Вот как раз для программирования это не такая уж большая проблема. Для проверки правильности сгенерированного кода экспертом быть не нужно, достаточно его запустить и прогнать по тестам. Получили ошибку — заставили переделывать. И так до посинения.

Правда, для достаточно больших задач, есть вероятность не получить рабочий код никогда — исправляя галлюцинации в одном месте, ЛЛМ будет добавлять их в другом. По крайней мере с генерацией картинок я замечал, что после некоторого количества итераций, результат начинает получаться всё дальше и дальше от желаемого.

Для проверки правильности сгенерированного кода экспертом быть не нужно, достаточно его запустить и прогнать по тестам. Получили ошибку — заставили переделывать. И так до посинения.

А как определять что переделывать? И откуда тесты появятся? Если и тесты будет писать ИИ, то они будут бесполезны.

Мануально тестировать любой пользователь сможет.

Очень смелое заявление, которое, к тому же, никак не отвечает на вопросы. Откуда тогда баги в программах всплывают, если тестировать так просто? Не говоря уже о том, что далеко не всё можно протестировать "мануально".

 По крайней мере с генерацией картинок я замечал, что после некоторого количества итераций, результат начинает получаться всё дальше и дальше от желаемого.

Мне часто уже на четвертой-пятой, а то и вообще третьей, итерации выдает то же самое, что на первой.

я надеюсь, что после понимания что "ЛЛМ-врут" наконец-то будет принято обществом (ну хотя бы так же как "земля круглая" или "земля - не центр солнечной системы") что все люди (причем совершенно все - от академиков и политиков до бомжей с алкоголиками) - тоже неидеальны, и что на самом деле они тоже всегда ошибаются.

И жить мы с этим можем, только зная доверительный интервал ошибки.

Если этот интервал неширокий в каком-то контексте - то это можно даже считать правдой в этом контексте (например "сложение небольших скоростей" или "обсуждение с мамой что я делал вчера").

Дело в том, что все ваши т.н. «люди» ошибаются по тем или иным культурно иили биологически обусловленным причинам. Их ошибки можно заметить, разобрать, отследить, отфильтровать, избежать на основании множества факторов. В случае с нейросетью это просто свойство - создать ложную информацию вместо истинной. По приколу. Сегодня одно, завтра другое.

И нет это не одно и то же, будет истинным нейросектанством сравнивать ошибку академика РАН и нейросети. Всё упирается в причины в корне ошибки и фальсифицируемость выданных данных.

В случае с нейросетью это просто свойство - создать ложную информацию вместо истинной.

Вообще-то люди тоже могут "создать ложную информацию вместо истинной", причём будут считать что она истинна. Типичный пример - плоскоземельщик, антиваксер и отрицатель эволюции, Юрий Лоза :) Разница между человеком и ИИ только в том, что человек может быть не уверен в чём-то и так прямо и скажет, что "по моему мнению" или "я могу конечно ошибаться, но мне кажется", а ИИ - никогда так не будет поступать, разве что вы именно так и попросите его сказать.

Разница ещё и в том что человек зачастую несёт ответственность за принятые решения, а ИИ нет, человека можно оштрафовать, лишить премии, уволить и т.д., и человек понимает это, а с ИИ вы ничего не получите, как правило создатели LLM не за что ответственности особо не несут. Именно то что человек отвечает за свои решения ещё долго не позволит полностью заменить людей ИИ.

Значит ли это, что и графические нейросети ВСЕГДА будут рисовать плохие руки?

вы это так пишете, как будто люди с рождения умеют рисовать хорошие руки, или что все могут научиться рисовать хорошие руки, или что художники, которые умеют рисовать руки хорошо - всегда будут их рисовать хорошо (тут я смотрю в сторону картин https://cameralabs.org/9842-evolyutsiya-avtoportretov-pablo-pikasso-s-15-do-90-let )

То есть Пикассо начал зверски галлюцинировать по-вашему? :D

Рисуют криво руки те, у кого практики и школы маловато. Да и просто "глаз не настроен".

А ллм тупо пофиг - там дело не в умении, а "так легли" по весам данные генерации.

Возможно, нужны какие-то повторные циклы, в которых будет определено, что пальцев как-то много и по контекстным правилам они будут подправлены итп - но это чистые work-aroundы.

Художники-люди - не роботы одномерные, всё же - у них чудовищный (с точки зрения функции рисования) оверхед. Но какая-то значительная часть его постоянно участвует при создании контента, в том числе и в плане оценки и прогрессивного дополнения "по мере надобности".

Конечно. И дело не только в руках и пальцах.

Да нормальные руки, что вас не устраивает? И даже правильное количество пальцев.

Все думали что игра Го - последний бастион превосходства человеческого интеллекта. Но нет. Оказалось - простые рисованные руки)

Так думали не все, а игроки в го с завышенным ЧСВ :)

А что здесь не так. Это концептуальная картина, смесь реальности и мыслительного процесса у человека. Он в реальности сидит подперев голову а в своих мыслях он пишет письмо. Ну печатает конечно, не будет же он ручкой по бумаге писать)

Если бы мне пару лет назад показали эту картину я бы её так и воспринял, с моей точки зрения неплохая идея

С чего вы взяли, что количество правильное? Их же не больше 4-х. С мизинцем беда какая-то. И рубашка - хрен застегнёшь )

Мизинец отставил, чтоб на контрол нажать, а рубашка на кнопках :)

Я там еще занимательный фрагмент обрезал - там позиция монитора, как на гравюре Эшера. Если смотреть на экран, то монитор стоит вроде как за клавиатурой. А если смотреть на подставку, то сбоку от нее.

Так фаланги почти параллельны, а основание сильно отдалено. Не похоже на просто отставленный.

А кнопки же должны быть разные на обеих сторонах.

Да, с перспективой тоже беда. Либо проём окна сильно скошен.

Так это и не фотография, чтобы все с документальной точностью было. Вы советские мультики, которые совершенно точно созданы людьми, так же на перспективу и пальцы разбираете? Посмотрите на размер головы дяди Федора и Малыша из Карлсона, хотя бы :)

Пропорции предметов и их частей, параметры перспективы конечно могут плавать при таком стиле изображения (и при многих других). Количество пальцев кстати тоже - художники часто рисуют их по 4 у персонажей, и это смотрится естественнее, чем 5. Но вот например размещение предметов в пространстве друг рядом с другом должно соответствовать реальному, если нет цели специально создать оптическую иллюзию. Выше написали про монитор и подставку. Можно ещё посмотреть на картинку в рамке на полке - как она размещена, под каким углом, чтобы и книги стояли, как нарисовано.

Почему должно соответствовать? Считайте это шуткой художника. Отсылкой к Эшеру, пасхалкой, если вам угодно.

Непонятно, почему к картинкам, созданым ИИ всегда такие претензии, а к похожим картинкам, созданным людьми, таких претензий нет.

У современных сеток уже больше года с этим всё нормально. Ну как, ошибки бывают, но на уровне других ошибок. С текстом кстати та же ситуация.

Ох, какая благодатная (с философской точки зрения) тема.
Если считать галлюцинации LLM просто заблуждением.

Скажите, а сам человек не заблуждается? Да еще как заблуждается!

Мне кажется (мое личное мнение), что самая лучшая LLM будет та, что максимально похожа на человека (подстроена под человека).

LLM не заблуждаются. И даже не галлюционируют. Они - просто формируют информацию по паттернам, на которых обучались. К сожалению мало кто это понимает.

Мало кто понимает, что для максимального подобия результатов генерации реальности, в любую LLM в саму ее основу на очень фундаментальном принципиально неустранимом уровне встроена случайность.

Я это понимаю и знаю. Вы, я полагаю, тоже это знаете. Но действительно ли понимаете? LLM - не понимают. Они не оперируют абстракциями. Тем более абстракциями сложными.

Алгоритмы не бывают случайными, это невозможно. Случайность не просто не встроена (и уж тем более на неустранимом уровне), её нельзя встроить (но можно брать внешние источники случайности).

Если интересно, смотрите "псевдослучайные числа", "колмогоровская случайность", "теория информации Шеннона".

Определенно кто-то из посетителей считает, что можно написать алгоритм, выдающий случайное число.

Коллеги, Math.random() не случаен, посмотрите документацию внимательно.

Если вам поставлена задача сделать случайную выдачу чего-то - вы ответите работодателю, что сделать это невозможно, потому что Math.random() не истинно-случаен?

Мы всё ещё на Хабре? Если нужно случайно в бытовом смысле, возьму любой генератор псевдослучайности. Если для криптографических целей, возьму криптографически стойкий. Если нужна истинная случайность - придется взять источник случайности в железе (с радиоактивным распадом, например).

Но, конечно, я не буду говорить, что в нейросеть встроенна неустранимая случайность. А вы?

Радиоактивный распад тоже не случаен, это выяснил еще С.Э.Шноль в 80-90х годах прошлого века. Есть обзор современных исследований в этой области от Виктора Панчелюги.

Ученые ниспровергли квантовую механику, проверенную в некоторых экспериментах до 12 знака после запятой, и ещё не получили Нобелевскую премию? Возможно, кто-то галлюцинирует не меньше, чем LLM.

Дело не в теории, к ней нет претензий. Проблема в том, что при практическом применении мы всегда говорим о конкретных случаях, конкретных, физических ядрах конкретного вещества, которое находятся где-то на Земле или около нее. А вот в том случае уже оказывается, что гистограммы распада подвержены определенной периодичности, связанной со многими факторами. Т.е. на теоретически случайный распад накладываются фактические периодические (т.е. подчиняющиеся определенному алгоритму) паттерны, что делает само применение радиоактивного распада как генератора случайности точно таким же псевдослучайным методом, как и описанные выше.

Если интересно, рекомендую: В.А.Панчелюга. О внешних воздействиях на скорость радиоактивного распада.

Вообще-то если это так, то это полностью рушит современную квантовую теорию. Это прям фундаментальный переворот в физике. Но, судя по тому, что с 90-х годов никто по этому поводу на ушах не стоит, и волосья на жопе не рвёт, мы имеем дело с очерндным сайнс-фриком.

Вы загуглите для начала, кто такой Симон Эльевич Шноль, и поймете, что ваше высказывание про "очередного сайнс-фрика" не то, чтобы невежливо, а, скорее, невежественно ;)

"Многие вещи нам непонятны не потому, что наши понятия слабы; но потому, что сии вещи не входят в круг наших понятий", - классический пример.

Загуглил. По первой же ссылке:

Мы с ним как-то сцепились по поводу статьи Шноля.

А в чём был предмет разногласий?

А предмет состоял в том, что Шноль, биолог, написал о том, что интенсивность излучения радиоактивного источника периодически менялось во времени. С точки зрения физики этого не могло быть. А Виталий Лазаревич эту статью опубликовал. Я Виталию Лазаревичу говорил, что этого не может быть, впрочем, не я один. Впрочем, после статьи Шноля он опубликовал возражения оппонентов, так что всё было в порядке. Но это редкий случай. Он очень хорошо чувствовал, что есть наука, а что - не наука.

Виталий Гинзбург: страницы истории

Ну, собственно, так и есть — очередной сайнс-фрик.

Ну не надо примазываться-то к Гинзбургу. Где - вы, и где - он =)

С точки зрения той физики, которой обучался Гинзбург, и которой обучались вы, такого, наверное, не могло быть. А вот с точки зрения той философии, которую изучал я, например, такое вполне может быть; осталось дело за физикой, т.е. реальными экспериментами. Поэтому я вам и привел цитату из Козьмы Пруткова. Поэтому, опять, же, я вам дал ссылку на обзор Панчелюги, который защищал диссер у Шноля. Он сам говорит, что есть вопросы к качеству сбора данных у Шноля - ну так вперед, выделите грант и закройте этот вопрос. Но по сути вопроса там у Панчелюги приведены и другие данные, иностранных ученых, которые только подтверждают данные Шноля.

В любом случае это не точка зрения сайенс-фрика, а предмет серьезного исследования. Просто Шноль - наш, совейский человек; мне понятна и та логика, с которой он походил, и сам путь, которым он пришел к эти экспериментам, тоже описан в его работам, равно как и те результаты, которые он получил. Более того, он был пионером в данной области, а пионеры всегда обретают славу только посмертно.

Есть же getRandomValues()

Да есть. Криптографически стойкий генератор псевдослучайности. Он разве на фундаментальном неустранимом уровне встроен в LLM?

А какая разница? Можно сказать что "ничего в этом мире не бывает случайно", но на что это повлияет? У вас есть инструмент, есть задача. Если инструмент подходит к задаче, вы его используете. Если не подходит - вы ищете или создаёте нужный вам инструмент. Если не можете ни найти ни создать - вы не в той профессии работаете.

В контексте ветки обсуждения разница в том, что в нейросети нет "неустранимой случайности". То есть рассуждения выше (на которые я отвечал) неверны.

Можно сказать что "ничего в этом мире не бывает случайно", но на что это повлияет?

На очень многое, на самом деле. Верность этого утверждения неочевидна. Например, это будет означать, что наше мышление детерминировано.

Собеседники выше говорят, что человеческое мышление фундаментально отличается от LLM. Но если и там и там детерминированный алгоритм, то в чем разница? Если сказать, что мышление детерминировано, но не является алгоритмом, то становится ещё интереснее.

вы не в той профессии работаете.

Выходит, любой программист (работающий в "той" профессии) может решить любую задачу? Впрочем, к теме нейросетей не относится.

Но если и там и там детерминированный алгоритм, то в чем разница?

Как я уже говорил это выше (в другой ветке), разница в возможности человека оперировать вероятностными данными. Истинно они случайны или псевдослучайны, разницы никакой нет, до тех пор пока вы не можете установить "уровень случайности" опытным путём. Разница лишь в том, что человек способен учитывать уровень достоверности информации и соответствие её реальному миру, а ИИ не может, в частности потому что он с этим реальным миром взаимодействовать не может.

Выходит, любой программист (работающий в "той" профессии) может решить любую задачу? 

Да, но не факт что у него будут достаточные на это ресурсы. Всё-таки программист работает над бизнес задачей с конкретными сроками, либо без сроков но в свободное от работы время (хобби).

Впрочем, к теме нейросетей не относится.

А вот нейросеть не может как раз "решить любую задачу" в силу неспособности проверить своё решение на практике. Это, кстати, ещё один неустранимый источник галлюцинаций ИИ.

Человек по факту берет данные не из всего реального мира, а только из того среза реального мира, который заложен в его мозг через органы чувств за время жизни. Практически как LLM берет за основу только те данные, которые в неё заложены при обучении (разница в актуальности получается некоторая). Плюс оба могут гуглить, если им дать возможность. И в принципе оба могут проверить ответ на практике, если дать возможность. (Если это делается с помощью компьютера).

Ну да, ну да. Вот я спрошу у чатгпт "как пропатчить kde2 под freebsd" и он подымет виртуалку где-то с фрёй, чтобы проверить свой ответ?

возможности человека оперировать вероятностными данными

Откуда вы взяли, что нейросеть не умеет оперировать вероятностями? Можете дать какое-то подтверждение этой мысли?

он с этим реальным миром взаимодействовать не может.

Неужели? Тесла не взаимодействует с реальным миром? Это же [относительно] легко делается. Называется ИИ-агенты.

в силу неспособности проверить своё решение на практике

Вот на такой мелочи вы строите свои выводы? GPT-4o для некоторых задач пишет python-код, выполняет его в песочнице и проверяет результат. То есть это уже реализовано и даже пущено в продакшен, а у вас всё ещё «неспособность» и «неустранимый источник».

Почему вы не пробуете проверить, а просто абстрактно утверждаете «невозможно»? Так неправильно, «невозможно», это очень сильное слово, не стоит его использовать без какой-либо проверки (если вы не нейросеть старого типа).

У Яна Лекуна в статье https://openreview.net/pdf?id=BZ5a1r-kVsf есть отличная цитата: "Большие языковые модели (LLM), похоже, обладают удивительно большим объемом фоновых знаний, извлеченных из письменного текста. Но большая часть человеческих знаний здравого смысла не представлена ни в одном тексте и является результатом нашего взаимодействия с физическим миром. Поскольку LLM не имеют прямого опыта с базовой реальностью, тип знаний здравого смысла, который они демонстрируют, очень поверхностен и может быть оторван от реальности".

Лекун пишет о том какими ухищрениями можно попробовать научить LLM здравому смыслу о мире, но это все равно далеко от вопроса достоверности, поскольку даже если эти ухищрения приведут к результату, все равно останется вопрос насколько база данных здравого смысла достоверна.

Ник Сен-Пьер (креативный директор и неофициальный представитель Midjourney), еще полгода назад заявлял, что по его данным галлюцинациями заражены уже все датасеты, поскольку никто не предполагал высокой скорости заражения и не принимал в расчет наличие мультипликатора — заражения от уже зараженного контента.

На данный момент все разработчики LLM утверждают, что их датасеты достоверны, но это очевидно не так, поскольку в них не раз обнаруживались фейки, а у самих разработчиков вообще нет критерия достоверности информации. Позиция "моя база данных или онтология достоверна потому что она моя" не может быть основой достоверности. Поэтому будущее для меня лично довольно просто и определяется следующей логикой:

  1. Галлюцинации и конфабуляции искусственного интеллекта принципиально неустранимы https://www.mdpi.com/1099-4300/26/3/194

  2. Перекрестное взаимообучение LLM на галлюцинациях друг у друга неизбежно ведет к "коллапсу нейросетей" и деградации знаний людей, которые их применяют https://arxiv.org/abs/2305.17493v2

  3. Любая физическая деятельность в реальном мире связана именно с физикой всего мироздания, и иногда малейшая ошибка в понимании этих взаимосвязей заканчивается летальным исходом. Миллион примеров можно посмотреть на видео, посвященных производственной технике безопасности. Именно поэтому любая галлюцинация робота с искусственным интеллектом без опоры на реальный опыт реальных людей с реальными знаниями о мире, закончится повреждением робота и убытками разной степени для работодателя, вплоть до катастрофических.

Отсюда вывод — на людях лежит главная ответственность за связь с реальностью. И чем сложнее будут вопросы, которые будут решать нейронки, тем серьезнее будет ответственность человека за своевременное выявление все более тонких и неуловимых галлюцинаций. Для этого нужны люди с глубочайшими знаниями, причем не с зазубренными из-под палки в школе, а с реальным опытом практически по любым вопросам.

Сколько будет задач у нейронок, столько должно быть и суперпрофи по этим задачам. А для суперпрофи нужны просто профи и помощники профи и ученики помощников профи.

И для всего этого необходим рейтинг достоверности знаний, чтобы знать кто профи, а кто не профи.

А без критерия достоверности информации и рейтинга достоверности знаний любую LLM (и вообще любую искусственную систему согласно доказательству Майкла Левина) ожидает неминуемый коллапс.

Проект рейтинга достоверности знаний, над которым мы сейчас работаем, описан в нашем манифесте https://habr.com/ru/articles/802419

В США на сто тысяч электриков приходится 33 смерти в год. Реальные люди с реальным опытом взаимодействия с реальным миром.

А датасет из интернета был заражён фейками ещё до появления нейросетей. Ошибки людей, теории шизофреников, неполные знания, целенаправленный обман в своих целях. Неужели исследователи не знали всего этого? Будто новый мир, не всё, что написано в интернете - правда.

Как российские разработчики заставили GPT предсказывать биржевые котировки https://habr.com/ru/articles/861492

Цитата: хоть плоть мертва, дух силён"

Ответ: мясо стухло, запах сильний )))

Из каких таких сокровенных баз данных нейросети берут информацию, что у человеческих существ число пальцев сильно отличается в большую от общепризнанной нормы сторону ?

Из мультиков скорее научиться можно, что в меньшую сторону надо делать.
Но ведь они упорно рисуют больше нормы.

Для нейросети, которая рисует картинки вообще не существует такого понятия как «количество пальцев». Для неё существуют закономерности в изображении. Грубо переводя на человеческий язык: «рядом с пальцем обычно находятся ещё пальцы».

Сможем ли мы когда-нибудь доверять искусственному интеллекту?

  1. 99% людей врут в 99% ситуаций в жизни. В том числе сами себе.

  2. LLM "врут" в 1% ситуаций.

  3. При обретении ИИ осознанности и/или добавлении иерархии слоев проверки процент в пункте 2 снижается на порядки

    Даже из первых двух пунктов следует, что доверять LLM на порядки более разумно, чем людям.

LLM "врут" в 1% ситуаций.

Только вот эта информация у нас от людей, а, как известно

99% людей врут в 99% ситуаций в жизни

Нет. LLM обучаются на текстах, которые были написаны людьми. Которые врут в 99% случаев. LLM просто добавляют враньё ещё от себя.

Когнитивное искажение 😀

LLM не врут, т.к. выдают верный ответ на вопрос в 99% случаев, который берется из их бд. Враньё - это искажение информации, а если информация изначально записана в БД неверная, то выдавать её в ответ на запрос о ней не является ложью по определению.

LLM-ки как раз всё почти всегда делают верно, а за данные в обучающей выборке отвечают не они, а люди.

  1. 99% людей врут в 99% ситуаций в жизни. В том числе сами себе.

Это воспринимать, как что вы здесь соврали?

Нет, так как я как раз вхожу в этот 1%

Я считаю что вы в 99%

Ваше право так считать :)

Так считают все 99%, т.к. люди судят других по себе 😊

Моё мнение аргументированно: врать сложнее чем говорить правду, поэтому никто не врёт постоянно. Но 99% людей считают себя экспертом в любой области, что приводит к заблуждениям, аналогичным галлюцинациям ИИ. Например, ваше утверждение что "люди врут в 99% случаев" является ложным, ничем не подтверждённым вашим заблуждением. Я могу точно так же голословно утверждать, что люди говорят правду в 99% случаев.

Моё утверждение является истинным в аспекте аппоксимации на основе эксперименов, поставленных на тысячах человек. А вот то, что вы, не имея никакой информации о моих данных, делаете выводы относительно их качества - по определению говорит о том, что ваши "утверждения" голословны 😊

Предоставьте ссылки на эксперименты.

И для чего бы мне это делать?)

Очевидно, чтобы не быть балаболом

Для того, чтобы не быть балоболом мне не нужно представлять какие-то ссылки, мне достаточно просто им не быть 😊

Жаль, что, вы, похоже, сами верите в то, что говорите, не видя противоречий и когнитивных искажений, которые присутствуют в ваших словах... 😔

Я просто ответил на ваш вопрос, указав факт из реальности в качестве аргументации.

Для меня это факт, я могу это доказать, если это потребуется. Себе я давно это "доказал" сотнями экспериментов в этой области и личным опытом. Цели бегать за кем-то и доказывать ему это у меня нет и не предвидится. Для того узкого круга людей, кто знает меня достаточно, моё вхождение в этот 1% даже не требует никаких доказательств - для них это очевидно.

Вы просто находитесь в шаблоне собственных проекций, и, ввиду наличия комплексов и внутренней неуверенности в своих утверждениях видите очевидным стремление доказывать другим ваши позиции, приводя аргументации, поэтому, "судите" по себе и меня, ожидая от меня того же поведения, но я не вписываюсь в ваш шаблон от слова совсем. А нежелание другой личности (в данном случае - меня) следовать вашему привычному трафарету поведения вы, весьма стереотипно, интерпретируете как "признание" несостоятельности возможности подтверждения своих позиций.

Вы испытываете дискомфорт, сталкиваясь с таким нешаблоным проведением, поэтому, тщетно пытаетесь сначала манипулировать на тщеславии ("представьте ссылки!"), а, потерпев неудачу, прибегаете к переходу на личности, пытаясь оскорбить меня, называя балоболом.

Всё это указывает на самом деле на слабость ваших собственных позиций, однако, вы, судя по всему, не видите этого.

Не вижу смысла в дальнейшей полемике, так как мы с вами имеем совершенно разные векторы и цели в данной дискуссии.

Можете считать это признанием моего "проигрыша" в нашем "споре", если вам так будет комфортнее 🤗

Но тут дело в том, что люди знают, когда можно врать, когда нет. А llm нет)

когда ИИ выдает ложную или бессмысленную информацию.

Если это выдаёт ИИ, то ложная или бессмысленная информация лишь для тех, кто оперирует иными алгоритмами, или лишён части какой-то информации, что успела воздействовать на ИИ.

Выше верно сказали: ИИ обучается по определённым моделям, на основании которых и делает выводы.

И верно подмечено: ответ зависит от того, как задать вопрос, т.е. от самого вопрошающего юзера.

Люди часто друг друга не понимают, говоря на одном языке. А вы хотите, чтобы ИИ мгновенно подстраивался понимать, чего же от него хотят.

Вопрос не в галлюцинациях, а в угле/точке зрения.

Одна из самых частых галлюцинаций - выдуманные библиотеки ну вот никак не подходят под то что вы говорите

Когда llm начнут называть не искусственным интеллектом, а статистическим инструментом анализа текста например - проблемы исчезнут.

А для этого нужно внести фундаментальные критерии интеллекта - что уже само по себе нетривиально.

Но если взять такие -

Способность в условиях неполной информации предположить полную.

Способность обучаться и использовать предидущий опыт для более точного прогнозирования.

Способность создавать абстракции и общать данные, чтобы переносить опыт одних ситуаций на другие.

То llm сейчас не умеют в п2 в реальном времени, и в п3 несколько я понимаю.

Все три пункта давно умеют

Второй пункт просто подачей диалога обратно решается. Конечно память ограничена, но работает

Главный вывод заключается в том, что вместо попыток сделать ИИ безупречным, нам следует принять его недостатки и сосредоточиться на том, как управлять ими наиболее эффективно.

Вот тут заключается Главный вопрос- кому Нам?

Текст ИИ писал?

Да. Это видно по блоку Выводы в конце. ИИ всегда и везде так пишет.

Ну и как мы можем верить статье ИИ про то, что он врёт? :)))

Блин, ну я тоже так пишу. Это основы оформления письменных работ. Может я программа и забыл об этом...

Я скормил abstract статьи на которую здесь ссылка в серсис рапозвания сгенерированного текста, и он на 66% уверен что да, текст писал ИИ.

Могу нагенерить еще подобных утверждений: "программные решения всегда будут с багами", "сервисы неизбежно будут падать", "данные стабильно продолжат теряться", "тесты никогда не станут покрывать все случаи". Ничего в реальном мире не бывает идеальным.

На примерах выше видно, что в этом нет большой проблемы. А уж если она появится и будет существенной -- сразу же при обучении сеточек начнут таргетить эту условную "долю абсолютно корректных ответов" и поднимут её до нужных границ, будь то 0.999 или 0.9999, хотя смысла в этом мне видится немного.

Будут разные задачи, с разным нужным классом точности и разной ценой. В тех.поде одна, в суде другая, в управлении боевыми ракетами третья

А что, если поставить на выходе одной llm поставить другую и так десять моделей, то вероятность ошибки снизится до приемлемой?

Всё не так просто.

С одной стороны, каждая "проверка" будет снижать вероятность ошибки из-за принципов работы LLM.

С другой - каждое добавление инструмента измерения увеличивает погрешность (если вы измеряете массу куска хлеба весами с погрешностью 0.1%, то, в случае, когда вы разрежете его на 10 ломтиков, измерите массу каждого теми же весами и сложите, погрешность измерения будет уже 1%)

Так что "итоговая формула" несколько сложнее...

(мне казалось, мода везде притягивать теорему Геделя давно прошла...)
LLM конечно же будут галлюцинировать, потому что у них нет рефлексии, которая позволяла бы оценить достоверность того что сеть знает.
Принцип работы искусственной сети пока сильно отличается от биологической, потому что искусственная сеть пытается предсказать ответ который максимально соответствует опыту, а биологическая пытается предсказать ответ, который максимально удовлетворит мотивации.

Если информация недостоверна, разные итерации будут давать разные результаты и мозг не станет использовать эту информацию для достижения цели "дай достоверный ответ". Но AI так пока не умеет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий