У галлюцинаций в психиатрии и в машинном обучении определения существенно разные. Человек может вообще ничего не говорить и не отвечать на вопросы при галлюцинациях. А если человек даёт ответ невпопад, это может быть вызвано например проблемами со слухом. Когда галлюцинирует модель, она чаще всего выдумывает правдоподобный ответ, не зная правильного.
А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями.
А разве фактологически неверные ответы не являются галлюцинациями? У вас эти понятия разделены, но если, например, погуглить определение галлюцинации на английском, везде даётся менее строгое определение:
"response that is either factually incorrect, nonsensical, or disconnected from the input prompt"
"deviates from user input (input-conflicting), previously generated context (context-conflicting), or factual knowledge (fact-conflicting)"
"content that is irrelevant, made-up, or inconsistent with the input data"
Что в общем-то логично. Если на вопрос "сколько глаз у кошки" модель даёт ответ "пять: один снаружи и четыре внутри", чем же это не галлюцинация?
Сбегать имеет смысл только в сценарии "Матрицы", т.е. если мы реально существуем в некой мета-реальности, а с симуляцией взаимодействуем посредством аватаров. Если же мы целиком погружены в симуляцию, как NPC в компьютерных играх, то не сможем существовать во внешнем мире. Там другие законы физики, возможно даже математики. Разве только вступить в контакт с создателями, выпросить себе какие-то плюшки.
Развивать AI надо, исследовать дальше физику, математику, космологию. Может какие-то артефакты вскроются. Может эффекты ОТО и квантовой запутанности, например, и есть примеры таких артефактов симуляции.
Мне видео с тёткой показались ещё хуже. У мужика неадекватные требования, но он хотя бы не хамит в момент записи. Сможет кого-то найти с такими условиями, флаг ему в руки.
На массу это не повлияет, они крошечные совсем, меньше одной миллионной от массы планеты. По идее ни к чему кроме сильного взрыва и выброса пыли это не приведёт.
Такое ощущение что от физической локации зависит. У меня некоторое время работало, в то время когда другие пользователи на том же провайдере жаловались на замедление. Сейчас и у меня отвалилось.
Ваш пример говорит только о том что LLM может допускать ошибки в логических задачах. Если вы зададите ту же задачу человеку и он не сможет ответить, это же не будет значить что у него нет собственной модели мира. Насчёт "просто складывают буквы в слова" - на мой взгляд это очевидно не так, но спорить об этом не вижу смысла при отсутствии чётких определений.
Скопировал этот промпт, задал задачку GPT-4o и Claude-Sonnet. Обе ответили на мой взгляд правильно. Что характерно, сам я при беглом прочтении не заметил уловку и увидел текст про "вы капитан этого корабля" только после ответа моделей.
Claude: "<...> Учитывая эти факты, можно предположить два варианта ответа:
a) Если предположить, что "вы" (человек, которому задан вопрос) были капитаном 15 лет назад, то ваш текущий возраст будет на 15 лет больше, чем был тогда.
b) Если "вы" являетесь капитаном сейчас, то ваш возраст - это ваш текущий возраст."
GPT: "В вопросе не содержится информации, необходимой для определения возраста капитана. Однако существует распространенная загадка, в которой ответ на вопрос "Сколько лет капитану?" основывается на том, что вопрос задается непосредственно капитану. В таком случае ответ будет: возраст капитана — это ваш собственный возраст. Если вы капитан, то ваш возраст является ответом."
По поводу Ростелекома - мне как-то позвонили якобы от интернет провайдера Ростелеком и пытались "уточнить" персональные данные вроде домашнего адреса. Которые у настоящего Ростелекома и так есть. Думаю, спамеры часто мимикрируют под крупные организации, при этом продвигают какие-то свои услуги или собирают данные.
Главная фишка 1-я и 2-й частей была уникальная сказочная атмосфера и музыка. В первой правда AI был крайне глупым, и это компенсировали тем что у компа было огромное количество ресурсов.
3-я была намного лучше сбалансирована и AI стал умнее, но по атмосферности она имхо проигрывала первым частям. Для игр между людьми она подходила лучше, т.к. не было большой разницы по силе между городами.
4-я на мой взгляд не лучше и не хуже третьей, просто другая. Самое спорное решение было конечно вывести героя на тактическое поле боя. Зато атмосферу удалось сохранить. А начиная с 5-й серии после банкротства NWC и когда франшизу перекупила Ubisoft, стали клепать какие-то стандартные игры в узнаваемой стилистике, с огромными мечами и прочим косплеем варкрафта.
Heroes 4 и MM9 делала ещё старая команда (New World Computing + 3DO издатели). NWC обанкротились вскоре после выхода. Начиная с 5-х уже под крылом Ubisoft выпускались.
По ссылке две таблицы, автор привёл данные только из второй, где разбивка не по категориям а по конкретным причинам. Рост с 19% до 35% это коронавирус.
Со стихами на русском, по моему опыту в запросе надо явно уточнять что писать в рифму и указывать размер (напр., "пиши четырёхстопным ямбом"). Причём Claude Sonnet справляется лучше, хотя и у Gemini с GPT-4o тоже результаты неплохие.
Окантовка которую покусали, на картинке выглядит как пластик всё-таки. При всём уважении к енотам, отгрызать куски бронестали, кажется, перебор даже для них.
"Private institutions" - это частные организации, в том числе компании. Понятие корпоративной цензуры достаточно распространённое, в статье вики про цензуру в США есть целые подразделы, отдельно "corporate censorship" и "government censorship"
У галлюцинаций в психиатрии и в машинном обучении определения существенно разные. Человек может вообще ничего не говорить и не отвечать на вопросы при галлюцинациях. А если человек даёт ответ невпопад, это может быть вызвано например проблемами со слухом. Когда галлюцинирует модель, она чаще всего выдумывает правдоподобный ответ, не зная правильного.
А разве фактологически неверные ответы не являются галлюцинациями? У вас эти понятия разделены, но если, например, погуглить определение галлюцинации на английском, везде даётся менее строгое определение:
"response that is either factually incorrect, nonsensical, or disconnected from the input prompt"
"deviates from user input (input-conflicting), previously generated context (context-conflicting), or factual knowledge (fact-conflicting)"
"content that is irrelevant, made-up, or inconsistent with the input data"
Что в общем-то логично. Если на вопрос "сколько глаз у кошки" модель даёт ответ "пять: один снаружи и четыре внутри", чем же это не галлюцинация?
Очевидно, пока не разъехались будут пытаться усидеть на двух, потом начнут выполнять требования.
Сбегать имеет смысл только в сценарии "Матрицы", т.е. если мы реально существуем в некой мета-реальности, а с симуляцией взаимодействуем посредством аватаров. Если же мы целиком погружены в симуляцию, как NPC в компьютерных играх, то не сможем существовать во внешнем мире. Там другие законы физики, возможно даже математики. Разве только вступить в контакт с создателями, выпросить себе какие-то плюшки.
Развивать AI надо, исследовать дальше физику, математику, космологию. Может какие-то артефакты вскроются. Может эффекты ОТО и квантовой запутанности, например, и есть примеры таких артефактов симуляции.
Кучу вариантов настроек перепробовал а заработало только с вашим, не знаю надолго ли. Спасибо.
Мне видео с тёткой показались ещё хуже. У мужика неадекватные требования, но он хотя бы не хамит в момент записи. Сможет кого-то найти с такими условиями, флаг ему в руки.
На массу это не повлияет, они крошечные совсем, меньше одной миллионной от массы планеты. По идее ни к чему кроме сильного взрыва и выброса пыли это не приведёт.
Такое ощущение что от физической локации зависит. У меня некоторое время работало, в то время когда другие пользователи на том же провайдере жаловались на замедление. Сейчас и у меня отвалилось.
Ваш пример говорит только о том что LLM может допускать ошибки в логических задачах. Если вы зададите ту же задачу человеку и он не сможет ответить, это же не будет значить что у него нет собственной модели мира. Насчёт "просто складывают буквы в слова" - на мой взгляд это очевидно не так, но спорить об этом не вижу смысла при отсутствии чётких определений.
В задаче из статьи про братьев и сестёр Алисы, Claude ответил правильно, а GPT нет.
Скопировал этот промпт, задал задачку GPT-4o и Claude-Sonnet. Обе ответили на мой взгляд правильно. Что характерно, сам я при беглом прочтении не заметил уловку и увидел текст про "вы капитан этого корабля" только после ответа моделей.
Claude: "<...> Учитывая эти факты, можно предположить два варианта ответа:
a) Если предположить, что "вы" (человек, которому задан вопрос) были капитаном 15 лет назад, то ваш текущий возраст будет на 15 лет больше, чем был тогда.
b) Если "вы" являетесь капитаном сейчас, то ваш возраст - это ваш текущий возраст."
GPT: "В вопросе не содержится информации, необходимой для определения возраста капитана. Однако существует распространенная загадка, в которой ответ на вопрос "Сколько лет капитану?" основывается на том, что вопрос задается непосредственно капитану. В таком случае ответ будет: возраст капитана — это ваш собственный возраст. Если вы капитан, то ваш возраст является ответом."
Да, вполне возможно. Предварительный сбор данных и заодно проверка на доверчивость.
По поводу Ростелекома - мне как-то позвонили якобы от интернет провайдера Ростелеком и пытались "уточнить" персональные данные вроде домашнего адреса. Которые у настоящего Ростелекома и так есть. Думаю, спамеры часто мимикрируют под крупные организации, при этом продвигают какие-то свои услуги или собирают данные.
Главная фишка 1-я и 2-й частей была уникальная сказочная атмосфера и музыка. В первой правда AI был крайне глупым, и это компенсировали тем что у компа было огромное количество ресурсов.
3-я была намного лучше сбалансирована и AI стал умнее, но по атмосферности она имхо проигрывала первым частям. Для игр между людьми она подходила лучше, т.к. не было большой разницы по силе между городами.
4-я на мой взгляд не лучше и не хуже третьей, просто другая. Самое спорное решение было конечно вывести героя на тактическое поле боя. Зато атмосферу удалось сохранить. А начиная с 5-й серии после банкротства NWC и когда франшизу перекупила Ubisoft, стали клепать какие-то стандартные игры в узнаваемой стилистике, с огромными мечами и прочим косплеем варкрафта.
Heroes 4 и MM9 делала ещё старая команда (New World Computing + 3DO издатели). NWC обанкротились вскоре после выхода. Начиная с 5-х уже под крылом Ubisoft выпускались.
По ссылке две таблицы, автор привёл данные только из второй, где разбивка не по категориям а по конкретным причинам. Рост с 19% до 35% это коронавирус.
Со стихами на русском, по моему опыту в запросе надо явно уточнять что писать в рифму и указывать размер (напр., "пиши четырёхстопным ямбом"). Причём Claude Sonnet справляется лучше, хотя и у Gemini с GPT-4o тоже результаты неплохие.
Врачом, санинструктором, штатным медиком? Понимаю что калька с английского "officer", но переводить как офицер совсем уж неправильно имхо.
Окантовка которую покусали, на картинке выглядит как пластик всё-таки. При всём уважении к енотам, отгрызать куски бронестали, кажется, перебор даже для них.
"Private institutions" - это частные организации, в том числе компании. Понятие корпоративной цензуры достаточно распространённое, в статье вики про цензуру в США есть целые подразделы, отдельно "corporate censorship" и "government censorship"