Или пользователь сам указал в чате, или криво написанный чат-бот интернет-магазина подмешивает эти данные к тексту заказов, а история заказов по каким-то причинам оказалась доступна для поисковиков.
Так а ChatGPT-то тут при чём?
Есть же требования к поисковикам "фильтровать базар". Видимо к ChatGPT это требование тоже применимо. Логично не выдавать информацию связанную с username и password. Он же все-таки Интеллект, и должен понимать элементарные вещи.
Я предлагаю прямо противоположное в главе "Дискурсы (точки зрения)". У математиков сложится дискурс сам или два дискурса (Арнольд против Бурбаков) без всяких проверок квалификации, у учителей тоже сложится свой дискурс...
Мой вам совет
Не используйте термин "дискурс" для обозначения координаты "Точка зрения". Это неграмотно. Дискурс характеризует процесс, а точка зрения это результат.
Откажитесь от координаты "Точка зрения". Это абстракция непригодная для цифровой обработки. Существуют Источник_1, Источник_2 и т.д., содержащие информацию по Вопросу_Х, которая в чем-то совпадает и в чем-то различается. Есть набор параметров описывающих свойства источника. Такие данные пригодны для обработки нейросетью.
Продукция, выпускаемая на фабриках в США, всегда будет более дорогой и менее современной, чем та которая выпускается на фабриках в Тайване. Непонятно кто ее будет покупать. У США может быть три мотива просить TSMC строить фабрики на своей территории. 1. Гарантировать наличие полупроводников, если против США введут санкции, и доминирующие страны запретят Тайваню экспортировать в США высокотехнологичную продукцию. 2. Гарантировать наличие полупроводников, если Тайвань будет захвачен Китаем. 3. Как способ развить собственную экономику, и увеличить доходы бюджета для борьбы с растущим госдолгом. Первые два мотива вполне рациональны, а третий неоднозначен. При том что, к примеру, даже американский Micron развивает производство в Индии.
Да ни в коем разе. В основной статье полно отсебятины. Информация подается предвзято. Источники подобраны от балды, часто не архивированы, а ссылки на оригиналы источников устарели.
Есть два разных вопроса. Один про материальное обеспечение проекта, другой про принцип организации доступа к информации, для представления информации максимально полно и без возможности навязывания какой-то одной точки зрения.
Оба вопроса слишком сложные чтобы раскрыть их в одном абзаце. Поэтому нет - не понятно. Если вы с разбегу не придумали способ надежного финансирования проекта, это не значит что такого способа не существует. Наверняка есть схема поддержания интереса к финансированию самой большой на планете информационной базы.
Например биткоин - тупая, ничем не обеспеченная виртуальная хрень. Однако давно держится на плаву, и приносит прибыль организаторам. В отличие от него информация имеет реальную ценность.
Правительство РФ однажды попробовало представлять свою точку зрения в Википедии.
превратить некоммерческий и дармовой ресурс в коммерческий и платный
Это не взаимоисключающие вещи. Размещается любой контент, не противоречащий закону. Рекламные материалы, платная информация, заявления правительства - любой каприз за ваши деньги. Но, показан он будет только если сам пользователь захочет его видеть.
Хочет правительство страны представлять свою точку зрения на ресурсе - пусть платит и размещает материалы. Ему гарантируют что никто эту информацию не модифицирует и не сфальсифицирует. Но если сам пользователь не захочет все это читать, то ему это насильно не покажут, и в качестве истины не навяжут.
Предположим, что пользователь хочет узнать мнение официальных органов. Он задаёт уровень достоверности — официальные органы. После этого он получает мнения официальных органов и видит, что эти мнения противоречат друг другу, а ещё сильнее противоречат мнениям официоза других стран.
Значит такова реальность. Пользователь примет ту версию которая ему по душе, или переключится на другие источники, и будет копать дальше. Он получил информацию о том что ситуация неоднозначная и надо включать мозг. Включать или нет - выбор за ним.
Принцип простой - сохранять информацию из всех источников, выдавать только из тех которые выберет пользователь, без навязывания какого-то мнения в качестве безоговорочно верного.
Намного важнее, что он... получив мнения официальных органов... не сможет прочесть весь этот сухой канцелярский язык, который вовсе не рассчитан на чтение.
А на что рассчитан сухой канцелярский язык?
В любом случае, пользователя никто не принуждает использовать этот источник. Не устроила подача информации от официальных органов - переключился на другие. Здесь нет проблемы.
Вы слишком большого мнения об утверждённых источниках информации
Я не говорил об "утвержденном источнике" как о "достоверном источнике", и не ставил его на вершину в иерархии по этому признаку. Классификация источников контента - это лишь один из переключателей, с помощью которого пользователь будет выбирать одну из точек зрения на вопрос, если таких точек несколько. Пользователь сам должен выбирать - "следовать ему линии партии, или искать альтернативу". Именно от "источника" я предлагаю отталкиваться при разработки принципа управления информацией в базе данных. Вся информация по вопросу разделяется на источники. Формирование контента и доступ к нему осуществляются по принципу разделения источников.
Можно ввести характеристику, типа "дисперсия", если по вопросу существуют сильно расходящиеся точки зрения. Пользователь по этому признаку определит что тема противоречивая, и разные источники могут дать разную информацию. Если значение "дисперсии" минимальное, то пользователь может обойтись любым из источников. Если значение велико, то пользователь должен понять что вопрос неоднозначный, и он столкнется с разными трактовками.
Допустим по какой-то теме (согласно заголовку статьи) в Википедии есть всего две статьи на двух языках написанные с разных точек зрения.
Значит у них будет два разных источника. Пользователь должен ориентироваться на источник, который по его мнению будет более авторитетным, вменяемым, политкорректным (добавить свой критерий).
эти статьи отражают разные точки зрения, то есть принадлежат не только к разным языкам, но и к разным дискурсам.
"Дискурс" конечно многозначный термин, но это не "точка зрения". Дискурс - это про форму коммуникативного процесса, а не про его содержание. Можно говорить о влиянии дискурса на содержание, но дискурс это не мысль, не идея, не точка зрения, и не тема. Дискурс характеризует процесс формирования точки зрения, но это не сама точка зрения. Разные дискурсы могут приводить к появлению разных точек зрения, а могут и не приводить.
например, суждения о математиков и математике важнее суждений о математике всех остальных. Уровень доступа для чтения и права редактирования: личный, для группы или всех друзей, для участников определённого дискурса, для всех.
Тогда логичнее и проще использовать разделение по источникам информации - утвержденные учебники и справочники, СМИ, рецензированные научные статьи, информация официальных структур, частные мнения, желтая пресса, независимые эксперты, статья созданная членами сообщества wiki с обобщением всей информации.
Если, например, по научной теме пользователь хочет видеть только строгие цитаты из учебников и справочников, и не видеть отсебятины от авторов wiki, то выбирает уровень информации "Утвержденная научная литература". Если пользователь хочет узнать только мнение представителей официальный органов, то выбирает соответствующий источник, и не видит информацию от прочих источников. Например пользователь хочет узнать "про ил76", выбирает уровень информации "Госструктуры", и видит только мнения официальных представителей каждой страны. Добавлять информацию на этом уровне естественно должны только официальные органы, для чего нужно как то организовать доступ.
В общей теории относительности чёрная дыра - это просто скопление материи, сжатой в бесконечно крошечную точку, а горизонт событий, "поверхность" чёрной дыры, с которой невозможно сбежать, является естественным следствием этого плотного скопления материи.
В классическом описании черных дыр говорится, что свет не может "вылететь за границу ч.д. из-за высокой силы гравитации". На самом деле свет в принципе не может возникнуть в ч.д., потому что предельно сжатая материя не способна генерировать фотоны низких энергий. "Вылетать" просто нечему.
Про спасение жизни - это чисто гипотетическая ситуация, когда звонок знакомым людям может помочь человеку, а экстренные службы не могут.
Есть более прозаичные ситуации, когда человеку телефон нужен крайне редко. Не заводить же каждый раз новый номер. А если номер привязан к банку или госуслугам, тогда каждый раз будут дополнительные неудобства с перерегистрацией.
"У нас есть задача обучить нейросеть на ответы в определённой области. Мы обращаемся к специалистам в этой области. Для обучения крупной модели нужны сотни крутых специалистов, умеющих создать правильный ответ, простой и полезный для обычного человека."
То есть все ответы создают люди, и заносят их в базу знаний, а ИИ только подбирает подходящий ответ из этой базы? А если подходящего ответа в базе нет - то возникают галлюцинации?
Нельзя лишать человека номера, если это его единственный номер. А так же обнулять баланс. Неизвестно в какой ситуации ему внезапно может понадобиться телефон. Может это спасет ему жизнь. Хотя мне такие случаи неизвестны.
Удивляет способность чат-ботов уверенно отвечать на безграмотно составленные вопросы. 1. "в какой области трубы". Области у трубы - это "область изгиба" и "область прямолинейного участка". 2. "в области меньшего радиуса или в области большего радиуса". У изгиба радиусы "внешний" и "внутренний". "Меньший" и "больший" радиус может быть только у двух разных изгибов - у одного больший у другого меньший. Но бот все равно ответил, без тени сомнения. Величину угла изгиба он конечно проигнорировал в принципе. О том за счет чего течет воздух - за счет нагнетания, за счет разрежения, или за счет конвекции из-за разницы температур, он тоже не поинтересовался.
Изначально, идея взлома с помощью квантового компьютера, была основана на явлении суперпозиции - нахождении квантовых объектов сразу во всех возможных состояниях, одно из которых будет зафиксировано в момент схлопывания. Из этого следует потенциальная возможность "моментального брутфорса" (statim effringere). Если сделать регистр из числа кубитов соответствующему длине ключа, то он будет содержать в себе одновременно все возможные значения, в том числе и значение искомого ключа. Дело остается за малым - грамотно схлопнуть волновую функцию, и ключ ваш. Как именно слопнуть, это уже вопрос к программистам квантовых компьютеров. Они разберутся, им за это деньги платят.
Тексты пишутся соискателями которые прошли базовые тесты на знание языка, фактчекинг, этику, ранжирование. Это значит что тексты с высокой вероятностью будут иметь уровень качества сопоставимый с уровнем на котором пишут штатные AI-тренеры. Так что их вполне можно использовать как заготовки, которые после небольшой коррекции можно использовать для обучения. AI-тренеру не придется писать текст с нуля, и это значительно сэкономит ему время. Но это в теории. На практике соискателей не так уж много, и кинуть каждого можно только однажды. Много текстов такой эксплуатацией не получишь, а репутация работодателя серьезно пострадает. Так что вряд ли это развод на бесплатный труд.
Или пользователь сам указал в чате, или криво написанный чат-бот интернет-магазина подмешивает эти данные к тексту заказов, а история заказов по каким-то причинам оказалась доступна для поисковиков.
Есть же требования к поисковикам "фильтровать базар". Видимо к ChatGPT это требование тоже применимо. Логично не выдавать информацию связанную с username и password. Он же все-таки Интеллект, и должен понимать элементарные вещи.
Мой вам совет
Не используйте термин "дискурс" для обозначения координаты "Точка зрения". Это неграмотно. Дискурс характеризует процесс, а точка зрения это результат.
Откажитесь от координаты "Точка зрения". Это абстракция непригодная для цифровой обработки. Существуют Источник_1, Источник_2 и т.д., содержащие информацию по Вопросу_Х, которая в чем-то совпадает и в чем-то различается. Есть набор параметров описывающих свойства источника. Такие данные пригодны для обработки нейросетью.
Продукция, выпускаемая на фабриках в США, всегда будет более дорогой и менее современной, чем та которая выпускается на фабриках в Тайване. Непонятно кто ее будет покупать.
У США может быть три мотива просить TSMC строить фабрики на своей территории.
1. Гарантировать наличие полупроводников, если против США введут санкции, и доминирующие страны запретят Тайваню экспортировать в США высокотехнологичную продукцию.
2. Гарантировать наличие полупроводников, если Тайвань будет захвачен Китаем.
3. Как способ развить собственную экономику, и увеличить доходы бюджета для борьбы с растущим госдолгом.
Первые два мотива вполне рациональны, а третий неоднозначен. При том что, к примеру, даже американский Micron развивает производство в Индии.
Так вроде заказчик сам решает что ему больше нужно - аварийный выход или побольше пассажирских кресел. Что ему выгоднее.
Да ни в коем разе. В основной статье полно отсебятины. Информация подается предвзято. Источники подобраны от балды, часто не архивированы, а ссылки на оригиналы источников устарели.
Есть два разных вопроса. Один про материальное обеспечение проекта, другой про принцип организации доступа к информации, для представления информации максимально полно и без возможности навязывания какой-то одной точки зрения.
Оба вопроса слишком сложные чтобы раскрыть их в одном абзаце. Поэтому нет - не понятно. Если вы с разбегу не придумали способ надежного финансирования проекта, это не значит что такого способа не существует. Наверняка есть схема поддержания интереса к финансированию самой большой на планете информационной базы.
Например биткоин - тупая, ничем не обеспеченная виртуальная хрень. Однако давно держится на плаву, и приносит прибыль организаторам. В отличие от него информация имеет реальную ценность.
О чем речь? Можно ссылку на источник?
Это не взаимоисключающие вещи. Размещается любой контент, не противоречащий закону. Рекламные материалы, платная информация, заявления правительства - любой каприз за ваши деньги. Но, показан он будет только если сам пользователь захочет его видеть.
Хочет правительство страны представлять свою точку зрения на ресурсе - пусть платит и размещает материалы. Ему гарантируют что никто эту информацию не модифицирует и не сфальсифицирует. Но если сам пользователь не захочет все это читать, то ему это насильно не покажут, и в качестве истины не навяжут.
Значит такова реальность. Пользователь примет ту версию которая ему по душе, или переключится на другие источники, и будет копать дальше. Он получил информацию о том что ситуация неоднозначная и надо включать мозг. Включать или нет - выбор за ним.
Принцип простой - сохранять информацию из всех источников, выдавать только из тех которые выберет пользователь, без навязывания какого-то мнения в качестве безоговорочно верного.
А на что рассчитан сухой канцелярский язык?
В любом случае, пользователя никто не принуждает использовать этот источник. Не устроила подача информации от официальных органов - переключился на другие. Здесь нет проблемы.
Я не говорил об "утвержденном источнике" как о "достоверном источнике", и не ставил его на вершину в иерархии по этому признаку. Классификация источников контента - это лишь один из переключателей, с помощью которого пользователь будет выбирать одну из точек зрения на вопрос, если таких точек несколько. Пользователь сам должен выбирать - "следовать ему линии партии, или искать альтернативу". Именно от "источника" я предлагаю отталкиваться при разработки принципа управления информацией в базе данных. Вся информация по вопросу разделяется на источники. Формирование контента и доступ к нему осуществляются по принципу разделения источников.
Можно ввести характеристику, типа "дисперсия", если по вопросу существуют сильно расходящиеся точки зрения. Пользователь по этому признаку определит что тема противоречивая, и разные источники могут дать разную информацию. Если значение "дисперсии" минимальное, то пользователь может обойтись любым из источников. Если значение велико, то пользователь должен понять что вопрос неоднозначный, и он столкнется с разными трактовками.
Значит у них будет два разных источника. Пользователь должен ориентироваться на источник, который по его мнению будет более авторитетным, вменяемым, политкорректным (добавить свой критерий).
"Дискурс" конечно многозначный термин, но это не "точка зрения". Дискурс - это про форму коммуникативного процесса, а не про его содержание. Можно говорить о влиянии дискурса на содержание, но дискурс это не мысль, не идея, не точка зрения, и не тема. Дискурс характеризует процесс формирования точки зрения, но это не сама точка зрения. Разные дискурсы могут приводить к появлению разных точек зрения, а могут и не приводить.
Тогда логичнее и проще использовать разделение по источникам информации - утвержденные учебники и справочники, СМИ, рецензированные научные статьи, информация официальных структур, частные мнения, желтая пресса, независимые эксперты, статья созданная членами сообщества wiki с обобщением всей информации.
Если, например, по научной теме пользователь хочет видеть только строгие цитаты из учебников и справочников, и не видеть отсебятины от авторов wiki, то выбирает уровень информации "Утвержденная научная литература".
Если пользователь хочет узнать только мнение представителей официальный органов, то выбирает соответствующий источник, и не видит информацию от прочих источников. Например пользователь хочет узнать "про ил76", выбирает уровень информации "Госструктуры", и видит только мнения официальных представителей каждой страны. Добавлять информацию на этом уровне естественно должны только официальные органы, для чего нужно как то организовать доступ.
А в чем разница, применительно к ч.д.? Горизонт событий является границей чёрной дыры.
В классическом описании черных дыр говорится, что свет не может "вылететь за границу ч.д. из-за высокой силы гравитации". На самом деле свет в принципе не может возникнуть в ч.д., потому что предельно сжатая материя не способна генерировать фотоны низких энергий. "Вылетать" просто нечему.
Про спасение жизни - это чисто гипотетическая ситуация, когда звонок знакомым людям может помочь человеку, а экстренные службы не могут.
Есть более прозаичные ситуации, когда человеку телефон нужен крайне редко. Не заводить же каждый раз новый номер. А если номер привязан к банку или госуслугам, тогда каждый раз будут дополнительные неудобства с перерегистрацией.
Довольно смешно. Но только это не про IT. В смысле здесь нет ничего специфичного для IT.
То есть все ответы создают люди, и заносят их в базу знаний, а ИИ только подбирает подходящий ответ из этой базы? А если подходящего ответа в базе нет - то возникают галлюцинации?
Нельзя лишать человека номера, если это его единственный номер. А так же обнулять баланс. Неизвестно в какой ситуации ему внезапно может понадобиться телефон. Может это спасет ему жизнь. Хотя мне такие случаи неизвестны.
Удивляет способность чат-ботов уверенно отвечать на безграмотно составленные вопросы.
1. "в какой области трубы".
Области у трубы - это "область изгиба" и "область прямолинейного участка".
2. "в области меньшего радиуса или в области большего радиуса".
У изгиба радиусы "внешний" и "внутренний". "Меньший" и "больший" радиус может быть только у двух разных изгибов - у одного больший у другого меньший.
Но бот все равно ответил, без тени сомнения. Величину угла изгиба он конечно проигнорировал в принципе. О том за счет чего течет воздух - за счет нагнетания, за счет разрежения, или за счет конвекции из-за разницы температур, он тоже не поинтересовался.
Изначально, идея взлома с помощью квантового компьютера, была основана на явлении суперпозиции - нахождении квантовых объектов сразу во всех возможных состояниях, одно из которых будет зафиксировано в момент схлопывания. Из этого следует потенциальная возможность "моментального брутфорса" (statim effringere). Если сделать регистр из числа кубитов соответствующему длине ключа, то он будет содержать в себе одновременно все возможные значения, в том числе и значение искомого ключа. Дело остается за малым - грамотно схлопнуть волновую функцию, и ключ ваш. Как именно слопнуть, это уже вопрос к программистам квантовых компьютеров. Они разберутся, им за это деньги платят.
Тексты пишутся соискателями которые прошли базовые тесты на знание языка, фактчекинг, этику, ранжирование. Это значит что тексты с высокой вероятностью будут иметь уровень качества сопоставимый с уровнем на котором пишут штатные AI-тренеры. Так что их вполне можно использовать как заготовки, которые после небольшой коррекции можно использовать для обучения. AI-тренеру не придется писать текст с нуля, и это значительно сэкономит ему время. Но это в теории. На практике соискателей не так уж много, и кинуть каждого можно только однажды. Много текстов такой эксплуатацией не получишь, а репутация работодателя серьезно пострадает. Так что вряд ли это развод на бесплатный труд.