Некоторые клубы по интересам очень большие и доминируют в мировых СМИ, но при этом мнения этих клубов часто выражают конспирологи и фрики
Ваша система "независимых дискурс-групп" только лишь многократно увеличит число фриков, размещающих свои конспирологические теории.
Людям очень везёт когда они могут выслушать мнения от нескольких клубов
Очень редкие люди готовы изучать мнения от нескольких источников по одному вопросу. Людям нужен ответ здесь и сразу, и чтобы этот ответ им понравился, и чтобы источник был авторитетным на их личный вкус. А версию фрик-клуба примут только его члены.
Множество различных точек зрения на один вопрос, это хоть и необходимое, но все-таки ЗЛО. Оно лишь является меньшим из зол. Лучше когда есть множество точек зрения из которых лишь одна истинная, чем когда существует лишь одна точка зрения, но ложная, а остальные под запретом. Но это не повод безудержно плодить новые точки зрения ("дискурсы", "девиации"), так как это ведет к замусориванию информ-пространства.
В++ в качестве форума, не форум, а набор параллельных форумов в разных дискурсах.
Несущественная деталь, с точки зрения создания полезного контента. Энергия участников будет уходить на стандартную форумную деятельность (сами знаете на что), а не на создание полезного контента.
Смотря как заманивать. Если писать или копипастить в В++, значит майнить, то возможно быстро.
Вы где-нибудь описывали модель движения внутренней валюты В++? Как выдается/продается, как регулируется/защищается, на что можно потратить. Интересно было бы почитать (украсть идею).
Пользователи руками привяжут и своей подписью подпишут, то есть "намайнят".
Ручной сбор информации из сети - это нереалистично.
Дискурс это и набор текстов и набор авторов которые способны развивать данный набор и не особо ссориться с друг с другом.
Это получится клуб по интересам, а не источник информации для всех. Сами пишем, сами читаем. Получится самый большой на планете интернет-форум.
Можно даже сообщения не посылать, а по логину в В++ определять и автоматически относить их творчество к дискурсу.
Сколько времени понадобится чтобы заманить в В++ достаточное количество участников?
Какой-то термин нужен.
Значит вам нужен термин обозначающий "точку зрения отличающуюся от других". Давайте рассмотрим элементы, приводящие к появлению различных точек зрения: Фактологические - незнание/отрицание фактов. Логические - разная способность оценивать факты с точки зрения причин и последствий. Субъективные - разное отношение к фактам, обусловленное разными системами ценностей, и разным жизненным опытом. Злонамеренные - умышленное искажение фактов с целью ввести в заблуждение или создать конфликт.
Может подойдет термин - "Девиация"?
Я не предлагаю краулеры лазить по сети
А как же это:
"можно создать универсальную Википедию++, В++, которая может заменить и поглотить Википедию и другие Вики, авторские блоги и социальные сети, маркетплейсы с форумами и обзорами."
Как привязывать к новой Вики всю имеющуюся в сети информацию? Не писать же все по второму разу. Если уж создавать новый проект, то он должен обрабатывать информацию из всех доступных источников.
Нейросети способны вычислять группы единомышленников как по текстам ими написанным, так и по взаимным лайкам.
Ваши нейросети вычисляют ЛЮДЕЙ?
Помогать единомышленникам организовываться в такие большие группы
Каким образом - вычислить их контактные данные и послать сообщения с предложением собраться в одном месте?
Разработка того, что я называю "дискурсами" требует большого труда
Большого труда вам будет стоить донести свои идеи на техническом уровне, чтобы их можно было реализовать в виде программы для вычислительной системы. При разговоре с лингвистами вы можете использовать термин "дискурс", хотя вас скорее всего поймут неправильно. Но при разговоре с разработчиками цифровой платформы вам придется от подобных терминов отказаться.
Системы сбора информации не видят людей. Они видят тексты размещенные на интернет-ресурсах. Тексты связаны с источником, а источник охарактеризован по набору признаков. Блок данных с описанием источника + блок данных с текстом, это и есть исходный цифровой объект. Можно группировать источники по родственным признакам, вычислять дополнительные параметры источников по содержанию текстов. На входе вычислительной системы - только текст и свойства источника от которого текст получен. На выходе - статистика и отсортированные массивы данных. Массивы имеют описание в виде огромного числа синтетических параметров. На этом уровне собирается информация, на основе которой обученная нейросеть сможет отличить спам от либерального бреда.
Информация от источнике важна. К нему привязывается исходный контент. Если автор захочет, то он должен иметь возможность пометить контент уникальной меткой в формате понятном для платформы сбора и хранения данных. Вы должны понимать как должна работать система, чтобы реализовать на ней свои лингвистические идеи.
Или пользователь сам указал в чате, или криво написанный чат-бот интернет-магазина подмешивает эти данные к тексту заказов, а история заказов по каким-то причинам оказалась доступна для поисковиков.
Так а ChatGPT-то тут при чём?
Есть же требования к поисковикам "фильтровать базар". Видимо к ChatGPT это требование тоже применимо. Логично не выдавать информацию связанную с username и password. Он же все-таки Интеллект, и должен понимать элементарные вещи.
Я предлагаю прямо противоположное в главе "Дискурсы (точки зрения)". У математиков сложится дискурс сам или два дискурса (Арнольд против Бурбаков) без всяких проверок квалификации, у учителей тоже сложится свой дискурс...
Мой вам совет
Не используйте термин "дискурс" для обозначения координаты "Точка зрения". Это неграмотно. Дискурс характеризует процесс, а точка зрения это результат.
Откажитесь от координаты "Точка зрения". Это абстракция непригодная для цифровой обработки. Существуют Источник_1, Источник_2 и т.д., содержащие информацию по Вопросу_Х, которая в чем-то совпадает и в чем-то различается. Есть набор параметров описывающих свойства источника. Такие данные пригодны для обработки нейросетью.
Продукция, выпускаемая на фабриках в США, всегда будет более дорогой и менее современной, чем та которая выпускается на фабриках в Тайване. Непонятно кто ее будет покупать. У США может быть три мотива просить TSMC строить фабрики на своей территории. 1. Гарантировать наличие полупроводников, если против США введут санкции, и доминирующие страны запретят Тайваню экспортировать в США высокотехнологичную продукцию. 2. Гарантировать наличие полупроводников, если Тайвань будет захвачен Китаем. 3. Как способ развить собственную экономику, и увеличить доходы бюджета для борьбы с растущим госдолгом. Первые два мотива вполне рациональны, а третий неоднозначен. При том что, к примеру, даже американский Micron развивает производство в Индии.
Да ни в коем разе. В основной статье полно отсебятины. Информация подается предвзято. Источники подобраны от балды, часто не архивированы, а ссылки на оригиналы источников устарели.
Есть два разных вопроса. Один про материальное обеспечение проекта, другой про принцип организации доступа к информации, для представления информации максимально полно и без возможности навязывания какой-то одной точки зрения.
Оба вопроса слишком сложные чтобы раскрыть их в одном абзаце. Поэтому нет - не понятно. Если вы с разбегу не придумали способ надежного финансирования проекта, это не значит что такого способа не существует. Наверняка есть схема поддержания интереса к финансированию самой большой на планете информационной базы.
Например биткоин - тупая, ничем не обеспеченная виртуальная хрень. Однако давно держится на плаву, и приносит прибыль организаторам. В отличие от него информация имеет реальную ценность.
Правительство РФ однажды попробовало представлять свою точку зрения в Википедии.
превратить некоммерческий и дармовой ресурс в коммерческий и платный
Это не взаимоисключающие вещи. Размещается любой контент, не противоречащий закону. Рекламные материалы, платная информация, заявления правительства - любой каприз за ваши деньги. Но, показан он будет только если сам пользователь захочет его видеть.
Хочет правительство страны представлять свою точку зрения на ресурсе - пусть платит и размещает материалы. Ему гарантируют что никто эту информацию не модифицирует и не сфальсифицирует. Но если сам пользователь не захочет все это читать, то ему это насильно не покажут, и в качестве истины не навяжут.
Предположим, что пользователь хочет узнать мнение официальных органов. Он задаёт уровень достоверности — официальные органы. После этого он получает мнения официальных органов и видит, что эти мнения противоречат друг другу, а ещё сильнее противоречат мнениям официоза других стран.
Значит такова реальность. Пользователь примет ту версию которая ему по душе, или переключится на другие источники, и будет копать дальше. Он получил информацию о том что ситуация неоднозначная и надо включать мозг. Включать или нет - выбор за ним.
Принцип простой - сохранять информацию из всех источников, выдавать только из тех которые выберет пользователь, без навязывания какого-то мнения в качестве безоговорочно верного.
Намного важнее, что он... получив мнения официальных органов... не сможет прочесть весь этот сухой канцелярский язык, который вовсе не рассчитан на чтение.
А на что рассчитан сухой канцелярский язык?
В любом случае, пользователя никто не принуждает использовать этот источник. Не устроила подача информации от официальных органов - переключился на другие. Здесь нет проблемы.
Вы слишком большого мнения об утверждённых источниках информации
Я не говорил об "утвержденном источнике" как о "достоверном источнике", и не ставил его на вершину в иерархии по этому признаку. Классификация источников контента - это лишь один из переключателей, с помощью которого пользователь будет выбирать одну из точек зрения на вопрос, если таких точек несколько. Пользователь сам должен выбирать - "следовать ему линии партии, или искать альтернативу". Именно от "источника" я предлагаю отталкиваться при разработки принципа управления информацией в базе данных. Вся информация по вопросу разделяется на источники. Формирование контента и доступ к нему осуществляются по принципу разделения источников.
Можно ввести характеристику, типа "дисперсия", если по вопросу существуют сильно расходящиеся точки зрения. Пользователь по этому признаку определит что тема противоречивая, и разные источники могут дать разную информацию. Если значение "дисперсии" минимальное, то пользователь может обойтись любым из источников. Если значение велико, то пользователь должен понять что вопрос неоднозначный, и он столкнется с разными трактовками.
Допустим по какой-то теме (согласно заголовку статьи) в Википедии есть всего две статьи на двух языках написанные с разных точек зрения.
Значит у них будет два разных источника. Пользователь должен ориентироваться на источник, который по его мнению будет более авторитетным, вменяемым, политкорректным (добавить свой критерий).
эти статьи отражают разные точки зрения, то есть принадлежат не только к разным языкам, но и к разным дискурсам.
"Дискурс" конечно многозначный термин, но это не "точка зрения". Дискурс - это про форму коммуникативного процесса, а не про его содержание. Можно говорить о влиянии дискурса на содержание, но дискурс это не мысль, не идея, не точка зрения, и не тема. Дискурс характеризует процесс формирования точки зрения, но это не сама точка зрения. Разные дискурсы могут приводить к появлению разных точек зрения, а могут и не приводить.
например, суждения о математиков и математике важнее суждений о математике всех остальных. Уровень доступа для чтения и права редактирования: личный, для группы или всех друзей, для участников определённого дискурса, для всех.
Тогда логичнее и проще использовать разделение по источникам информации - утвержденные учебники и справочники, СМИ, рецензированные научные статьи, информация официальных структур, частные мнения, желтая пресса, независимые эксперты, статья созданная членами сообщества wiki с обобщением всей информации.
Если, например, по научной теме пользователь хочет видеть только строгие цитаты из учебников и справочников, и не видеть отсебятины от авторов wiki, то выбирает уровень информации "Утвержденная научная литература". Если пользователь хочет узнать только мнение представителей официальный органов, то выбирает соответствующий источник, и не видит информацию от прочих источников. Например пользователь хочет узнать "про ил76", выбирает уровень информации "Госструктуры", и видит только мнения официальных представителей каждой страны. Добавлять информацию на этом уровне естественно должны только официальные органы, для чего нужно как то организовать доступ.
В общей теории относительности чёрная дыра - это просто скопление материи, сжатой в бесконечно крошечную точку, а горизонт событий, "поверхность" чёрной дыры, с которой невозможно сбежать, является естественным следствием этого плотного скопления материи.
В классическом описании черных дыр говорится, что свет не может "вылететь за границу ч.д. из-за высокой силы гравитации". На самом деле свет в принципе не может возникнуть в ч.д., потому что предельно сжатая материя не способна генерировать фотоны низких энергий. "Вылетать" просто нечему.
Про спасение жизни - это чисто гипотетическая ситуация, когда звонок знакомым людям может помочь человеку, а экстренные службы не могут.
Есть более прозаичные ситуации, когда человеку телефон нужен крайне редко. Не заводить же каждый раз новый номер. А если номер привязан к банку или госуслугам, тогда каждый раз будут дополнительные неудобства с перерегистрацией.
"У нас есть задача обучить нейросеть на ответы в определённой области. Мы обращаемся к специалистам в этой области. Для обучения крупной модели нужны сотни крутых специалистов, умеющих создать правильный ответ, простой и полезный для обычного человека."
То есть все ответы создают люди, и заносят их в базу знаний, а ИИ только подбирает подходящий ответ из этой базы? А если подходящего ответа в базе нет - то возникают галлюцинации?
Нельзя лишать человека номера, если это его единственный номер. А так же обнулять баланс. Неизвестно в какой ситуации ему внезапно может понадобиться телефон. Может это спасет ему жизнь. Хотя мне такие случаи неизвестны.
Ваша система "независимых дискурс-групп" только лишь многократно увеличит число фриков, размещающих свои конспирологические теории.
Очень редкие люди готовы изучать мнения от нескольких источников по одному вопросу. Людям нужен ответ здесь и сразу, и чтобы этот ответ им понравился, и чтобы источник был авторитетным на их личный вкус. А версию фрик-клуба примут только его члены.
Множество различных точек зрения на один вопрос, это хоть и необходимое, но все-таки ЗЛО. Оно лишь является меньшим из зол. Лучше когда есть множество точек зрения из которых лишь одна истинная, чем когда существует лишь одна точка зрения, но ложная, а остальные под запретом. Но это не повод безудержно плодить новые точки зрения ("дискурсы", "девиации"), так как это ведет к замусориванию информ-пространства.
Несущественная деталь, с точки зрения создания полезного контента. Энергия участников будет уходить на стандартную форумную деятельность (сами знаете на что), а не на создание полезного контента.
Вы где-нибудь описывали модель движения внутренней валюты В++? Как выдается/продается, как регулируется/защищается, на что можно потратить. Интересно было бы почитать (украсть идею).
Ручной сбор информации из сети - это нереалистично.
Это получится клуб по интересам, а не источник информации для всех. Сами пишем, сами читаем. Получится самый большой на планете интернет-форум.
Сколько времени понадобится чтобы заманить в В++ достаточное количество участников?
Значит вам нужен термин обозначающий "точку зрения отличающуюся от других". Давайте рассмотрим элементы, приводящие к появлению различных точек зрения:
Фактологические - незнание/отрицание фактов.
Логические - разная способность оценивать факты с точки зрения причин и последствий.
Субъективные - разное отношение к фактам, обусловленное разными системами ценностей, и разным жизненным опытом.
Злонамеренные - умышленное искажение фактов с целью ввести в заблуждение или создать конфликт.
Может подойдет термин - "Девиация"?
А как же это:
"можно создать универсальную Википедию++, В++, которая может заменить и поглотить Википедию и другие Вики, авторские блоги и социальные сети, маркетплейсы с форумами и обзорами."
Как привязывать к новой Вики всю имеющуюся в сети информацию? Не писать же все по второму разу. Если уж создавать новый проект, то он должен обрабатывать информацию из всех доступных источников.
Ваши нейросети вычисляют ЛЮДЕЙ?
Каким образом - вычислить их контактные данные и послать сообщения с предложением собраться в одном месте?
Большого труда вам будет стоить донести свои идеи на техническом уровне, чтобы их можно было реализовать в виде программы для вычислительной системы.
При разговоре с лингвистами вы можете использовать термин "дискурс", хотя вас скорее всего поймут неправильно.
Но при разговоре с разработчиками цифровой платформы вам придется от подобных терминов отказаться.
Системы сбора информации не видят людей. Они видят тексты размещенные на интернет-ресурсах. Тексты связаны с источником, а источник охарактеризован по набору признаков. Блок данных с описанием источника + блок данных с текстом, это и есть исходный цифровой объект. Можно группировать источники по родственным признакам, вычислять дополнительные параметры источников по содержанию текстов. На входе вычислительной системы - только текст и свойства источника от которого текст получен. На выходе - статистика и отсортированные массивы данных. Массивы имеют описание в виде огромного числа синтетических параметров. На этом уровне собирается информация, на основе которой обученная нейросеть сможет отличить спам от либерального бреда.
Информация от источнике важна. К нему привязывается исходный контент. Если автор захочет, то он должен иметь возможность пометить контент уникальной меткой в формате понятном для платформы сбора и хранения данных. Вы должны понимать как должна работать система, чтобы реализовать на ней свои лингвистические идеи.
Или пользователь сам указал в чате, или криво написанный чат-бот интернет-магазина подмешивает эти данные к тексту заказов, а история заказов по каким-то причинам оказалась доступна для поисковиков.
Есть же требования к поисковикам "фильтровать базар". Видимо к ChatGPT это требование тоже применимо. Логично не выдавать информацию связанную с username и password. Он же все-таки Интеллект, и должен понимать элементарные вещи.
Мой вам совет
Не используйте термин "дискурс" для обозначения координаты "Точка зрения". Это неграмотно. Дискурс характеризует процесс, а точка зрения это результат.
Откажитесь от координаты "Точка зрения". Это абстракция непригодная для цифровой обработки. Существуют Источник_1, Источник_2 и т.д., содержащие информацию по Вопросу_Х, которая в чем-то совпадает и в чем-то различается. Есть набор параметров описывающих свойства источника. Такие данные пригодны для обработки нейросетью.
Продукция, выпускаемая на фабриках в США, всегда будет более дорогой и менее современной, чем та которая выпускается на фабриках в Тайване. Непонятно кто ее будет покупать.
У США может быть три мотива просить TSMC строить фабрики на своей территории.
1. Гарантировать наличие полупроводников, если против США введут санкции, и доминирующие страны запретят Тайваню экспортировать в США высокотехнологичную продукцию.
2. Гарантировать наличие полупроводников, если Тайвань будет захвачен Китаем.
3. Как способ развить собственную экономику, и увеличить доходы бюджета для борьбы с растущим госдолгом.
Первые два мотива вполне рациональны, а третий неоднозначен. При том что, к примеру, даже американский Micron развивает производство в Индии.
Так вроде заказчик сам решает что ему больше нужно - аварийный выход или побольше пассажирских кресел. Что ему выгоднее.
Да ни в коем разе. В основной статье полно отсебятины. Информация подается предвзято. Источники подобраны от балды, часто не архивированы, а ссылки на оригиналы источников устарели.
Есть два разных вопроса. Один про материальное обеспечение проекта, другой про принцип организации доступа к информации, для представления информации максимально полно и без возможности навязывания какой-то одной точки зрения.
Оба вопроса слишком сложные чтобы раскрыть их в одном абзаце. Поэтому нет - не понятно. Если вы с разбегу не придумали способ надежного финансирования проекта, это не значит что такого способа не существует. Наверняка есть схема поддержания интереса к финансированию самой большой на планете информационной базы.
Например биткоин - тупая, ничем не обеспеченная виртуальная хрень. Однако давно держится на плаву, и приносит прибыль организаторам. В отличие от него информация имеет реальную ценность.
О чем речь? Можно ссылку на источник?
Это не взаимоисключающие вещи. Размещается любой контент, не противоречащий закону. Рекламные материалы, платная информация, заявления правительства - любой каприз за ваши деньги. Но, показан он будет только если сам пользователь захочет его видеть.
Хочет правительство страны представлять свою точку зрения на ресурсе - пусть платит и размещает материалы. Ему гарантируют что никто эту информацию не модифицирует и не сфальсифицирует. Но если сам пользователь не захочет все это читать, то ему это насильно не покажут, и в качестве истины не навяжут.
Значит такова реальность. Пользователь примет ту версию которая ему по душе, или переключится на другие источники, и будет копать дальше. Он получил информацию о том что ситуация неоднозначная и надо включать мозг. Включать или нет - выбор за ним.
Принцип простой - сохранять информацию из всех источников, выдавать только из тех которые выберет пользователь, без навязывания какого-то мнения в качестве безоговорочно верного.
А на что рассчитан сухой канцелярский язык?
В любом случае, пользователя никто не принуждает использовать этот источник. Не устроила подача информации от официальных органов - переключился на другие. Здесь нет проблемы.
Я не говорил об "утвержденном источнике" как о "достоверном источнике", и не ставил его на вершину в иерархии по этому признаку. Классификация источников контента - это лишь один из переключателей, с помощью которого пользователь будет выбирать одну из точек зрения на вопрос, если таких точек несколько. Пользователь сам должен выбирать - "следовать ему линии партии, или искать альтернативу". Именно от "источника" я предлагаю отталкиваться при разработки принципа управления информацией в базе данных. Вся информация по вопросу разделяется на источники. Формирование контента и доступ к нему осуществляются по принципу разделения источников.
Можно ввести характеристику, типа "дисперсия", если по вопросу существуют сильно расходящиеся точки зрения. Пользователь по этому признаку определит что тема противоречивая, и разные источники могут дать разную информацию. Если значение "дисперсии" минимальное, то пользователь может обойтись любым из источников. Если значение велико, то пользователь должен понять что вопрос неоднозначный, и он столкнется с разными трактовками.
Значит у них будет два разных источника. Пользователь должен ориентироваться на источник, который по его мнению будет более авторитетным, вменяемым, политкорректным (добавить свой критерий).
"Дискурс" конечно многозначный термин, но это не "точка зрения". Дискурс - это про форму коммуникативного процесса, а не про его содержание. Можно говорить о влиянии дискурса на содержание, но дискурс это не мысль, не идея, не точка зрения, и не тема. Дискурс характеризует процесс формирования точки зрения, но это не сама точка зрения. Разные дискурсы могут приводить к появлению разных точек зрения, а могут и не приводить.
Тогда логичнее и проще использовать разделение по источникам информации - утвержденные учебники и справочники, СМИ, рецензированные научные статьи, информация официальных структур, частные мнения, желтая пресса, независимые эксперты, статья созданная членами сообщества wiki с обобщением всей информации.
Если, например, по научной теме пользователь хочет видеть только строгие цитаты из учебников и справочников, и не видеть отсебятины от авторов wiki, то выбирает уровень информации "Утвержденная научная литература".
Если пользователь хочет узнать только мнение представителей официальный органов, то выбирает соответствующий источник, и не видит информацию от прочих источников. Например пользователь хочет узнать "про ил76", выбирает уровень информации "Госструктуры", и видит только мнения официальных представителей каждой страны. Добавлять информацию на этом уровне естественно должны только официальные органы, для чего нужно как то организовать доступ.
А в чем разница, применительно к ч.д.? Горизонт событий является границей чёрной дыры.
В классическом описании черных дыр говорится, что свет не может "вылететь за границу ч.д. из-за высокой силы гравитации". На самом деле свет в принципе не может возникнуть в ч.д., потому что предельно сжатая материя не способна генерировать фотоны низких энергий. "Вылетать" просто нечему.
Про спасение жизни - это чисто гипотетическая ситуация, когда звонок знакомым людям может помочь человеку, а экстренные службы не могут.
Есть более прозаичные ситуации, когда человеку телефон нужен крайне редко. Не заводить же каждый раз новый номер. А если номер привязан к банку или госуслугам, тогда каждый раз будут дополнительные неудобства с перерегистрацией.
Довольно смешно. Но только это не про IT. В смысле здесь нет ничего специфичного для IT.
То есть все ответы создают люди, и заносят их в базу знаний, а ИИ только подбирает подходящий ответ из этой базы? А если подходящего ответа в базе нет - то возникают галлюцинации?
Нельзя лишать человека номера, если это его единственный номер. А так же обнулять баланс. Неизвестно в какой ситуации ему внезапно может понадобиться телефон. Может это спасет ему жизнь. Хотя мне такие случаи неизвестны.