geotalk Jun 14 2016 at 10:15

Персональная фильтрация информации в Интернете как борьба с пропагандой и манипуляцией общественным сознанием

3 min

7.2K

Research and forecasts in IT *

-7

Comments 29

A_V_E Jun 14 2016 at 10:32

Тестируете почву для очередного закона, товарищ майор?

geotalk Jun 14 2016 at 10:53

Так точно товарищ полковник!

pewpew Jun 14 2016 at 10:38

Мне кажется, желтизну и тон подачи информации легко фильтровать прослойкой между монитором и креслом.
Есть подача материала и факты. Комикс с учёным и журналистом найдёте сами. У меня всё.

lostpassword Jun 14 2016 at 10:59

ниже включаю технаря

Извините, но что-то последние три абзаца не очень техническими получились.)
«по-современному «мягко» вычищать страницу с помощью CSS и JS» — это 98-процентный маркетинг. Если не больше.)

Lure_of_Chaos Jun 14 2016 at 11:06

«включаю технаря» и кроме двух слов «CSS» и «JS» никакой технической конкретики… Прямо как в старой шутке «я знаю каратэ, дзюдо, айкидо и еще много страшных слов»…

Lure_of_Chaos Jun 14 2016 at 11:04

Проблема получения информации не в том, что есть «лишняя» информация, а в том, что информации на самом деле не хватает. Т.е. чтобы составить собственное мнение, нужно в голове агрегировать информацию из многих источников, а не фильтровать ее.
И проблема, ранее телевидения, а теперь и интернета, в том, что отсутствие информации солят пестрыми заголовками и психологической окраской.
Т.е. даже если питаться пропагандой, но и от «своих» и «чужих», то можно составить свое мнение. Если же увеличивать кол-во «врагов» и городить на них фильтрацию — то после фильтрации останется только та информация, которая соответствует личному предвзятому мнению.

Скажем, возьмем тот же пример из статьи про «Надежда Савченко приехала в Донбасс». Вопрос — сколько информации в этом, а сколько создание нужного отношения к этому, исходя из додумывания?
К сожалению, большинство «новостей» состоят именно из такого информационного шума, который никак не скажется на индивиде в зависимости от того, узнает он об этом или вообще нет, но, напитавшись, он начинает считать это очень важным для себя, теряет душевное равновесие, тратит время за продолжением, которое обязательно следует… а практически это знание он никак не может применить, разве что в очередных сплетнях…

Поэтому, меньше фильтров и заборов, а больше, еще больше информации — вместе с фактами, промыванием мозгов, психологических приемов и пропаганды! а там уж сами разберемся, какое личное мнение составить, и нужно ли иметь какое-то мнение по каждому вопросу или это несущественно…

geotalk Jun 14 2016 at 12:14

Благодарю, вы точно уловили мой посыл в статье. Аргументы понятны и приняты :)

KirillFormado Jun 14 2016 at 12:57

Я думал о том, как хорошо бы автоматизировать как раз проверку статьи на пруфы. Вот в статье говорится о каком то случившемся факте(и не факт, что он случился), а система уже по ключевым словам нашла другие статьи где, к примеру, этот факт называется ложным. Или факт был, но мнения в других источниках о нем другое.

Хорошо бы квалифицировать текст. Этот слишком эмоционален, присутствуют обороты и слова свойственные пропаганде. Но тут можно скатиться в субъективизм, если доверить это человеку. В идеале хотелось бы что-то типа натренированной нейронной сети, которая способна классифицировать текст статьи и поиском находить статьи на те же события, но желательно, с другой точкой зрения. Я не спец в машинном обучении, видимо по этому мне кажется, что такая задача вполне может быть решена)

Inna_N Jun 15 2016 at 06:50

Можно сделать проще, фильтровать копипасту, например расширение для браузера, подсказывающее в новостном агрегаторе, что статья из источника 1 на 95% равна статье из источника 2. Раздражает, когда сложно найти новые детали новости, а пропаганду и эмоции я бы оставила, предпочитаю сама фильтровать.

geotalk Jun 15 2016 at 06:55

Всё верно, вода в новостях тоже является информационным шумом который следовало бы фильтровать.
Но судя по оценке статьи, если минусы конечно не за орфографию ставили, то за реализацию технологии вряд ли кто возьмется. В тоже время судя по опросу, тема действительно больная и я попал в точку.
Если честно то я и сам считаю, что такая технология, это чистой воды ~~ипотека~~ авантюра.

codecity Jun 14 2016 at 11:44

а по-современному «мягко» вычищать страницу с помощью CSS и JS.

Даже рекламу не полностью удается вычистить таким образом, к сожалению. Ведь это битва щита и меча.

Gryphon88 Jun 14 2016 at 11:50

Фильтровать, имхо, не надо, это можт привести к радикализации мнения. Возьмём для примера персонифицированную выдачу Гугла: на основе запросов и переходов ранжируется выдача, ссылки, по которым вы с большей вероятностью кликните, всплывают, постепенно занимая несколько первых страниц, в итоге создаётся мнение, что у вас много единомышленников (или людей, сходных по привычкам/действиям), потом — что именно ваши привычки/действия/мнения самые правильные (вон же сколько со мной согласны, 5 страниц выдачи!), а потом, что это мнение единственно верное. Ну и святые воины, как вишенка на торте.

geotalk Jun 14 2016 at 12:16

Т.е. персонифицированная выдача от гугла это зло?

Gryphon88 Jun 14 2016 at 12:19

В общем виде — да. Я предпочитаю duckduckgo с уточняющими модификаторами, а у гугла использую только scholar и гуглокниги.

Lure_of_Chaos Jun 14 2016 at 12:47

Тут вопрос только в том, выдача ли подстраивается под тебя или она тебя подстраивает?

Gryphon88 Jun 14 2016 at 12:54

Я считаю, что процесс обоюдный

weedjy Jun 14 2016 at 12:10

Задача не из легких. Взять, к примеру, Хабр. Казалось бы, по потокам, по хабам все разнесено, но все равно периодически попадаются интересные статьи в сторонних хабах или, что еще тяжелее отследить, интересные комменты к неинтересным статьям. Если сделать персональную фильтрацию на основе уже имеющейся классификации по потокам/хабам/оценкам статей, есть шанс пропустить что-то интересное. Даже коллаборативная фильтрация в случае попадания в большую группу юзеров со схожими интересами не дает 100%-й результат. Если же классифицировать под определенного человека, нужно собирать огромную статистику по тем статьям, которые ему понравились и не понравились, как-то выделять признаки, почему «статья понравилась» или почему «нет». И надо принять во внимание, что интересы человека меняются с течением времени = в процессе сбора статистики. Да и критериев для классификации «понравилась/не понравилась» будет все больше. В общем, как это совсем персонифицировать мне не очень понятно. Скорее можно отрубить явный мусор по ключевым словам и пополнять базу ключевых слов, что-то вроде борьбы со спамом. Либо довольствоваться не 100%-ым результатом. В любом случае, есть шанс пропустить что-то действительно интересное.

geotalk Jun 14 2016 at 12:21

Как-то сложно. Я поднимал вопрос со стороны что я не хочу. Например я не хочу новости про Украину и вуаля — я эти новости больше нигде не вижу. Понравилось / не понравилось немного в другой плоскости.

weedjy Jun 14 2016 at 13:45

А каков критерий классификации новостей про Украину, которые не хочется читать? Может там что-то интересное изобрели, но оно проскочит мимо Вас в соответствии с общим фильтром «не надо ничего про Украину»? Предпочтения человека к выбору интересующей информации описываются очень сложным набором критериев и выявить их для конкретного человека сложно. Имхо даже сам человек не сможет полностью формализовать набор критериев для самого себя (я пытался на примере того же Хабра и ГТ:) но всегда находится что-то, что не попадает в общее правило).

Если поднимать вопрос только со стороны «что я не хочу», то вариант реализации это аналог спам-фильтра с возможностью персональной настройки правил. Такой сервис не даст 100%-й гарантии, что конкретный человек не пропустит что-то интересное для себя (как и спам-фильтр, который иногда все же пропускает спам). Его можно будет использовать для большинства ресурсов, где достаточно читать только какие-то новости и забивать на те, что обрежутся фильтром. А для специализированных лично мне, как пользователю, будет важно, чтобы ложных срабатываний фильтра не было. Тогда либо не использовать сервис вообще, либо аналога спам-фильтра недостаточно, нужно что-то посложнее.

geotalk Jun 14 2016 at 14:56

Вы правы. Это ещё раз доказывает, что информацию ещё долгое время придется фильтровать через серое вещество.

dmitry_dvm Jun 14 2016 at 12:18

Раньше постоянно залипал на фонтанке, ленте, потом медузе и еще на куче новостных сайтов. А потом этот поток говна в голову так надоел, что резко перестал читать любые новости вообще. Стал намного уравновешеннее и добрее. Но иногда всё-таки срываюсь на пару часов.

geotalk Jun 14 2016 at 12:26

Это правда, посыл в статье именно об этом. Если не секрет, как считаете, реально ли сделать так, чтобы можно было отключить неудобные новости?

technont64 Jun 14 2016 at 14:52

Личный опыт фильтрации информационного шума привел к уже существующим технологиям:
RSS-стримы + агрегатор-читалка с возможностью фильтрации. Все существующее, ничего нового изобретать не надо :)

А если попадается что-то настолько жадное, что не дает RSS-поток, то есть vk2rss для синей соц. сети и kimonolabs для остальных сайтов.

ArkturTierry Jun 14 2016 at 15:14

Вопрос «желтизны» тем и заголовков, имхо, может решаться только достоверностью источника. В котором уже есть встроенный фильтр, называется «главный редактор». Вопрос про адекватность подачи информации может быть разделен на три подвопроса:
а. блокировка нежелательного контента (мне неинтересна тема религии, например, от слова совсем),
б. дополнение неполной или явно ангажированной подачи информации,
в. соотнесение степени привлекательности заголовка и степень соответствия текста самой статьи (или глубины раскрытия темы). Та самая проблема желтизны отчасти.

Нежелательный контент можно блокировать по ключевым словам или словосочетаниям, дополнение информации может осуществляться за счет подбора статей с по автопоиску. Ну а желтизна, как я уже писал, имхо -только адекватность источника.

UFO landed and left these words here

geotalk Jun 14 2016 at 15:15

было на lenta.ru в рамках рекламной компании одного известного бренда
https://tjournal.ru/19392-lentaru-zapustila-rezhim-horoshih-novostei

UFO landed and left these words here

RomanPyr Jun 14 2016 at 23:29

Основную повестку дня задают ограниченное число источников (ТАСС, Интерфакс и т.д.), если пробегаться по их ленте, составляя наборы ключевиков, то можно в дальнейшем на уровне файрвола блокировать контент по этим ключевикам. База соответственно должна обновляться ежедневно.

Задача упрощается тем, что, как правило, при перепечатке в других изданиях, есть ссылка на источник.

Наверняка, для этой цели можно использовать инструменты, подобные Новотеке Ашманова, предварительно их инвертировав.

correct_ua Jun 15 2016 at 19:39

СМИ — это огромные деньги, поэтому завтра ими будет заказан софт, который позволит обходить фильтры будущей системы мониторинга новостей, и все пойдет по новой на круги своя. Каждый мало мальски мыслящий человек, сам в состоянии фильтровать новости, уже видя заголовок и понимая какой группе населения этот месседж предназначен.