nanton 26 янв 2018 в 12:43

Как я сделал AI для выявления фейковых новостей с точностью в 95% и чуть не рехнулся

6 мин

54K

Блог компании InlyITСпам и антиспамМашинное обучение*

Перевод

+39

Комментарии 44

semen-pro 26 янв 2018 в 14:17

Это как VirusTotal или Антиплагиат: после написания фейковой статьи нужно прогнать ее через ваш сервис, если срабатывает — переделать.

+10

BiTHacK 26 янв 2018 в 14:23

Прогонять вирус после его написания через VirusTotal не самая хорошая идея, т.к. проверяемые файлы передаются AV.

Rambalac 26 янв 2018 в 15:09

Del

boblenin 26 янв 2018 в 21:05

Все все? Возникает сразу идея ddos

pda0 26 янв 2018 в 22:23

Пффф… Конкурентные нейросети. Одна обучается по тем же критериям отличать правдивые новости, а вторая — её обманывать. В конце у нас будут такие фейковые статьи, которые окажутся более настоящими, чем настоящие. Даже проверку за пределами интернета будут проходить. :)

+12

Antervis 27 янв 2018 в 09:28

у людей-то не всегда получается генерировать правдоподобные фейки, а вы говорите о перекладывании этой задачи на нейросеть

San66 28 янв 2018 в 21:19

Зато нейросеть может заDDOSить людей.

roryorangepants 27 янв 2018 в 12:03

К сожалению, в данный момент GANы толком не научились использовать для генерации текста.

lowride 27 янв 2018 в 17:32

Дойдут до того что искусственные интеллекты будут с друг другом воевать. Был кстати такой рассказ. Там люди полностью устранились от управления боевыми роботами, а роботы воевали сами друг с другом дальше.

nidalee 27 янв 2018 в 23:19

Philip K. Dick — Second Variety / Филип Дик — «Вторая модель»

Deosis 29 янв 2018 в 09:37

Есть ещё один рассказ, в котором все роботы обоих сторон отказались воевать, узнав, что среди них прятался человек в скафандре.

Narical 27 янв 2018 в 17:23

И в итоге придется убрать из статьи все основные пропагандистские инструменты и поменять тональность. И «польза» от нее в том смысле, для чего она писала, снизится в несколько раз.

VladVin 26 янв 2018 в 14:26

Укажите, по какой метрике считали точность, и какая была выборка — сколько позитивов и негативов

Semy 26 янв 2018 в 15:20

Статья отмечена как перевод. Вы у кого спрашиваете?

VladVin 26 янв 2018 в 15:44

Ой, точно, извиняюсь. В оригинальной тоже никаких упоминаний не нашел

myrkoxx 26 янв 2018 в 15:24

И тут меня озарило: может быть, решение состоит в том, чтобы выявлять не фейковые новости, а достоверные. Достоверные новости куда проще свести в единую категорию.

Хмм. Похоже на «Все счастливые семьи счастливы одинаково, каждая несчастливая семья несчастлива по-своему». Как раз где-то на Хабре недавно даже статья проскакивала.

fediq 26 янв 2018 в 15:30

Интересно, как автор понял, что он сам в состоянии отделить настоящие новости от фейковых и сформировать обучающую выборку? Можно ли использовать его дар, чтобы методом перебора понять, кто же все-таки сбил малайзийский Боинг?

+13

Revertis 26 янв 2018 в 15:43

Мне кажется, что статья про Боинг может быть честной, но показания свидетелей в ней могут быть ложными. Причём, даже непреднамеренно, ибо часто показания свидетелей просто какой-то бред.

San66 26 янв 2018 в 16:13

«Если факты противоречат моей теории, тем хуже для фактов» не иначе.

А Боинг сбил тот, на кого укажут секретные информаторы WADA.

+10

НЛО прилетело и опубликовало эту надпись здесь

vikarti 27 янв 2018 в 15:26

Более простая чем то ситуация. И более провокационная
Статья ну например о выборах губернатора Севастополя. Репортер на тех выборах был и дословно описывает что видел, с фотками + ссылка на документ в .gov.ru описывающий тоже самое(и тому что репортер написал — документ не противоречит).

Статья достоверная?
А если учесть что с официальной точки Украины — не может быть никаких выборов губернатора Севастополя а xxx.gov.ru в вопросах по Севастополю точно не авторитет?

А статья что решением Верховной рады аэропорт симферополя именуется «Международный аэропорт Симферополь имени Амет-Хана Султана» и в статье просто написано что аэропорт — переименован без указания КЕМ? А если указано про Раду но без комментария про то почему данное решение для жителей Крыма — не имеет особого значения?

Что делать с такими статьями условному гуглу если есть желание учитывать достоверность в ранжировании? А условному яндексу?

НЛО прилетело и опубликовало эту надпись здесь

VolCh 29 янв 2018 в 11:31

Это всё примеры достоверности, ведь искажения фактов нет. Если кому-то интересны правовые и(или) практические последствия событий под названиями "выборы губернатора Севастополя" или "переименование аэропорт симферополя", то он углубится в тему и найдёт другие достоверные новости, в том числе новости о занятии Россией Крыма и последующем включении его в свой состав и объявление Украиной Крыма временно оккупированной территорией и сделает выводы о последствиях на основе фактов самостоятельно или обратится к аналитическим статьям авторитетных для себя источников. Но это будут уже не новости, а чьё-то мнение, недостоверным может быть только его изложение.

T-362 26 янв 2018 в 15:55

Не дайте темные боги варпа Гуглу добраться до таких идей. Я уже представляю диалог:

— Ваш сайт был замечен нашим алгоритмом в распространении фейковых новостей, вы отключены от рекламки и удалены из поисковой выдачи.
— Но вот же видео, свидетельские показания и ссылки на .gov с подтверждениями!
— Данный ящик не предназначен для рассмотрения жалоб, обращайтесь по адресу noreply@google.com, ожидаемое время рассмотрения жалобы 845 рабочих дней.

+11

bro-dev 26 янв 2018 в 17:32

ну не знаю, хотя гугл и переходит границы, это все равно на пользу конечному пользователю.

-9

T-362 26 янв 2018 в 17:45

Угу, сует рекламу в звуки природы на ютубе из-за нарушения этим видео копирайтов — монетизируя его в пользу «владельца копирайта», ставшее притчей во языцех качество работы их суппорта, насильное втюхивание своей упоротой соц сети чуть менее чем всюду (что, в прочем, не помогло — она сдохла, а я даже не успел запомнить ее название), выпуск мессенджеров @ закрытие мессенджеров, поисковые и оценочные алгоритмы что в гугле что на ютубе — пихаюшие треш на казахском как самое востребованное по ру сегменту, анализ переписки для таргетинга рекламы.
Вне сомнения — это все равно на пользу конечному пользователю.

+14

equand 28 янв 2018 в 14:34

Добавьте возможность написать фейковый обзор на бизнес понижая их в рейтинге без возможности оспорить или удалить его.

San66 26 янв 2018 в 16:05

Следующим шагом объявляем всё, не прошедшее через анализ достоверности как недостоверное, фэйковое и возвращаемся к вопросу о «Министерстве правды» :-)

degs 26 янв 2018 в 17:31

Достоверные новости куда проще свести в единую категорию.… И надежных ресурсов, откуда можно набрать материалы, для них хватает.

Ну-ну, да вы батенька я вижу оптимист.

boblenin 26 янв 2018 в 21:06

Интересно как же все-таки оценивались надежные ресурсы? Reuters и The Onion уже успели хорошо запачкаться в однобоковости подачи информации (предвзятости).

VolCh 27 янв 2018 в 00:45

Если предвзятость состоит из фильтрации новостей, что публиковать, а что нет, то источник надёжный.

Chamie 28 янв 2018 в 05:16

The Onion? Запачкаться? Это шутка такая?

Tantrido 26 янв 2018 в 18:01

Молодец Aaron Edell: пока он работал над материалом, сильно расширил своё сознание и понимание процессов в мире, и ещё и другим поможет теперь.

Tortortor 26 янв 2018 в 22:17

ты что, против путина?

-7

EvilBeaver 27 янв 2018 в 00:04

Как-то толсто. Вы ресурсом не ошиблись?

VolCh 27 янв 2018 в 00:44

А что, Путин генерирует фейковые новости?

soniq 27 янв 2018 в 10:10

Если не Путин, то кто?</s>

cl0ne 28 янв 2018 в 18:43

Трамп, наверное

sfocusov 27 янв 2018 в 10:22

А что будет, если если в настоящие новости записывать статьи «Комсомольской правды», «Тайны Чапман» и «Шоу Малахова»? То есть, действуя от противного, мы получим всё-таки средство выявления фейковых новостей?

Chamie 28 янв 2018 в 05:18

Так с этого же и начали.

Frankenstine 27 янв 2018 в 11:27

Херня этот ваш AI. В новостях часто можно увидеть группу одной новости, где идёт утверждение какого-то события или факта, а затем его опровержение, причём примерно таким же языком, на такого же авторитета сайтах. Даже человеку порой трудно определиться какая из них верная. Более того, иногда встречаются правильные новости, не фейковые, но в виде вольного пересказа дабы не быть обвинённым в запрещённом копипасте, выполненного не очень качественного, либо коряво сделанный перевод. А иногда встречаются и нормальные переводы, которые однако искажают смысл и делают статью фейковой из-за непонимания переводчиком предметной области переводимой статьи.

algotrader2013 27 янв 2018 в 12:33

Есть подозрение, что произошла подмена понятий — автор программы научился выявлять то, что не является толстым троллингом и сарказмом, и приписал себе способность выявлять (не)фейки. Но, если фейк писать по шаблону годной новости, подставляя нужные факты и фамилии, то очень сомневаюсь, что нейросейть что-то выяснит.

Лично я для себя использую следующий алгоритм.
1) Пытаюсь найти первоисточник. Использую в гугле поиск по точной фразе и отсекая последние дни ограничением выдачи за период. Также важно правильно выбрать точную фразу, потому, что часто новости щедро откопирайчены. Использую поиск по картинке.
2) Оцениваю сайт первоисточника через similarweb, просто смотрю, какие новости на нем
3) Проверяю побочные факты, приведенные в статье. Ищу упоминания о ключевых людях/компаниях вне этого инфоповода. Например, может быть упоминание профессора с мировым именем, но невозможно найти ни одной его публикации, или упоминания о его участии в конференции.

То есть, почти все мои активности завязаны на добывание дополнительной информации (что хорошо, сама концепция интернета способствует этому), и робот может с этим справится лучше человека. В статье же попытка найти черную кошку в темной комнате, где ее нет.

+10

ThomasMorg 2 фев 2018 в 09:43

Без скепсиса относиться к новостям уже невозможно

achekalin 2 фев 2018 в 09:49

А потом загоняем в модель для проверки каждый новый пост на Хабре, каждую запись во вконтактике и фейсбуке — ба, а читать-то и нечего стало!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий