Комментарии 44
Укажите, по какой метрике считали точность, и какая была выборка — сколько позитивов и негативов
И тут меня озарило: может быть, решение состоит в том, чтобы выявлять не фейковые новости, а достоверные. Достоверные новости куда проще свести в единую категорию.
Хмм. Похоже на «Все счастливые семьи счастливы одинаково, каждая несчастливая семья несчастлива по-своему». Как раз где-то на Хабре недавно даже статья проскакивала.
Интересно, как автор понял, что он сам в состоянии отделить настоящие новости от фейковых и сформировать обучающую выборку? Можно ли использовать его дар, чтобы методом перебора понять, кто же все-таки сбил малайзийский Боинг?
А Боинг сбил тот, на кого укажут секретные информаторы WADA.
Статья ну например о выборах губернатора Севастополя. Репортер на тех выборах был и дословно описывает что видел, с фотками + ссылка на документ в .gov.ru описывающий тоже самое(и тому что репортер написал — документ не противоречит).
Статья достоверная?
А если учесть что с официальной точки Украины — не может быть никаких выборов губернатора Севастополя а xxx.gov.ru в вопросах по Севастополю точно не авторитет?
А статья что решением Верховной рады аэропорт симферополя именуется «Международный аэропорт Симферополь имени Амет-Хана Султана» и в статье просто написано что аэропорт — переименован без указания КЕМ? А если указано про Раду но без комментария про то почему данное решение для жителей Крыма — не имеет особого значения?
Что делать с такими статьями условному гуглу если есть желание учитывать достоверность в ранжировании? А условному яндексу?
Это всё примеры достоверности, ведь искажения фактов нет. Если кому-то интересны правовые и(или) практические последствия событий под названиями "выборы губернатора Севастополя" или "переименование аэропорт симферополя", то он углубится в тему и найдёт другие достоверные новости, в том числе новости о занятии Россией Крыма и последующем включении его в свой состав и объявление Украиной Крыма временно оккупированной территорией и сделает выводы о последствиях на основе фактов самостоятельно или обратится к аналитическим статьям авторитетных для себя источников. Но это будут уже не новости, а чьё-то мнение, недостоверным может быть только его изложение.
Не дайте темные боги варпа Гуглу добраться до таких идей. Я уже представляю диалог:
— Ваш сайт был замечен нашим алгоритмом в распространении фейковых новостей, вы отключены от рекламки и удалены из поисковой выдачи.
— Но вот же видео, свидетельские показания и ссылки на .gov с подтверждениями!
— Данный ящик не предназначен для рассмотрения жалоб, обращайтесь по адресу noreply@google.com, ожидаемое время рассмотрения жалобы 845 рабочих дней.
Вне сомнения — это все равно на пользу конечному пользователю.
Достоверные новости куда проще свести в единую категорию.… И надежных ресурсов, откуда можно набрать материалы, для них хватает.
Ну-ну, да вы батенька я вижу оптимист.
Лично я для себя использую следующий алгоритм.
1) Пытаюсь найти первоисточник. Использую в гугле поиск по точной фразе и отсекая последние дни ограничением выдачи за период. Также важно правильно выбрать точную фразу, потому, что часто новости щедро откопирайчены. Использую поиск по картинке.
2) Оцениваю сайт первоисточника через similarweb, просто смотрю, какие новости на нем
3) Проверяю побочные факты, приведенные в статье. Ищу упоминания о ключевых людях/компаниях вне этого инфоповода. Например, может быть упоминание профессора с мировым именем, но невозможно найти ни одной его публикации, или упоминания о его участии в конференции.
То есть, почти все мои активности завязаны на добывание дополнительной информации (что хорошо, сама концепция интернета способствует этому), и робот может с этим справится лучше человека. В статье же попытка найти черную кошку в темной комнате, где ее нет.
Как я сделал AI для выявления фейковых новостей с точностью в 95% и чуть не рехнулся