aleksandrit Feb 2 2013 at 20:18

Анализируя новости, исследователи могут предсказывать стихийные бедствия

2 min

11K

Data Mining *

+25

Comments 23

Nickel3000 Feb 2 2013 at 20:24

Холера в Анголе после засухи, когда мало воды и она грязная? Как они догадались?

+16

VolCh Feb 2 2013 at 20:37

Как я понял, причинно-следственная связь не интересует, интересует автоматическое обнаружение высокой корреляция. Проще говоря — составление примет без объяснения механизма их действия.

Nickel3000 Feb 2 2013 at 20:42

Я понял так, что это просто хорошо обученная нейронная сеть.

0lympian Feb 3 2013 at 04:28

Тут даже не особо важно, какой именно мат-аппарат статистического анализа. Тут интереснее, как они формализовали входные данные для него — именно в этом суть. Семантическая модель статьи? Просто текст втупую той же нейросети скормить, и получить при этом более-менее интересные результаты вряд ли получится :) И вот почему-то как раз об этом не написали, так что какая-то «желтуха». :)

alman Feb 3 2013 at 13:52

Вот вот — у меня точь в точь вопрос возник. Хотя, если внимательно прочитать статью, то можно обнаружить, что исследователи брали исходные данные не из «сырых» статей, а из "Semantic Web mirror of Wikipedia" в связке с "Large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations " и "OpenCyc — hundreds of thousands of Cyc terms organized in a carefully designed ontology"

Имхо, очень здравая идея — решаемая задача стоúт где-то посредине между экспертной системой и искусственным интеллектом. Шаг в верном направлении.

Mendel Feb 3 2013 at 16:09

Факты брали из сырых новостей. А уже контекст брали из семантических баз.
Так что распарс семантики из сырых текстов там таки приличный был.
Лично мои познания остановились на уровне изучения работ АОТ и перечитки их исходников.
Так что было бы интересно как именно они вытащили достаточно фактов, чтобы было чем кормить факторный анализ. Не то чтобы это было чем-то космическим, но работа там очень большая, и сильно подозреваю, что помимо ненаучных тестов с пересекающимися диапазонами обучения и тестирования мы можем найти там и кучу экспертных знаний от человека при обучении этой системы.

Albert_73 Feb 3 2013 at 16:57

Если вы ответите себе на вопрос «А как я узнал о связи антисанитарии с холерой?» то всё станет не таким уж прямолинейным для этого предсказания.

Nickel3000 Feb 3 2013 at 17:06

Мне в школе рассказали, так и узнал. Поясните, что вы имеете в виду?

Albert_73 Feb 3 2013 at 18:46

ПО ничего не знает о связи засухи с отсутствием воды. ПО ничего не знает о связи отсутствия воды с антисанитарией. ПО ничего не знает о связи антисанитарии с холерой. ПО ничего не знает о метаданнах тиап того, что всё это должно происходить в одном географическом месте, последовательно в течении короткого времени. В ПО просто загрузили двадцатилетний архив статей New York Times и других интернет-данных.

Вас учили около 15 лет для того чтобы вы смогли установить эту связь. Основной смысл подобного ПО это нахождение статистических закономерностей, в том числе скрытых и неочевидных, которые человек обнаружить иногда не в состоянии. Пример с холерой очевидный, но понятный и подходит для статьи. Наверняка есть менее очевидные зависимости типа сокращения поставок молибдена в Норвегии. Но для статьи это не очень подходит.

VolCh Feb 3 2013 at 18:52

Зато очень подходит для биржевого софта :)

Nickel3000 Feb 3 2013 at 18:56

Согласен. Об этом и статья. Про прямолинейность предсказания я же ничего не писал, а наоборот, предположил, что данное программное обеспечение — хорошо обученная нейронная сеть. Разве не так?

Mendel Feb 4 2013 at 00:39

На самом деле мы можем только предполагать, что эти сведения были полностью получены анализатором.
Я уже высказывал свои сомнения выше — вполне возможно, что часть изначальных предпосылок было получено не из цифровых источников и анализа семантики, а тупо введено администратором.
Слишком мало технических деталей. Слишком.
И это на фоне пересечения диапазонов обучения и тестов, которое сильно наводит на подозрения о не очень чистой работой. Вполне может оказаться что на поверку это банальная наколенная экспертная система на подобии того что половина здесь присутствующих писали на курсовых или ради баловства…

ПЫСЫ: я не утверждаю, что это наколенная поделка, я просто говорю что нет причин ни верить ни сомневаться.

Albert_73 Feb 4 2013 at 00:54

Есть причины верить — У исследователей нет причин участвовать в не очень чистой работе. Просто нет причин. Нет причин. Нет. Причин.

Mendel Feb 4 2013 at 11:11

Я не говорю о нечистоплотности, я лишь о возможном непрофессионализме. Причем не обязательно «исследователей», вполне может быть просто вопрос подачи инфы журналистами.
Ведь вручную, с оглядкой на цифровые данные обучить экспертную систему своим знаниям о том, что засуха + название географического места из Африки == подозрение на эпидемию это тоже работа. И в разделе «Я пиарюсь» вполне бы смотрелась. Но вот оснований считать что это что-то большее у нас по большому счету нет. Разве что мысль о том, что раз об этом говорят как о чем-то крутом, значит там есть что=то сложное с технической точки зрения.

VolCh Feb 2 2013 at 20:32

Вот если бы наоборот — по факту холеры предсказали засуху — то название было бы правильным у статьи.

Gorthauer87 Feb 2 2013 at 21:19

Оно погоду на Юпитере то учитывает?

-4

midday Feb 2 2013 at 21:35

А если еще сновидения людей учитывать — вообще Ностердамус будет.

-1

kuskus Feb 2 2013 at 23:54

Не понял момент — обучали на 1986-2007, тестировали на 2006 и 2007?
В остальном ничего сверхъестественного — создали бы соревнование на kaggle и за месяц была бы сотня подобных штук.

Mendel Feb 3 2013 at 13:47

Я кстати тоже подумал именно про такую лажу, даже не глядя на цифры.
В принципе от Майкрософт вполне можно было такого ожидать, чтобы обучали на истории и проверяли на той же самой истории.

Не понял только за что этот коммент заминусован.

Biga Feb 3 2013 at 15:38

Желаю этим учёным, чтобы их система на практике выдавала исключительно ложные результаты.
Поясню свою мысль: предсказана эпидемия => приняты меры => предсказание не сбылось.

DepenD Feb 3 2013 at 17:31

Искуственный интеллект постепенно эволиционирует до машины из Person of Interest?

vazic Feb 4 2013 at 10:19

Интересно другое — что делать с этими «предсказаниями»:
Ясно ведь, что если предотвращать негативные события — машинка потеряет причинно-следственную взязь. С другой стороны, если выключить «обучение» для такого случая — можно пропустить какую-нибудь новую связку.

Mendel Feb 4 2013 at 11:14

вносить в логику инфу о мероприятиях по борьбе.
Разбираются же как-то с пожарниками современные статистики :)

(классический пример про корреляцию количества пожарных расчетов с ущербом от пожара которая может привести к неверному выводу, что чем больше пожарных тем больше ущерб, так что нужно меньше пожарных слать)