Как стать автором
Обновить

Комментарии 23

А можно увидеть ваши исходные данные, набор трансформаций и нормализованный набор данных где-нибудь на github?
Постараюсь к вечеру по мск выложить файлы.
И где?

Помнится, не так давно кому-то захотелось пересчитать все рассчёты в пейперах на какую-то тему, и обнаружилось, что исходных данных нет у примерно 80% работ. Вернее, они есть, но «где-то у кого-то на флешке неизвестно где, если мы ещё не переписали поверх новой версией скрипта или не потёрли». А что, пейпер-то написан, делов-то, кто проверять будет.

На данный момент у меня нет оснований верить ни единому слову из поста, потому что я даже не знаю, каким способом вы выщемливали из всего многообразия телефонные разговоры, например, и не приписали ли нечаянно к телефонным разговорам ещё что-нибудь.
Вы в конец поста посмотрите на апдейт. К вечеру не получилось, у всех свои дела.
Давайте уточнять: Вы анализируете не реальность, а данные из одного источника. Т.е. получаете ответ не на вопрос «Какова внешняя политика России в последние годы?» а ответ на вопрос «Какой внешнюю политику России показывает сайт kremlin.ru?» — и это единственное, что Вы узнали после всего анализа.
Такие вещи как факт встречи или телефонного разговора не зависят от политических взглядов. Так что, каким бы ни был субъективным сайт кремля, это одни из немногих фактов, которые действительно можно использовать
Мы знаем о чём сказано, но мы не знаем о чем не сказано. По хорошему для анализа этих данных нужно было бы просканить сайты министерсв иностранных дел ВСЕХ стран мира и взять оттуда информацию о встречах\звонках с Россией.
Да. Я использую официальный источник для ответа на вопрос и открыто об этом говорю.
Можно добавить другие источники, например, сообщения пресс-служб других стран, но получится другая база данных, понадобится её нормализовать. Для демонстрации метода достаточно данных с кремлин.ру.
Мне кажется, что для получения относительно достоверной картины, необходимо использовать несколько разнородных источников данных, тогда уровень доверия к факту того или иного события будет совпадать с доверительным интервалом выборки источников.
Интересно, а как вы решаете задачи, требующие кластеризации данных (поиск «общих новостных тем», например) в экселе?
Через условное форматирование по словоформам в заголовках и тизерах новостей. Пришлось повозиться, конечно, но занятие оказалось увлекательным.
А можно поподробнее, что то не очень хорошо себе представляю эту процедуру. Человек-машинный метод?
1. Условное форматирование.
2. Выделение ячеек заголовка или тизера новости по вхождению текста (например, «поздравление»).
3. Группировка по цвету ячейки.
4. Проставляю соответствующие значения в тип события.
Такой подход оправдан только если у вас объемы данных небольшие и вы уверены, что ничего не пропустите. Да и вообще, у вас слишком много ручной работы, что меня лично пугает. Я бы на вашем месте посмотрел бы в сторону того же самого R и его инструментарий для работы с text mining'ом, глядишь, и программисту бы меньше работы было.
Согласна. Меня тоже пугает. В сторону R смотрю на Сoursera с огромным интересом.
[1]
Важная деталь: необходимо использовать реляционную модель организации данных. Проще говоря, каждая новая запись должна располагаться в новой строке, атрибуты помещаться в столбцах и принадлежать одному типу данных (дата, текст, число и др.). Мы ведь стремимся к созданию однородной и качественной базы данных.
Вы описали табличную базу данных. В реляционной должны быть выделены сущности, физически вынесенные в отдельные таблицы, взаимодействующие посредством механизма ключей — первичных, внешних, составных и т.д. Я ожидал, что вы по ходу статьи опишете способы выявления сущностей в наборе данных и определение их атрибутов, но вы пишете именно о табличном подходе к хранению данных.

[2]
Приступать к исследованию с желанием доказать готовую гипотезу можно, но не стоит забывать о возможном существовании альтернатив.
Разве в ситуации, когда вы хотите доказать какую-либо гипотезу, при формировании списка критериев оценки — вы не выстраиваете как условия для доказательства так и для опровержения? Если есть численный критерий, поддающийся оценке, всегда можно построить для него шкалу имеющую 2 направления — доказательство либо опровержение.

[3]
И наконец, вы начинаете статью словами «Недостаток данных не позволяет принимать решения, но и изобилие не даёт представление о том, что происходит», и призываете «приступить к поискам ответов». В начале примера вы задали конкретный вопрос для исследования — «Какова внешняя политика России в последние годы»? И далее разделили этот основной вопрос на 3 под-вопроса.

Однако, в заключении статьи вы не ответили ни на 3 этих под-вопроса, ни на основной. И не сформулировали как результат — в чем же заключается преимущество описанного вами метода работы с данными, перед другими, при получении этих ответов. Объяснитесь, пожалуйста.
1. Реляционный подход подразумевает в том числе и правильную организацию двумерных таблиц, о чём и идет речь. В данном случае можно взять независимый источник о событиях, связать с таблицами официальных пресс-релизов разных стран, получите, что хотите.

2. Ещё ни разу не встречала клиентов, которые хотят слушать опровержения своим гипотезам. Для себя у меня есть списки критериев для оценки тех или иных метрик в веб-аналитике.

3. Если вы внимательно читали подписи к графикам в последней части поста, то там можно найти ответы на заданные вопросы в том или ином виде. Резюмировать не стала, так как не хочу затрагивать фактологию.
1. Под правильной организацией двумерных таблиц, вы имеете ввиду нормализацию? Но у вас в статье нет ни разделения исходной таблицы на реляционные сущности, ни их приведения к нормальным формам. Это табличный подход к организации данных, а не реляционный.

2. Т.е. вы не считаете, что обязанность аналитика — это сказать заказчику, если его гипотеза провальна согласно банальной математике, и убедить его не выбрасывать деньги на ветер, пытаясь поровну разложить 5 яиц в 3 корзины?

3. Это некорректно. Вы задали конкретные вопросы во введении. Если в результате выполненных операций вы не можете в заключении дать на них конкретные ответы, с той или иной погрешностью — описанный метод не имеет практической ценности.
Не учтен самый важный параметр: по чьей инициативе состоялся разговор или встреча.
НЛО прилетело и опубликовало эту надпись здесь
Статья показывает, что фильтрация на входе так же важна, как и дальнейший анализ. Анализ, кстати, шикарен.
Однако, исходные данные в примере — полный фэйл. То, что состоялся телефонный разговор и об этом пресс служба не смогла не сообщить, ни разу не говорит о том, что это направление было России интересно, или Россия была активна на этом направлении.

Отбрасывание вектора активности делает весь полученный вывод просто красивым математическим этюдом. Без какой-либо практической пользы.
То, что состоялся телефонный разговор и об этом пресс служба не смогла не сообщить, ни разу не говорит о том, что это направление было России интересно, или Россия была активна на этом направлении.


Данные самые адекватные из всех открытых (не СМИ же парсить в конце концов). Факты встреч и телефонных разговоров как раз и являются маркерами интересов и активности во внешнеполитических взаимоотношениях.
— но не направлением интереса самой России и её внешней политики. Это не мы США и Германией интересуемся, это они нас на место ставят. Если грубо упростить.

Аналогия: вас постоянно затапливает сосед и вы на это реагируете т.е. общаетесь. Это что, значит, что вы соседом интересуетесь и он входит в сферу Ваших притязаний? Смысл теряется без полноценного критерия отбора данных. И задача не решается в итоге.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории