Как стать автором
Обновить

Twitter передал шести университетам всю базу твитов с 2006 года

Время на прочтение2 мин
Количество просмотров23K


Каждый день в Twitter публикуется 500 млн сообщений. Такой массив информации с персональными данными — настоящая золотая жила для дата-майнинга. На базе твитов учёные изучают паттерны в человеческом поведении, социальные связи, распространение инфекционных болезней, факторы риска для организма человека и многое другое, пишет июньский выпуск журнала Scientific American.

Например, исследователи из Microsoft разработали алгоритм, который по содержимому твитов беременной женщины определяет риск развития послеродовой депрессии. Геологическая служба США отслеживает твиты, чтобы определять эпицентр землетрясения.

До сих пор учёные были вынуждены работать с весьма ограниченной выборкой данных. Единственной возможностью для поиска по всем твитам было обращение к стандартному Twitter API, а он даёт доступ лишь к 1% всех сообщений.

Но теперь Twitter повернулся лицом к научному сообществу. В феврале компания объявила, что предоставит им для анализа полную базу со всеми сообщениями, начиная с 2006 года.

В апреле Twitter сообщил о поступлении более 1300 заявок из 60+ стран на доступ к базе данных в научных целях, при этом более половины запросов поступило из-за пределов США. После отбора кандидатов компания выбрала шесть университетов из четырёх стран, которым согласилась предоставить информацию.

Хотя доступ получили лишь избранные университеты, но всё равно это очень позитивная новость. В будущем база станет доступна более широкому кругу исследователей, что может привести к взрывному росту количества научных работ на основе дата-майнинга твитов. Имея больше данных, учёные могут отслеживать более сложные и специфические закономерности. В конце концов, база может попасть и в открытый доступ.

Правда, неизбежно возникает ряд вопросов. Например, получит ли Twitter какие-то права на результаты научных исследований? Нужно ли спрашивать разрешения у пользователей на использование их данных для дата-майнинга?

Чтобы заранее договориться о нюансах, группа учёных из Политехнического университета Виргинии предложила Правила этического использования данных Twitter, под которыми могут подписаться все, кто собирается использовать данные от Twitter. Среди прочего, правила содержат запрет на публикацию имён пользователей и ников, а также требование открыто заявлять о целях исследования. Авторы документа считают, что важно договориться о таких правилах, прежде чем в печати появится множество научных работ, сделанных с использованием этой базы данных.


Программа Maltego

Нужно добавить, что уже разработаны программные инструменты, которые прямо противоречат Правилам этического использования данных Twitter, а именно — автоматически собирают данные о конкретных пользователях и организациях. Среди таких программ — Maltego и Creepy.
Теги:
Хабы:
Всего голосов 40: ↑35 и ↓5+30
Комментарии35

Публикации

Истории

Работа

Ближайшие события

19 августа – 20 октября
RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ
МоскваНижний НовгородЕкатеринбургСтавропольНовосибрискКалининградПермьВладивостокЧитаКраснорскТомскИжевскПетрозаводскКазаньКурскТюменьВолгоградУфаМурманскБишкекСочиУльяновскСаратовИркутскДолгопрудныйОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
24 – 25 октября
One Day Offer для AQA Engineer и Developers
Онлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
26 октября
ProIT Network Fest
Санкт-Петербург
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань