alizar27 мая 2014 в 11:09

Twitter передал шести университетам всю базу твитов с 2006 года

2 мин

23K

Информационная безопасность * Data Mining * X API *

+30

Комментарии 35

Nord001 27 мая 2014 в 11:46

Весит, интересно, сколько такая база

DnV 27 мая 2014 в 12:32

Грубо 100 байт на твит, получаем 50ГБ в день. За год порядка 20ТБ. Но за 8 лет, думаю, реально не больше сотни терабайт, сначала же пользователей не так много было. А с учётом кучи повторов, в заархивированном виде может и на винт поместится )

NorthDakota 27 мая 2014 в 12:53

Мне кажется, вероятнее всего предоставят не саму базу «на винте» а ограниченый доступ к реальной безе.
Не будут же учёные каждый день скачивать по 50гб.

Alexeyslav 27 мая 2014 в 13:05

А в чем проблема скачать 50гб в день? С оптоволоконными каналами-то… чтобы не нагружать для этого дела рабочие сервера, можно завести специальный сервер который будет работать на отдачу данных и потихоньку собирать данные с ихнего кластера. В конце концов, можно составить словарь и отдавать только индексы со словаря вместо самих слов сообщений. Это резко сократит объем данных и даже упростит анализ.

NorthDakota 27 мая 2014 в 15:07

Вариант который вы предлагаете, вполне себе имеет право на существование, но вот в плане реализации намного сложнее как для «поставщика», так и для клиента. (Можно ещё учесть что в университетах сидят одни «теоретики», и мне кажется, что с такими обьёмами даных им будет тяжело справлятся)

Alexeyslav 27 мая 2014 в 16:40

Собрались террабайты перелопатить и 50 гигов станет для них проблемой? Слабо верится…

shodan 27 мая 2014 в 13:34

Тут ошибка в оценке на 2 порядка, 1 твит занимает порядка 3-4 кб, тк. там кроме текста бешеная куча метаданных.

zzeneg 27 мая 2014 в 12:56

Let's do some math.
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.

Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.

Конечно же, на правах юмора:)

odiszapc 28 мая 2014 в 03:28

Можно делать становую тягу.

xtender 28 мая 2014 в 07:53

Ну они, наверное, не json отдавать будут, а дампами базы. Должно намного меньше выйти

НЛО прилетело и опубликовало эту надпись здесь

n1tra 27 мая 2014 в 19:51

Не поделитесь ссылкой?

НЛО прилетело и опубликовало эту надпись здесь

n1tra 29 мая 2014 в 09:40

Спасибо, добрый человек! )

kemko 27 мая 2014 в 12:11

Кхм. А если в профиле выставлена галка «Protect my Tweets»?

ComodoHacker 30 мая 2014 в 09:01

Можно будет сделать исследование на тему «Социальный профиль пользователя, доверяющего галке Protect my Tweets».

dIsoVi 27 мая 2014 в 12:19

жаль российским университетам никаким не предоставили

shifttstas 27 мая 2014 в 12:32

Так наверно никто и не просил

dIsoVi 27 мая 2014 в 12:41

не нашел списка просивших, но насколько мне известно просил, например, ИТМО

LORiO 27 мая 2014 в 12:44

Я больше скажу, российским компаниям да же не продают базу твиттера.

Rasifiel 27 мая 2014 в 13:51

company.yandex.ru/press_releases/2012/0221/index.xml

LORiO 27 мая 2014 в 14:04

к сожалению это публичное api, а не база твиттов

Rasifiel 27 мая 2014 в 14:34

А назовите хотя бы одну западную компанию, которой продали доступ к базе? Ну и так же скажите где можно получить публичный доступ к firehose на весь поток?

Urn 27 мая 2014 в 14:46

datasift.com/
gnip.com/

Rasifiel 27 мая 2014 в 14:53

Они тоже сидят на firehose. Как и Topsy.

Urn 27 мая 2014 в 14:55

Оппа, про Topsy не знал, добавил в закладки.
Gnip теперь предоставляет доступ старым твитам вроде бы. Datasift — только стрим с буферизацией в час.

Rasifiel 27 мая 2014 в 14:58

Gnip теперь принадлежит Twitter, так что можно на него не равняться. Но полный поток это уже достаточно круто, а совсем архивные данные интересуют во многом только исследователей.

hell0w0rd 28 мая 2014 в 00:01

а какая разница? На сколько я понимаю, как только твитт создается — яндекс о нем узнает.

Vilgelm 27 мая 2014 в 12:52

Интересно, а твиты из закрытых (подзамочных) аккаунтов они тоже предоставили? А личные сообщения?

kratkar 27 мая 2014 в 19:05

В списке есть университет АНБ?

AmonGeeks 27 мая 2014 в 23:28

Слово — не воробей (твит, твит...), вылетит не поймаешь!

Djulbars 28 мая 2014 в 04:42

Учитывая количество спама в твиттере, я лично не уверен в практической пользе данной затеи.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.

НЛО прилетело и опубликовало эту надпись здесь

Djulbars 28 мая 2014 в 05:26

Так поисковые системы итак это уже научились делать, с переменным успехом правда. В любом случае SEO спам от спама в электронной почте сильно отличается. Отделать ботов от людей в твиттере не так уж и сложно.

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий