alizar May 27 2014 at 11:09

Twitter передал шести университетам всю базу твитов с 2006 года

2 min

23K

Information Security*Data Mining*Twitter API*

+30

Comments 35

Nord001 May 27 2014 at 11:46

Весит, интересно, сколько такая база

DnV May 27 2014 at 12:32

Грубо 100 байт на твит, получаем 50ГБ в день. За год порядка 20ТБ. Но за 8 лет, думаю, реально не больше сотни терабайт, сначала же пользователей не так много было. А с учётом кучи повторов, в заархивированном виде может и на винт поместится )

NorthDakota May 27 2014 at 12:53

Мне кажется, вероятнее всего предоставят не саму базу «на винте» а ограниченый доступ к реальной безе.
Не будут же учёные каждый день скачивать по 50гб.

Alexeyslav May 27 2014 at 13:05

А в чем проблема скачать 50гб в день? С оптоволоконными каналами-то… чтобы не нагружать для этого дела рабочие сервера, можно завести специальный сервер который будет работать на отдачу данных и потихоньку собирать данные с ихнего кластера. В конце концов, можно составить словарь и отдавать только индексы со словаря вместо самих слов сообщений. Это резко сократит объем данных и даже упростит анализ.

NorthDakota May 27 2014 at 15:07

Вариант который вы предлагаете, вполне себе имеет право на существование, но вот в плане реализации намного сложнее как для «поставщика», так и для клиента. (Можно ещё учесть что в университетах сидят одни «теоретики», и мне кажется, что с такими обьёмами даных им будет тяжело справлятся)

Alexeyslav May 27 2014 at 16:40

Собрались террабайты перелопатить и 50 гигов станет для них проблемой? Слабо верится…

shodan May 27 2014 at 13:34

Тут ошибка в оценке на 2 порядка, 1 твит занимает порядка 3-4 кб, тк. там кроме текста бешеная куча метаданных.

zzeneg May 27 2014 at 12:56

Let's do some math.
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.

Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.

Конечно же, на правах юмора:)

odiszapc May 28 2014 at 03:28

Можно делать становую тягу.

xtender May 28 2014 at 07:53

Ну они, наверное, не json отдавать будут, а дампами базы. Должно намного меньше выйти

UFO landed and left these words here

n1tra May 27 2014 at 19:51

Не поделитесь ссылкой?

UFO landed and left these words here

n1tra May 29 2014 at 09:40

Спасибо, добрый человек! )

kemko May 27 2014 at 12:11

Кхм. А если в профиле выставлена галка «Protect my Tweets»?

ComodoHacker May 30 2014 at 09:01

Можно будет сделать исследование на тему «Социальный профиль пользователя, доверяющего галке Protect my Tweets».

dIsoVi May 27 2014 at 12:19

жаль российским университетам никаким не предоставили

shifttstas May 27 2014 at 12:32

Так наверно никто и не просил

dIsoVi May 27 2014 at 12:41

не нашел списка просивших, но насколько мне известно просил, например, ИТМО

LORiO May 27 2014 at 12:44

Я больше скажу, российским компаниям да же не продают базу твиттера.

Rasifiel May 27 2014 at 13:51

company.yandex.ru/press_releases/2012/0221/index.xml

LORiO May 27 2014 at 14:04

к сожалению это публичное api, а не база твиттов

Rasifiel May 27 2014 at 14:34

А назовите хотя бы одну западную компанию, которой продали доступ к базе? Ну и так же скажите где можно получить публичный доступ к firehose на весь поток?

Urn May 27 2014 at 14:46

datasift.com/
gnip.com/

Rasifiel May 27 2014 at 14:53

Они тоже сидят на firehose. Как и Topsy.

Urn May 27 2014 at 14:55

Оппа, про Topsy не знал, добавил в закладки.
Gnip теперь предоставляет доступ старым твитам вроде бы. Datasift — только стрим с буферизацией в час.

Rasifiel May 27 2014 at 14:58

Gnip теперь принадлежит Twitter, так что можно на него не равняться. Но полный поток это уже достаточно круто, а совсем архивные данные интересуют во многом только исследователей.

hell0w0rd May 28 2014 at 00:01

а какая разница? На сколько я понимаю, как только твитт создается — яндекс о нем узнает.

Vilgelm May 27 2014 at 12:52

Интересно, а твиты из закрытых (подзамочных) аккаунтов они тоже предоставили? А личные сообщения?

kratkar May 27 2014 at 19:05

В списке есть университет АНБ?

AmonGeeks May 27 2014 at 23:28

Слово — не воробей (твит, твит...), вылетит не поймаешь!

Djulbars May 28 2014 at 04:42

Учитывая количество спама в твиттере, я лично не уверен в практической пользе данной затеи.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.

UFO landed and left these words here

Djulbars May 28 2014 at 05:26

Так поисковые системы итак это уже научились делать, с переменным успехом правда. В любом случае SEO спам от спама в электронной почте сильно отличается. Отделать ботов от людей в твиттере не так уж и сложно.

UFO landed and left these words here