Комментарии 35
Весит, интересно, сколько такая база
+5
Грубо 100 байт на твит, получаем 50ГБ в день. За год порядка 20ТБ. Но за 8 лет, думаю, реально не больше сотни терабайт, сначала же пользователей не так много было. А с учётом кучи повторов, в заархивированном виде может и на винт поместится )
0
Мне кажется, вероятнее всего предоставят не саму базу «на винте» а ограниченый доступ к реальной безе.
Не будут же учёные каждый день скачивать по 50гб.
Не будут же учёные каждый день скачивать по 50гб.
0
А в чем проблема скачать 50гб в день? С оптоволоконными каналами-то… чтобы не нагружать для этого дела рабочие сервера, можно завести специальный сервер который будет работать на отдачу данных и потихоньку собирать данные с ихнего кластера. В конце концов, можно составить словарь и отдавать только индексы со словаря вместо самих слов сообщений. Это резко сократит объем данных и даже упростит анализ.
-1
Вариант который вы предлагаете, вполне себе имеет право на существование, но вот в плане реализации намного сложнее как для «поставщика», так и для клиента. (Можно ещё учесть что в университетах сидят одни «теоретики», и мне кажется, что с такими обьёмами даных им будет тяжело справлятся)
-1
Тут ошибка в оценке на 2 порядка, 1 твит занимает порядка 3-4 кб, тк. там кроме текста бешеная куча метаданных.
+6
Let's do some math.
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.
Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.
Конечно же, на правах юмора:)
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.
Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.
Конечно же, на правах юмора:)
+29
НЛО прилетело и опубликовало эту надпись здесь
Кхм. А если в профиле выставлена галка «Protect my Tweets»?
+13
жаль российским университетам никаким не предоставили
0
Так наверно никто и не просил
+3
не нашел списка просивших, но насколько мне известно просил, например, ИТМО
+1
Я больше скажу, российским компаниям да же не продают базу твиттера.
0
к сожалению это публичное api, а не база твиттов
0
А назовите хотя бы одну западную компанию, которой продали доступ к базе? Ну и так же скажите где можно получить публичный доступ к firehose на весь поток?
0
Они тоже сидят на firehose. Как и Topsy.
0
Оппа, про Topsy не знал, добавил в закладки.
Gnip теперь предоставляет доступ старым твитам вроде бы. Datasift — только стрим с буферизацией в час.
Gnip теперь предоставляет доступ старым твитам вроде бы. Datasift — только стрим с буферизацией в час.
0
а какая разница? На сколько я понимаю, как только твитт создается — яндекс о нем узнает.
0
Интересно, а твиты из закрытых (подзамочных) аккаунтов они тоже предоставили? А личные сообщения?
+6
В списке есть университет АНБ?
+3
Слово — не воробей (твит, твит...), вылетит не поймаешь!
-1
Учитывая количество спама в твиттере, я лично не уверен в практической пользе данной затеи.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Twitter передал шести университетам всю базу твитов с 2006 года