Как стать автором
Обновить

Комментарии 35

Весит, интересно, сколько такая база
Грубо 100 байт на твит, получаем 50ГБ в день. За год порядка 20ТБ. Но за 8 лет, думаю, реально не больше сотни терабайт, сначала же пользователей не так много было. А с учётом кучи повторов, в заархивированном виде может и на винт поместится )
Мне кажется, вероятнее всего предоставят не саму базу «на винте» а ограниченый доступ к реальной безе.
Не будут же учёные каждый день скачивать по 50гб.
А в чем проблема скачать 50гб в день? С оптоволоконными каналами-то… чтобы не нагружать для этого дела рабочие сервера, можно завести специальный сервер который будет работать на отдачу данных и потихоньку собирать данные с ихнего кластера. В конце концов, можно составить словарь и отдавать только индексы со словаря вместо самих слов сообщений. Это резко сократит объем данных и даже упростит анализ.
Вариант который вы предлагаете, вполне себе имеет право на существование, но вот в плане реализации намного сложнее как для «поставщика», так и для клиента. (Можно ещё учесть что в университетах сидят одни «теоретики», и мне кажется, что с такими обьёмами даных им будет тяжело справлятся)
Собрались террабайты перелопатить и 50 гигов станет для них проблемой? Слабо верится…
Тут ошибка в оценке на 2 порядка, 1 твит занимает порядка 3-4 кб, тк. там кроме текста бешеная куча метаданных.
Let's do some math.
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.

Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.

Конечно же, на правах юмора:)
Можно делать становую тягу.
Ну они, наверное, не json отдавать будут, а дампами базы. Должно намного меньше выйти
НЛО прилетело и опубликовало эту надпись здесь
Не поделитесь ссылкой?
НЛО прилетело и опубликовало эту надпись здесь
Спасибо, добрый человек! )
Кхм. А если в профиле выставлена галка «Protect my Tweets»?
Можно будет сделать исследование на тему «Социальный профиль пользователя, доверяющего галке Protect my Tweets».
жаль российским университетам никаким не предоставили
Так наверно никто и не просил
не нашел списка просивших, но насколько мне известно просил, например, ИТМО
Я больше скажу, российским компаниям да же не продают базу твиттера.
к сожалению это публичное api, а не база твиттов
А назовите хотя бы одну западную компанию, которой продали доступ к базе? Ну и так же скажите где можно получить публичный доступ к firehose на весь поток?
Они тоже сидят на firehose. Как и Topsy.
Оппа, про Topsy не знал, добавил в закладки.
Gnip теперь предоставляет доступ старым твитам вроде бы. Datasift — только стрим с буферизацией в час.
Gnip теперь принадлежит Twitter, так что можно на него не равняться. Но полный поток это уже достаточно круто, а совсем архивные данные интересуют во многом только исследователей.
а какая разница? На сколько я понимаю, как только твитт создается — яндекс о нем узнает.
Интересно, а твиты из закрытых (подзамочных) аккаунтов они тоже предоставили? А личные сообщения?
В списке есть университет АНБ?
Слово — не воробей (твит, твит...), вылетит не поймаешь!
Учитывая количество спама в твиттере, я лично не уверен в практической пользе данной затеи.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.
НЛО прилетело и опубликовало эту надпись здесь
Так поисковые системы итак это уже научились делать, с переменным успехом правда. В любом случае SEO спам от спама в электронной почте сильно отличается. Отделать ботов от людей в твиттере не так уж и сложно.
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории