Pull to refresh

Comments 35

Грубо 100 байт на твит, получаем 50ГБ в день. За год порядка 20ТБ. Но за 8 лет, думаю, реально не больше сотни терабайт, сначала же пользователей не так много было. А с учётом кучи повторов, в заархивированном виде может и на винт поместится )
Мне кажется, вероятнее всего предоставят не саму базу «на винте» а ограниченый доступ к реальной безе.
Не будут же учёные каждый день скачивать по 50гб.
А в чем проблема скачать 50гб в день? С оптоволоконными каналами-то… чтобы не нагружать для этого дела рабочие сервера, можно завести специальный сервер который будет работать на отдачу данных и потихоньку собирать данные с ихнего кластера. В конце концов, можно составить словарь и отдавать только индексы со словаря вместо самих слов сообщений. Это резко сократит объем данных и даже упростит анализ.
Вариант который вы предлагаете, вполне себе имеет право на существование, но вот в плане реализации намного сложнее как для «поставщика», так и для клиента. (Можно ещё учесть что в университетах сидят одни «теоретики», и мне кажется, что с такими обьёмами даных им будет тяжело справлятся)
Собрались террабайты перелопатить и 50 гигов станет для них проблемой? Слабо верится…
Тут ошибка в оценке на 2 порядка, 1 твит занимает порядка 3-4 кб, тк. там кроме текста бешеная куча метаданных.
Let's do some math.
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.

Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.

Конечно же, на правах юмора:)
Ну они, наверное, не json отдавать будут, а дампами базы. Должно намного меньше выйти
UFO landed and left these words here
UFO landed and left these words here
Кхм. А если в профиле выставлена галка «Protect my Tweets»?
Можно будет сделать исследование на тему «Социальный профиль пользователя, доверяющего галке Protect my Tweets».
жаль российским университетам никаким не предоставили
не нашел списка просивших, но насколько мне известно просил, например, ИТМО
Я больше скажу, российским компаниям да же не продают базу твиттера.
к сожалению это публичное api, а не база твиттов
А назовите хотя бы одну западную компанию, которой продали доступ к базе? Ну и так же скажите где можно получить публичный доступ к firehose на весь поток?
Оппа, про Topsy не знал, добавил в закладки.
Gnip теперь предоставляет доступ старым твитам вроде бы. Datasift — только стрим с буферизацией в час.
Gnip теперь принадлежит Twitter, так что можно на него не равняться. Но полный поток это уже достаточно круто, а совсем архивные данные интересуют во многом только исследователей.
а какая разница? На сколько я понимаю, как только твитт создается — яндекс о нем узнает.
Интересно, а твиты из закрытых (подзамочных) аккаунтов они тоже предоставили? А личные сообщения?
Слово — не воробей (твит, твит...), вылетит не поймаешь!
Учитывая количество спама в твиттере, я лично не уверен в практической пользе данной затеи.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.
UFO landed and left these words here
Так поисковые системы итак это уже научились делать, с переменным успехом правда. В любом случае SEO спам от спама в электронной почте сильно отличается. Отделать ботов от людей в твиттере не так уж и сложно.
UFO landed and left these words here
Sign up to leave a comment.

Articles