Грубо 100 байт на твит, получаем 50ГБ в день. За год порядка 20ТБ. Но за 8 лет, думаю, реально не больше сотни терабайт, сначала же пользователей не так много было. А с учётом кучи повторов, в заархивированном виде может и на винт поместится )
Мне кажется, вероятнее всего предоставят не саму базу «на винте» а ограниченый доступ к реальной безе.
Не будут же учёные каждый день скачивать по 50гб.
А в чем проблема скачать 50гб в день? С оптоволоконными каналами-то… чтобы не нагружать для этого дела рабочие сервера, можно завести специальный сервер который будет работать на отдачу данных и потихоньку собирать данные с ихнего кластера. В конце концов, можно составить словарь и отдавать только индексы со словаря вместо самих слов сообщений. Это резко сократит объем данных и даже упростит анализ.
Вариант который вы предлагаете, вполне себе имеет право на существование, но вот в плане реализации намного сложнее как для «поставщика», так и для клиента. (Можно ещё учесть что в университетах сидят одни «теоретики», и мне кажется, что с такими обьёмами даных им будет тяжело справлятся)
Let's do some math.
В октябре 2013 в твиттере было всего 300 млрд. твитов. Более поздних данных я не нашел, так что используем цифру в 500 млн/день. Получаем, что с момента запуска по май 2014 было опубликовано около 400 млрд. твитов.
Для оценки объема информации о твите возьмем стандартный ответ от Twitter API. Один твит с метаданными в json занимает 2500 символов. Пусть все символы латиница, т.е. занимают 1 байт в UTF-8. В итоге получим:
4 * 10^11 * 2500 = 10^15 символов или байт = 900 ТБ.
Если вернуться к весу базы (точнее, массе) то средний HDD на 4 ТБ весит около 0,7кг. Получим
900 ТБ = 225 диск = 157 кг.
А назовите хотя бы одну западную компанию, которой продали доступ к базе? Ну и так же скажите где можно получить публичный доступ к firehose на весь поток?
Gnip теперь принадлежит Twitter, так что можно на него не равняться. Но полный поток это уже достаточно круто, а совсем архивные данные интересуют во многом только исследователей.
Учитывая количество спама в твиттере, я лично не уверен в практической пользе данной затеи.
То же самое, что писать энциклопедию используя для этого дорвеи или ГС. Или сочинения школьников, если кому-то эта аналогия ближе.
Так поисковые системы итак это уже научились делать, с переменным успехом правда. В любом случае SEO спам от спама в электронной почте сильно отличается. Отделать ботов от людей в твиттере не так уж и сложно.
Twitter передал шести университетам всю базу твитов с 2006 года