Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы

    Два года назад директор по коммуникациям Библиотеки Конгресса США объявил о плане сделать архив всего Твиттера, начиная с марта 2006 года. Уже в то время (март 2010-го) это был очень большой объём: тогда в твиттере публиковалось 55 миллионов сообщений в день, а общий размер базы с момента основания сайта измерялся в терабайтах.

    Но то были лишь цветочки. К лету 2012-го года трафик в Твиттере вырос до 400 млн сообщений в сутки, а Библиотека Конгресса так и не запустила обещанный архив с полнотекстовым поиском. В связи с этим кое-кто начал сомневаться, что задача по силам библиотекарям. На прошлой неделе появились слухи, что они втихую отказались от амбициозного проекта. На самом деле это не так.

    Журналисты Nieman Journalism Lab взяли интервью у Дженнифер Гэвин (Jennifer Gavin), которая возглавляет проект по архивированию Твиттера в Библиотеке Конгресса США. Она уверяет, что планы остаются в силе, просто «хороший библиотекарь никогда не спешит», то есть они не собираются предоставлять свой сервис в том же темпе, в котором работает Твиттер.

    Конечно, задача оказалась гораздо сложнее технически, чем представлялось поначалу. «Процесс разработки технических спецификаций по-прежнему продолжается, но мы уже гораздо ближе к его завершению, — сказала Гэвин. — Я не могу сообщить конкретную дату, когда мы будем готовы объявить об этом официально». Сейчас определяются критерии, как осуществлять сортировку исходных данных: по ключевым словам, по времени и т.д. Разработчики до сих пор не определились, каким должен быть пользовательский интерфейс системы.

    «В прошлом году мы начали частично получать материал от компании Twitter. Теперь мы получаем его почти ежедневно. Это очень большие объёмы данных», — говорит Гэвин. При этом действует шестимесячное эмбарго на архивацию свежих твитов. По условиям соглашения с компанией, создаваемая база данных должна быть доступна только для некоммерческого внутрибиблиотечного использования и сохранения. Система будет доступна только для зарегистрированных посетителей библиотеки по библиотечным карточкам.

    Similar posts

    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 35

      0
      Потомки оценят этот подвиг :)
        +30
        Я не вижу смысла в этом вообще, зачем читать как чья-то собака погадила в 2006 или #хуй попал в топ?
          +22
          >>… ученые анализировали ДНК, содержащееся в окаменевших экскрементах, что дало повод их оппонентам говорить о том, что экскременты могли содержать постороннюю ДНК…

          Если нас сейчас интересует говно предков, то возможно и наших потомков заинтересует #хуй в топе.
            –9
            Ну может быть дело в том, что твитер это не только хуй и собака погадила, не? И может быть вместо того чтобы надменно вещать о том, что не видишь смысла попытаться этот самый смысл найти, не? Удивительное лицемерие вообще.
            • UFO just landed and posted this here
                –6
                Прискорбно сие. Лучше молча присунуть в карму (анонимность это дар небес) чем аргументированно поспорить и попытаться понять. Милая публика, хехе.
                  +6
                  Ну смотрите, человек написал, что «не видит смысла в этом вообще». К его комментарию два ответа — от noma4j и ваш. Оба выражают несогласие, однако комментарий noma4j на данный момент имеет рейтинг в +13, а ваш -7.

                  Мне кажется, что это должно наводить на мысль, что причина минусов вовсе не в согласии большинства с позицией hollow, а в чем-то другом.

                  Давайте посмотрим, чем же отличаются ваши комментарии:

                  * noma4j привел вполне конкретный аргумент, предположив, что сообщения в твиттере могут заинтересовать наших предков в каких-то научных целях (как я его понял).

                  * Вы предложили найти скрытый смысл даже не намекнув о том где его искать, попутно обвинив hollow в надменности и лицемерии. При этом ни одного аргумента вы собственно и не привели, хотя теперь сетуете что люди не хотят с вами аргументированно спорить.

                  Может быть тут-то собака и зарыта?

                  P.S. Поскольку вас печалит анонимность минсующих — я тоже поставил вам минус в карму за совокупность ваших двух комментариев.
                    +4
                    Меня не печалит анонимность, меня печалят минуса без диалога.

                    Твиттер это уникальная новостная площадка с неимоверным охватом аудитории и минимальным временем реакции. Когда где-то что-то происходит первым делом лезу в твитер искать отзывы из первых рук — фотографии, заметки, эмоции.

                    Твиттер это удобнейшая замена rss. У многих онлайн и офлайн газет есть твитер, очень удобно.

                    Твиттер это офигенный чатик в конце концов. Очень удобно обсуждать с друзьями всякое барахло, делиться ссылками, разное.

                    Это только самые очевидные плюсы, думаю для примера достаточно. Меня чудовищно выбешивают люди, разговаривающие шаблонами — айфон не нужен, в твитер пишут о том как сходил в туалет, прочее. Все эти вещи всего лишь инструменты. То, как они будут применяться зависит только от человека, их использующего. Ну а чтобы надменно бросить в толпу «Фи, твитер, какая ерунда» ума много не надо, да.
                      –2
                      И собственно если чуть-чуть, совсем немного подумать, то можно увидеть огромнейший потенциал этого самого архива. Социальные исследования реакции на события, например. Многие твиты содержат географические координаты, это же ценнейшая информация для социологов. А что мы имеем тут, в комментариях? «Лучше бы делом занялись», «Собака погадила». Для любого человека должно быть оскорбительно, унизительно говорить шаблонные вещи не думая. Это отвратительно. Вот такие вот дела, ребята.
                0
                Как пример — на этом материале можно изучать лингвистические явления. Например — как изменяется употребление различных слов. Или ретроспективный анализ реакции в твиттере на события.

                Это же отдельный жанр текстов — твиты.
                +5
                Лучше бы дельным чем-нибудь занялись
                  +4
                  Ну, так! Шли бы на завод работать, а то всякие архивы собирают.
                    0
                    Искали бы НЛО, например…
                  • UFO just landed and posted this here
                      +6
                      Его разве не архивируют?
                        0
                        Да какая разница, мы же знаем, что землю мыши забэкапили. ;)
                      +5
                      Интересно, они и материал по ссылкам архивируют? В противном случае большинство твитов будут совершенно бесполезны для потомков.
                      Как по мне лучше бы архивировали к себе ресурсы по типу хабра и обязательно со всеми комментариями к статьям.
                      Это было бы реально полезно, а не превращать Библиотеку Конгресса в свалку, индексирующей тонны бесполезного контента.
                        0
                        Ну вам, конечно, виднее, полезный это контент или нет. Не то что чувакам из библиотеки Конгресса.
                        +3
                        400 млн * 140 символов (а большинство твитов все-таки меньше) = 56 Гб + остальное, вроде имени, времени публикации и т.д., ну пусть будет 100 Гб в день. Не так уж и много получается. Странно, что такое учреждение находит сложности в архивации этого контента.
                          0
                          не 56гб, а минимум 112, там же юникод
                            +1
                            Вы считаете, что в Twitter латиницы нет вообще?
                              +1
                              Это еще без сжатия, учитывая что можно дедуплицировать большинство твитов и сжать их. Там будет намного меньше
                                0
                                Латиницу можно детектить легко и переводить в latin1 кодировку. Да и вообще про архивацию забыли что ли? Она круто жмет текстовые данные!
                                  +2
                                  >Латиницу можно детектить легко и переводить в latin1 кодировку.
                                  Зачем это делать если есть UTF-8?
                                +2
                                Они не просто хотят заархивировать, а так же построить индекс и организовать полнотекстовый поиск. А это ой как не просто
                                • UFO just landed and posted this here
                                  +3
                                  Да там же 97% твитов такие-же как у Артемия Лебедева, еще 2% это чекины с foursquare и 1% чего-то полезного.
                                    +1
                                    Это хорошо, значит можно неплохо упаковать все твиты, простым алгоритмом, просто поиском повторяющихся сообщений… а если по умнее, уровень компрессии может быть 'на порядок'.

                                    p.s. зачем нужно все хранить? это же элементарно (статья публиковалась на хабре, нашел только видео)
                                    0
                                    Хотят архивировать — пусть архивируют. Это их проблемы.
                                      +1
                                      Я бы не отказался почитать свои первые твиты. Однако при попытке их откопать, твиттер сдаётся и посылает меня уже на 2-3 сотне.
                                        0
                                        Ответил вам чуть ниже по поводу первых твитов.
                                        0
                                        Свои, и не только свои, первые твиты можно прочитать с помощью вот этого отличного сервиса.
                                          0
                                          Дальше 3200 последних твитов он все равно не показывает (ограничение Twitter API).
                                        • UFO just landed and posted this here
                                            0
                                            Это благое дело. Если уметь ставить исследовательские задачи, твиттер может быть весьма полезен, т.к. предсказание котировок акций и результатов выборов на основе его данных в последнее время набирают популярность.

                                            Only users with full accounts can post comments. Log in, please.