Comments 39
Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.
И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.
Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.
И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.
И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.
Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»
> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.
Интересно, каким образом? Не вижу закономерности.
Когда на торрентах?
Кстати отличнейший способ распространения такого объема информации.
Если оно выложено на S3, то оно уже доступно в виде торрента.
Что, что?
Охохох. Как на хабре любят минусовать…
aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3
Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль
aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3
Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль
пошел затариваться домашним поисковым кластером…
информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?
А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.
Интересно что там в этой базе с русским интернетом.
Хороший датасет для тестирования вских GraphDB
Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)
Лучше бы хабр проиндексировали — этого достаточно =)
Как показывает история, такой объём данных лишним не бывает.
Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее
Sign up to leave a comment.
Общедоступный индекс веба (5 миллиардов веб-страниц)