Как стать автором
Обновить

Комментарии 39

Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.
И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.
Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.
НЛО прилетело и опубликовало эту надпись здесь
Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.
Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)
Вообще то мозг Анатоле — это и есть интернет.
Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»
3 интернета в 1.
НЛО прилетело и опубликовало эту надпись здесь
Gold Edition by Saduga!
> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.
Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)
только скорость поиска будет так себе)
И качать больше года, при канале в 10мбит)
гугла не выйдет. 50Тб весят урлы, а не контент
Вы всегда такой зануда?:)
Просто люблю обламывать мысли о халяве :)
50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.
А как же связи?
10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.
Когда на торрентах?
Кстати отличнейший способ распространения такого объема информации.
Если оно выложено на S3, то оно уже доступно в виде торрента.
Что, что?
Охохох. Как на хабре любят минусовать…

aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3

Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль
пошел затариваться домашним поисковым кластером…
информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?
А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.
Главное, чтобы ему не встретился паук Гугла.
Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.
В конце останется только Один!
Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)
Интересно что там в этой базе с русским интернетом.
не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке
Хороший датасет для тестирования вских GraphDB
Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)
НЛО прилетело и опубликовало эту надпись здесь
Как показывает история, такой объём данных лишним не бывает.
Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее
теперь шкафчик с жёсткими дисками будет
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории