alizar Nov 8 2011 at 14:20

Общедоступный индекс веба (5 миллиардов веб-страниц)

1 min

Hadoop * Search engines *

+57

Comments 39

frig Nov 8 2011 at 14:26

Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.

Claud Nov 8 2011 at 16:38

И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.

frig Nov 8 2011 at 16:43

Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.

UFO landed and left these words here

abiruba Nov 8 2011 at 18:50

Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.

AVGUR Nov 9 2011 at 06:26

Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)

chegor Nov 9 2011 at 07:48

Вообще то мозг Анатоле — это и есть интернет.

LORiO Nov 8 2011 at 15:50

Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»

Deranged Nov 9 2011 at 06:29

3 интернета в 1.

UFO landed and left these words here

eZyatev Nov 9 2011 at 16:51

Gold Edition by Saduga!

KirEv Nov 8 2011 at 15:56

> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.

Goder Nov 8 2011 at 15:58

Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)

LORiO Nov 8 2011 at 16:00

только скорость поиска будет так себе)

KirEv Nov 8 2011 at 16:05

И качать больше года, при канале в 10мбит)

Harkonnen Nov 8 2011 at 18:46

гугла не выйдет. 50Тб весят урлы, а не контент

Goder Nov 8 2011 at 19:59

Вы всегда такой зануда?:)

Harkonnen Nov 9 2011 at 04:45

Просто люблю обламывать мысли о халяве :)

arty Nov 8 2011 at 20:20

50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.

kAIST Nov 8 2011 at 23:39

А как же связи?

arty Nov 9 2011 at 08:23

10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.

crwin Nov 8 2011 at 15:59

Когда на торрентах?

frig Nov 8 2011 at 16:16

Кстати отличнейший способ распространения такого объема информации.

dmitriid Nov 8 2011 at 18:54

Если оно выложено на S3, то оно уже доступно в виде торрента.

undead_ekb Nov 8 2011 at 22:06

Что, что?

dmitriid Nov 9 2011 at 07:29

Охохох. Как на хабре любят минусовать…

aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3

Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль

SFx Nov 8 2011 at 17:51

пошел затариваться домашним поисковым кластером…

aNDREIQA Nov 8 2011 at 17:58

информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?

kunfuzi Nov 8 2011 at 18:14

А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.

diamant Nov 8 2011 at 20:15

Главное, чтобы ему не встретился паук Гугла.
Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.

SergeyNeiger Nov 9 2011 at 06:35

В конце останется только Один!
Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)

RomanL Nov 8 2011 at 18:17

Интересно что там в этой базе с русским интернетом.

kunfuzi Nov 8 2011 at 18:36

не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке

dmitriid Nov 8 2011 at 18:55

Хороший датасет для тестирования вских GraphDB

Methos Nov 8 2011 at 21:19

Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)

UFO landed and left these words here

Funcraft Nov 9 2011 at 07:30

Как показывает история, такой объём данных лишним не бывает.

sergtop Nov 9 2011 at 10:26

Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее

impass Nov 9 2011 at 18:06

теперь шкафчик с жёсткими дисками будет