alizar 8 ноя 2011 в 18:20

Общедоступный индекс веба (5 миллиардов веб-страниц)

1 мин

3.7K

Поисковые технологии*Hadoop*

+58

Комментарии 39

frig 8 ноя 2011 в 18:26

Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.

Claud 8 ноя 2011 в 20:38

И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.

frig 8 ноя 2011 в 20:43

Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.

НЛО прилетело и опубликовало эту надпись здесь

abiruba 8 ноя 2011 в 22:50

Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.

AVGUR 9 ноя 2011 в 10:26

Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)

-1

chegor 9 ноя 2011 в 11:48

Вообще то мозг Анатоле — это и есть интернет.

LORiO 8 ноя 2011 в 19:50

Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»

Deranged 9 ноя 2011 в 10:29

3 интернета в 1.

НЛО прилетело и опубликовало эту надпись здесь

eZyatev 9 ноя 2011 в 20:51

Gold Edition by Saduga!

-1

KirEv 8 ноя 2011 в 19:56

> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.

Goder 8 ноя 2011 в 19:58

Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)

LORiO 8 ноя 2011 в 20:00

только скорость поиска будет так себе)

KirEv 8 ноя 2011 в 20:05

И качать больше года, при канале в 10мбит)

Harkonnen 8 ноя 2011 в 22:46

гугла не выйдет. 50Тб весят урлы, а не контент

Goder 8 ноя 2011 в 23:59

Вы всегда такой зануда?:)

Harkonnen 9 ноя 2011 в 08:45

Просто люблю обламывать мысли о халяве :)

arty 9 ноя 2011 в 00:20

50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.

-1

kAIST 9 ноя 2011 в 03:39

А как же связи?

arty 9 ноя 2011 в 12:23

10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.

-1

crwin 8 ноя 2011 в 19:59

Когда на торрентах?

frig 8 ноя 2011 в 20:16

Кстати отличнейший способ распространения такого объема информации.

dmitriid 8 ноя 2011 в 22:54

Если оно выложено на S3, то оно уже доступно в виде торрента.

undead_ekb 9 ноя 2011 в 02:06

Что, что?

dmitriid 9 ноя 2011 в 11:29

Охохох. Как на хабре любят минусовать…

aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3

Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль

SFx 8 ноя 2011 в 21:51

пошел затариваться домашним поисковым кластером…

aNDREIQA 8 ноя 2011 в 21:58

информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?

kunfuzi 8 ноя 2011 в 22:14

А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.

+38

diamant 9 ноя 2011 в 00:15

Главное, чтобы ему не встретился паук Гугла.
Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.

SergeyNeiger 9 ноя 2011 в 10:35

В конце останется только Один!
Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)

RomanL 8 ноя 2011 в 22:17

Интересно что там в этой базе с русским интернетом.

kunfuzi 8 ноя 2011 в 22:36

не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке

dmitriid 8 ноя 2011 в 22:55

Хороший датасет для тестирования вских GraphDB

Methos 9 ноя 2011 в 01:19

Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)

-1

НЛО прилетело и опубликовало эту надпись здесь

Funcraft 9 ноя 2011 в 11:30

Как показывает история, такой объём данных лишним не бывает.

sergtop 9 ноя 2011 в 14:26

Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее

impass 9 ноя 2011 в 22:06

теперь шкафчик с жёсткими дисками будет

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Общедоступный индекс веба (5 миллиардов веб-страниц)

Комментарии 39

Публикации

Истории