bit Apr 23 2010 at 12:10

Пишу поисковик (virtual project). Хранение данных

4 min

625

Lumber room

Comments 16

atomicxp Apr 23 2010 at 12:19

Бессмысленный велосипед.

bit Apr 23 2010 at 12:40

Если с помощью данного велосипеда удается решать поставленные задачи — меня устраивает.

oddmanout Apr 23 2010 at 13:31

Вполне себе осмысленный велосипед.

atomicxp Apr 23 2010 at 16:32

Статья ни о чём. По сравнению с книгами здесь приведены сумбурные сведения, которые практически не использовать. По моему не скромному мнению лучше использовать клиент-серверные базы на вроде Postgres с их возможностями. А так просто говорить — невозможно, посмотрите гугл и яндекс, невозможно, ерунда полная. Кстати, одна из причин почему замедляется обновление данных по сравнению с поиском, это добавление индексов, но это того стоит.

akalend Apr 25 2010 at 20:07

RMBD просто не потянут

akalend Apr 25 2010 at 20:11

а статья об идеях автора, которые может быть кому-то не нравятся, но лично мне они интересы (сам занимался изобретением велосипедов). Я конечно понимаю, что написать второй сфинкс не имеет смысла, но адаптировать некоторые идеи под свои нужды и так, чтоб тебя это устраивало — то это того стоит.

bit Apr 26 2010 at 06:11

приведены сумбурные сведения, которые практически не использовать.

Это сумбурное изложение результатов работы последних пяти лет. Бегло приведенные объемы обрабатываемой информации — один из кусочков данной реальности.
Плюс несколько скриптов, с которых все это начиналось, до сих пор работают в одном из наших телеком-монстров. Для решения той задачи их просто нечем заменить — дорого. Собственно они и были разработаны из-за того, что не было нормальных ресурсов и было жесткое требование по времени предоставления результатов. В общем, чтобы выжить (я был на испытательном сроке), пришлось вывернуться наизнанку. Это удалось.

alexs0ff Apr 23 2010 at 12:22

А рассматривался вариант с партицированием таблиц на несколько серверов, в котором данные обновляются одновременно, тем самым достигая максимального прироста производительности?

bit Apr 23 2010 at 12:39

Нету у меня нескольких серверов.
В настоящий момент один сервер на обработке, второй — поиск по результатам.
Плюс специфика текущей задачи — гигантские словари. В реальном поиске вряд ли будут словари на сотни миллионов записей — десятки тысяч. А это уже другая специфика работы.

bar_boss Apr 23 2010 at 12:29

Будет статья о том, как ваш поисковик парсит сайты, выбирает нужную информацию, определяет к какой теме сайт принадлежит?

bit Apr 23 2010 at 12:44

К счастью мне сейчас данные приносят на блюдечке.
Для парсинга — я потестировал библиотеку libxml2 — мне понравилось.
А насчет сбора данных с сайтов — кратко опишу, какие грабли нам попадались, когда решали подобную задачу. Надо было обежать много-много страниц и выкусить с них нужную информацию.

tzlom Apr 23 2010 at 20:07

боюсь вас огорчить, но Яндекс использует Oracle MySQL и PostgreSQL, про гугл к сожалению ничего не знаю

gigimon Apr 24 2010 at 10:41

Яндекс использует много чего

akalend Apr 25 2010 at 20:16

сказать что Яндек использует Oracle MySQL и PostgreSQL — это ничего не сказать. У Яндекса много подпроектов и в каждом используется своя БД. Сам поисковик индекс хранит в специализированном формате. Я на Конференции задавал им вопрос, но получил очень уклончивый ответ.

bit Apr 26 2010 at 06:00

Структуры данных и схемы их хранения — сердце поисковика (как и любой системы обработки данных). Просто владея данной информацией можно оценить возможности системы, в том числе расширяемость и, что не менее важно — энергозатратность. При нынешних о.юъемах информации в сети последнее — важнейший показатель жизнеспособности.

bit Apr 26 2010 at 06:16

Гугл, как и Яндекс, не раскрывает реальных структур хранения данных. Весьма поверхностно в одной статье описывается общая структура их инверсного индекса, да еще то, какой монстр — их распределенная файловая система.
Все подробности — думаю они охраняются не хуже гостайн.
Кстати я слышал, что Яндекс еще и Berkeley DB использует.
Я видел, как разные люди одинаковым молотком пользуются — один бил по пальцам, а другой двумя ударами вгонял трехдюймовый гвоздь :)