Comments 16
Бессмысленный велосипед.
Если с помощью данного велосипеда удается решать поставленные задачи — меня устраивает.
Вполне себе осмысленный велосипед.
Статья ни о чём. По сравнению с книгами здесь приведены сумбурные сведения, которые практически не использовать. По моему не скромному мнению лучше использовать клиент-серверные базы на вроде Postgres с их возможностями. А так просто говорить — невозможно, посмотрите гугл и яндекс, невозможно, ерунда полная. Кстати, одна из причин почему замедляется обновление данных по сравнению с поиском, это добавление индексов, но это того стоит.
RMBD просто не потянут
а статья об идеях автора, которые может быть кому-то не нравятся, но лично мне они интересы (сам занимался изобретением велосипедов). Я конечно понимаю, что написать второй сфинкс не имеет смысла, но адаптировать некоторые идеи под свои нужды и так, чтоб тебя это устраивало — то это того стоит.
приведены сумбурные сведения, которые практически не использовать.
Это сумбурное изложение результатов работы последних пяти лет. Бегло приведенные объемы обрабатываемой информации — один из кусочков данной реальности.
Плюс несколько скриптов, с которых все это начиналось, до сих пор работают в одном из наших телеком-монстров. Для решения той задачи их просто нечем заменить — дорого. Собственно они и были разработаны из-за того, что не было нормальных ресурсов и было жесткое требование по времени предоставления результатов. В общем, чтобы выжить (я был на испытательном сроке), пришлось вывернуться наизнанку. Это удалось.
А рассматривался вариант с партицированием таблиц на несколько серверов, в котором данные обновляются одновременно, тем самым достигая максимального прироста производительности?
Будет статья о том, как ваш поисковик парсит сайты, выбирает нужную информацию, определяет к какой теме сайт принадлежит?
боюсь вас огорчить, но Яндекс использует Oracle MySQL и PostgreSQL, про гугл к сожалению ничего не знаю
Яндекс использует много чего
сказать что Яндек использует Oracle MySQL и PostgreSQL — это ничего не сказать. У Яндекса много подпроектов и в каждом используется своя БД. Сам поисковик индекс хранит в специализированном формате. Я на Конференции задавал им вопрос, но получил очень уклончивый ответ.
Структуры данных и схемы их хранения — сердце поисковика (как и любой системы обработки данных). Просто владея данной информацией можно оценить возможности системы, в том числе расширяемость и, что не менее важно — энергозатратность. При нынешних о.юъемах информации в сети последнее — важнейший показатель жизнеспособности.
Гугл, как и Яндекс, не раскрывает реальных структур хранения данных. Весьма поверхностно в одной статье описывается общая структура их инверсного индекса, да еще то, какой монстр — их распределенная файловая система.
Все подробности — думаю они охраняются не хуже гостайн.
Кстати я слышал, что Яндекс еще и Berkeley DB использует.
Я видел, как разные люди одинаковым молотком пользуются — один бил по пальцам, а другой двумя ударами вгонял трехдюймовый гвоздь :)
Все подробности — думаю они охраняются не хуже гостайн.
Кстати я слышал, что Яндекс еще и Berkeley DB использует.
Я видел, как разные люди одинаковым молотком пользуются — один бил по пальцам, а другой двумя ударами вгонял трехдюймовый гвоздь :)
Sign up to leave a comment.
Пишу поисковик (virtual project). Хранение данных