Крайне сумбурно написано, очень часто вообще не получается понять, о чём идёт речь.
Сейчас сам вынашиваю планы по написанию своего поисковика, так что ваши статьи очень кстати. Пишите ещё, только, пожалуйста, постарайтесь представить, как текст будет выглядеть для людей, недостаточно разбирающихся в теме.
спасибо. по количеству и качеству комментариев к предыдущим статьям подумал что можно все подсократить… буду стараться более развернуто. но про индекс и про БД которая его хранит я писал раньше.
у меня нет цели написать мануал как сделать свой поисковик построчно, я рассказываю про решения в узких местах, а пересказать 7 лет разработки, экспериментов, и тд и тп нереально
конечно хочется, только вот вопрос скорости не встает если все сделано правильно — с диска 1 seek 1 read для выдачи результатов. в статье про БД я расписал несколько подходов которые я использую
а в ОЗУ оно не влезет, и это описано в первой статье цикла — примерный размер даже небольшого индекса измеряется десятками гигабайт. у меня 10 млн страниц, 50 гб без текстов только индекс.
Построение индекса для поисковой машины