Соглашусь с последним абзацем, не уверен что список предложений по загородной недвижке, например в правом меню будет релевантен контенту, о ремонте дома, в центре. По той причине и режу — ведь поисковик все равно туда попадет т.к. ссылки есть. Вообще можно сказать что текст ссылки относится к странице НА которую ведет, а не к текущей. Значит на странице статьи смысла знать что тут еще загородная продажа — нет, зато это надо знать на странице непосредственной продажи.
В принципе у меня PR считается пословный, и в нем учитывается все, однако напрямую «найдено по ссылке» я еще не сделал — очень непонятно как там ранжировть
Нереально долго по сравнению с линейным временем поиска по дереву. 1 раз построил на перле — теперь пользую. Файл C++ где статично зашито дерево — 16Мб, зато 100 тыс словоформ. Пробовал кешем, CRC и все остальным — занимает 99% времени от всего разбора, сейчас меньше 1%.
не самообучающийся, и не для текстовых блоков, а для кусков HTML — с тегами включительно
в результате получаю простейшую и довольно хорошо работающую систему. см выше коммент
нет все намного проще — рабиваю по законченным кускам html от мелких до крупных и считаю количество повторов. потом уже исходя из количества и размера блока делаю вывод надо это убирать из всех страниц или нет. уже дописываю статью про это
Так я ж не против, особенно если бы они реально на конференциях что-то полезное рассказывали. А так переливание из одного в другое для того чтобы сохранить ноухау
Вы же понимаете что внутреннее устройство БД хранящей терабайты никто не отдаст просто так
просто потому что на работу поисковика это не влияет и эту опцию всегда можно добавить потом. сейчас задача чтобы система работала стабильно и быстро, а не реализовать поддержку всего на свете
Отсидев курсов пару десятков и поняв что как реально работает гугл или яндекс ни один из преподов даже догадок не имеет (а преподы были что надо) я пошел своим путем
Есть подозрение что поскольку моя база целиком если не ограничивать на 1 винч плохо влезает, то универсальные решения не помогут, но я почитаю, спасибо
В 11 классе я знал 3 и сдавал в качестве экзамена проект проигрывателя wav файлов типа winamp тогдашнего только под Dos
На втором курсе, когда у меня уже были свои проекты, для обучения я владел Pascal/C/Basic и для работы Shell(да, это язык программирования)/Perl/PHP/JS/VBScript/ASP/SVG (если его можно считать)/AJAX (тогда слова такого не было) ну и кучу всякого типа XML/HTML/SQL/SOAP и тд
На третьем курсе мы сдавали проект компилятора C++ в качестве курсовой, а для себя я писал mp3 плеер и кодек (вернее декодек), соответственно я в владел(ю) MS Visual C++/Assembler
Думаю продолжать не стоит, когда есть опыт владения несколькими принципиально разными языками типа C++/Java Perl Shell или Python то изучение нового превращается в странное занятие по написанию программ «не знаю как, но работает»
Хоть я и работаю в Web и имею много сайтов и много хостов но комментировать здесь Яндекс не буду, был бы Сегаловичем — может бы ответил, а так смогу отвечать только про своий поисковик если он будет когда-нибудь в открытом доступе
В принципе у меня PR считается пословный, и в нем учитывается все, однако напрямую «найдено по ссылке» я еще не сделал — очень непонятно как там ранжировть
выбираем списки слов из запроса, ищем пересечение – считаем коэффициенты
Отдельно про это в статье про устройство БД будет.
P.S. Ну почему вы всё в детали то лезете, неужели если я написал всю систему я об этом не подумал бы?
Следующий вопрос про то отрезаю ли я www.
в результате получаю простейшую и довольно хорошо работающую систему. см выше коммент
Вы же понимаете что внутреннее устройство БД хранящей терабайты никто не отдаст просто так
На втором курсе, когда у меня уже были свои проекты, для обучения я владел Pascal/C/Basic и для работы Shell(да, это язык программирования)/Perl/PHP/JS/VBScript/ASP/SVG (если его можно считать)/AJAX (тогда слова такого не было) ну и кучу всякого типа XML/HTML/SQL/SOAP и тд
На третьем курсе мы сдавали проект компилятора C++ в качестве курсовой, а для себя я писал mp3 плеер и кодек (вернее декодек), соответственно я в владел(ю) MS Visual C++/Assembler
Думаю продолжать не стоит, когда есть опыт владения несколькими принципиально разными языками типа C++/Java Perl Shell или Python то изучение нового превращается в странное занятие по написанию программ «не знаю как, но работает»
Здорово что я не один такой на голову :)