Pull to refresh
63
0
Илья@cast

User

Send message
очень много будет. статей 30 я думаю набежит. а так хоть понятно где искать начало
Соглашусь с последним абзацем, не уверен что список предложений по загородной недвижке, например в правом меню будет релевантен контенту, о ремонте дома, в центре. По той причине и режу — ведь поисковик все равно туда попадет т.к. ссылки есть. Вообще можно сказать что текст ссылки относится к странице НА которую ведет, а не к текущей. Значит на странице статьи смысла знать что тут еще загородная продажа — нет, зато это надо знать на странице непосредственной продажи.

В принципе у меня PR считается пословный, и в нем учитывается все, однако напрямую «найдено по ссылке» я еще не сделал — очень непонятно как там ранжировть
ну т.е. да, сухое, потом молоко только пробегаем их параллельно ища совпадения. Обычно они просто в память не поместятся чтобы быстро их пересечь
читаем внимательно
выбираем списки слов из запроса, ищем пересечение – считаем коэффициенты
возможно. поищу. я эту информацию всю собирал из разных публикаций, книг профильных, ну и сам выводил что-то. физмат образование помогает
сегодня сделаю оглавление в первой статье
Нереально долго по сравнению с линейным временем поиска по дереву. 1 раз построил на перле — теперь пользую. Файл C++ где статично зашито дерево — 16Мб, зато 100 тыс словоформ. Пробовал кешем, CRC и все остальным — занимает 99% времени от всего разбора, сейчас меньше 1%.
Да, более того, там 5 разных операций с ссылками надо делать чтобы привести к единому виду.

Отдельно про это в статье про устройство БД будет.

P.S. Ну почему вы всё в детали то лезете, неужели если я написал всю систему я об этом не подумал бы?
Следующий вопрос про то отрезаю ли я www.
не самообучающийся, и не для текстовых блоков, а для кусков HTML — с тегами включительно
в результате получаю простейшую и довольно хорошо работающую систему. см выше коммент
нет все намного проще — рабиваю по законченным кускам html от мелких до крупных и считаю количество повторов. потом уже исходя из количества и размера блока делаю вывод надо это убирать из всех страниц или нет. уже дописываю статью про это
Так я ж не против, особенно если бы они реально на конференциях что-то полезное рассказывали. А так переливание из одного в другое для того чтобы сохранить ноухау
Вы же понимаете что внутреннее устройство БД хранящей терабайты никто не отдаст просто так
просто потому что на работу поисковика это не влияет и эту опцию всегда можно добавить потом. сейчас задача чтобы система работала стабильно и быстро, а не реализовать поддержку всего на свете
Отсидев курсов пару десятков и поняв что как реально работает гугл или яндекс ни один из преподов даже догадок не имеет (а преподы были что надо) я пошел своим путем
Пробовал, тогда постепенно все замедляется. Реально интенсивности нет, я про это и написал в статье не больше 1-2 страниц за раз
Не, я предпочитаю феншуй. Обработка пары десятков(а то и сотен) гигов за час глубоко оптимизированая — не верю я в Паскаль
Есть подозрение что поскольку моя база целиком если не ограничивать на 1 винч плохо влезает, то универсальные решения не помогут, но я почитаю, спасибо
В 11 классе я знал 3 и сдавал в качестве экзамена проект проигрывателя wav файлов типа winamp тогдашнего только под Dos
На втором курсе, когда у меня уже были свои проекты, для обучения я владел Pascal/C/Basic и для работы Shell(да, это язык программирования)/Perl/PHP/JS/VBScript/ASP/SVG (если его можно считать)/AJAX (тогда слова такого не было) ну и кучу всякого типа XML/HTML/SQL/SOAP и тд
На третьем курсе мы сдавали проект компилятора C++ в качестве курсовой, а для себя я писал mp3 плеер и кодек (вернее декодек), соответственно я в владел(ю) MS Visual C++/Assembler

Думаю продолжать не стоит, когда есть опыт владения несколькими принципиально разными языками типа C++/Java Perl Shell или Python то изучение нового превращается в странное занятие по написанию программ «не знаю как, но работает»
Хоть я и работаю в Web и имею много сайтов и много хостов но комментировать здесь Яндекс не буду, был бы Сегаловичем — может бы ответил, а так смогу отвечать только про своий поисковик если он будет когда-нибудь в открытом доступе
Да, у меня похожий подход, я выделяю паттерны. Все опишу

Здорово что я не один такой на голову :)

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity