Отсидев курсов пару десятков и поняв что как реально работает гугл или яндекс ни один из преподов даже догадок не имеет (а преподы были что надо) я пошел своим путем
Так я ж не против, особенно если бы они реально на конференциях что-то полезное рассказывали. А так переливание из одного в другое для того чтобы сохранить ноухау
Вы же понимаете что внутреннее устройство БД хранящей терабайты никто не отдаст просто так
> внутреннее устройство БД хранящей терабайты никто не отдаст просто так
Открытых данных по hbase, например, хватило, чтобы сделать hadoop.
А в яндексе большая коммон-библиотека, насколько я слышал, соответственно, из-за высокой связности иногда трудно выделить нужный код. Они может и открыли бы ещё что-нибудь, но это потребует отдельных усилий.
Я логику на базе молекулярной сетки строил, что то между нейронной и семантической сетью оперирующей связями на основе большого словаря. В общем тут в любом случае нужны разумные боты для проверки словаря.
Там очень доходчиво и подробно описаны алгоритмы обнаружения групп, поиска, ранжирования, кластеризации, факторизации, моделирования деревьев решений, ядерные методы, опорные вектора, генетические алгоритмы и прочее прочее прочее. Возможно вам будет интересно её почитать, раз вы исследуете эту область. Всё с примерами кода на пёрл.
Автор «Тоби Серган» издательство О'Рейли 2008-й год. В бумажном варианте книга стоит порядка 400грн (1600руб) — но можно поискать и найти в электронном. Рекомендую.
Общие слова про устройство поиска в Web