cast Jul 10 2011 at 10:01

Dataflow работы поисковой машины

3 min

6.6K

Search engines*

+29

Comments 13

squint Jul 10 2011 at 10:06

Ссылки как то нормализуете? Например /link и /link/ это у вас один адрес или два?

cast Jul 10 2011 at 10:10

Да, более того, там 5 разных операций с ссылками надо делать чтобы привести к единому виду.

Отдельно про это в статье про устройство БД будет.

P.S. Ну почему вы всё в детали то лезете, неужели если я написал всю систему я об этом не подумал бы?
Следующий вопрос про то отрезаю ли я www.

ertaquo Jul 10 2011 at 12:09

А действительно, обрезаете или нет? С одной стороны надо бы, а с другой — иногда попадаются сайты, у которых с www и без него разное содержимое. Например, японский почтовик www.inter7.jp работает с www и упорно не желает открывать без него.

sylvio Jul 10 2011 at 13:30

По-хорошему то, надо для этих целей DNS исползовать, чтобы корректно разрешать синонимы и перенаправления.

ertaquo Jul 10 2011 at 14:16

Значит, надо обрабатывать еще информацию с днс:
www.habrahabr.ru. 594 IN CNAME habrahabr.ru.

Infanty Jul 10 2011 at 11:39

Гм. я морфологию отдал на откуп базе отдельно в таблице словоформы, отдельно таблица с первой формой слова, отдельно таблица окончаний. База сама кэш в оперативной памяти хранит — поэтому работает довольно быстро при сохранении удобства. Правда мне нужна о словах вся морфологическая информация.

В остальном делаю почти так же.

cast Jul 10 2011 at 18:42

Нереально долго по сравнению с линейным временем поиска по дереву. 1 раз построил на перле — теперь пользую. Файл C++ где статично зашито дерево — 16Мб, зато 100 тыс словоформ. Пробовал кешем, CRC и все остальным — занимает 99% времени от всего разбора, сейчас меньше 1%.

Infanty Jul 11 2011 at 05:24

Гм… Нужно будет попробовать потестить, я просто сделал своё подобие memcached в который выгребаю все значения из базы данных, а потом по ключу = слову получаю ключ первой словоформы, а в последствии и данные слова. Памяти много потребляется, но работает вроде быстро. Нужно будет провести сравнительное тестирование. Спасибо за наводку :).