Comments 13
Ссылки как то нормализуете? Например /link и /link/ это у вас один адрес или два?
0
Да, более того, там 5 разных операций с ссылками надо делать чтобы привести к единому виду.
Отдельно про это в статье про устройство БД будет.
P.S. Ну почему вы всё в детали то лезете, неужели если я написал всю систему я об этом не подумал бы?
Следующий вопрос про то отрезаю ли я www.
Отдельно про это в статье про устройство БД будет.
P.S. Ну почему вы всё в детали то лезете, неужели если я написал всю систему я об этом не подумал бы?
Следующий вопрос про то отрезаю ли я www.
0
А действительно, обрезаете или нет? С одной стороны надо бы, а с другой — иногда попадаются сайты, у которых с www и без него разное содержимое. Например, японский почтовик www.inter7.jp работает с www и упорно не желает открывать без него.
0
По-хорошему то, надо для этих целей DNS исползовать, чтобы корректно разрешать синонимы и перенаправления.
0
Значит, надо обрабатывать еще информацию с днс:
www.habrahabr.ru. 594 IN CNAME habrahabr.ru.
0
Гм. я морфологию отдал на откуп базе отдельно в таблице словоформы, отдельно таблица с первой формой слова, отдельно таблица окончаний. База сама кэш в оперативной памяти хранит — поэтому работает довольно быстро при сохранении удобства. Правда мне нужна о словах вся морфологическая информация.
В остальном делаю почти так же.
В остальном делаю почти так же.
0
Нереально долго по сравнению с линейным временем поиска по дереву. 1 раз построил на перле — теперь пользую. Файл C++ где статично зашито дерево — 16Мб, зато 100 тыс словоформ. Пробовал кешем, CRC и все остальным — занимает 99% времени от всего разбора, сейчас меньше 1%.
0
Гм… Нужно будет попробовать потестить, я просто сделал своё подобие memcached в который выгребаю все значения из базы данных, а потом по ключу = слову получаю ключ первой словоформы, а в последствии и данные слова. Памяти много потребляется, но работает вроде быстро. Нужно будет провести сравнительное тестирование. Спасибо за наводку :).
0
В конце статьи укажите, пожалуйста, список уже вышедших статей на эту тему.
+1
При запросе «сухое молоко» сначала ищется именно «сухое молоко», а потом «сухое», а потом «молоко»? Или как? Я так думаю нет индекса для целой фразы
0
Sign up to leave a comment.
Dataflow работы поисковой машины