Pull to refresh

Comments 13

Ссылки как то нормализуете? Например /link и /link/ это у вас один адрес или два?
Да, более того, там 5 разных операций с ссылками надо делать чтобы привести к единому виду.

Отдельно про это в статье про устройство БД будет.

P.S. Ну почему вы всё в детали то лезете, неужели если я написал всю систему я об этом не подумал бы?
Следующий вопрос про то отрезаю ли я www.
А действительно, обрезаете или нет? С одной стороны надо бы, а с другой — иногда попадаются сайты, у которых с www и без него разное содержимое. Например, японский почтовик www.inter7.jp работает с www и упорно не желает открывать без него.
По-хорошему то, надо для этих целей DNS исползовать, чтобы корректно разрешать синонимы и перенаправления.
Значит, надо обрабатывать еще информацию с днс:
www.habrahabr.ru. 594 IN CNAME habrahabr.ru.
Гм. я морфологию отдал на откуп базе отдельно в таблице словоформы, отдельно таблица с первой формой слова, отдельно таблица окончаний. База сама кэш в оперативной памяти хранит — поэтому работает довольно быстро при сохранении удобства. Правда мне нужна о словах вся морфологическая информация.

В остальном делаю почти так же.
Нереально долго по сравнению с линейным временем поиска по дереву. 1 раз построил на перле — теперь пользую. Файл C++ где статично зашито дерево — 16Мб, зато 100 тыс словоформ. Пробовал кешем, CRC и все остальным — занимает 99% времени от всего разбора, сейчас меньше 1%.
Гм… Нужно будет попробовать потестить, я просто сделал своё подобие memcached в который выгребаю все значения из базы данных, а потом по ключу = слову получаю ключ первой словоформы, а в последствии и данные слова. Памяти много потребляется, но работает вроде быстро. Нужно будет провести сравнительное тестирование. Спасибо за наводку :).
В конце статьи укажите, пожалуйста, список уже вышедших статей на эту тему.
сегодня сделаю оглавление в первой статье
При запросе «сухое молоко» сначала ищется именно «сухое молоко», а потом «сухое», а потом «молоко»? Или как? Я так думаю нет индекса для целой фразы
читаем внимательно
выбираем списки слов из запроса, ищем пересечение – считаем коэффициенты
ну т.е. да, сухое, потом молоко только пробегаем их параллельно ища совпадения. Обычно они просто в память не поместятся чтобы быстро их пересечь
Sign up to leave a comment.

Articles