Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Другое применение — в нахождении резюме из базы по примеру резюме кандидата
по Эвклидову расстоянию
Как ни удивительно, простой метод даёт хорошие результаты.
Не, не видно что-то хороших результатов. Том Сойер как самое близкое к сказкам Гримм?
Чтобы говорить о результатах, нужно взять известный корпус, ранжированный группой людей, и сравнить ваше ранжирование с его ранжированием, метрик есть.
В коммерческих целях такую программу возможно использовать для того чтобы для заданной веб-страницы найти наиболее подходящую рекламу, сравнивая текст читаемой пользователем страницы с текстами страниц, куда ведут имеющиеся рекламные объявления.
Это если считать, что наибольший CTR у тех страниц, которые похожи по тексту… что ничем не обосновано.
Для этих "книг с разными томами" даже частоты не нужны — там на уникальных словах все успешно найдется.
Поповоду расстояния по смыслу всё не так днозначно… почему
Вы даже не можете найти, почему ваш алгоритм дает такие ответы?
по Эвклидову расстоянию между частотами слов в анализируемых текстах
Как найти похожие тексты и отсортировать