Комментарии 9
Экспериментировал так:
1. Стемминг
2. Отсечение мусора
3. Набор слов и словосочетаний по каждые два и три слова, идущие подряд
4. Сопоставление с базой синонимов
5. Поиск терминов (тегов в вашем случае) по найденным синонимам
6. Выбор наиболее подходящего из ассоциированных терминов (тегов) (один и тот же синоним может относиться к разным терминам) определяя дальность по графу терминов
7. Сохранение нераспознанных сочетаний в архив, чтобы предложить позже пользователю, как накопится некоторое количество с предположением возможных связей с другими.
Может у вас что получится хорошее.
1. Стемминг
2. Отсечение мусора
3. Набор слов и словосочетаний по каждые два и три слова, идущие подряд
4. Сопоставление с базой синонимов
5. Поиск терминов (тегов в вашем случае) по найденным синонимам
6. Выбор наиболее подходящего из ассоциированных терминов (тегов) (один и тот же синоним может относиться к разным терминам) определяя дальность по графу терминов
7. Сохранение нераспознанных сочетаний в архив, чтобы предложить позже пользователю, как накопится некоторое количество с предположением возможных связей с другими.
Может у вас что получится хорошее.
+1
думаю, будет не лишним приведение слов к их начальной форме. облегчает понимание, более человечно.
0
А почему не на клиентской стороне?
И не gule, а glue, если уж на то пошло.
И не gule, а glue, если уж на то пошло.
0
Я реализовал нечто подобное для ключевых слов к загружаемому контенту (видео, текст, аудио, картинка) на одном из проектов.
На входе пользователю предоставлялся список заранее отобранных ключевых слов для конкретного типа контента — он постоянен. Если мы загружаем видео можно увидеть что-то вроде «ролик, видео, фильм, клип» и.т.д.
По клику например, на «ролик» вытаскивался список наиболее релевантных (точнее часто используемых с этим тегом) ключевых слов. Списки сохранялись в БД в виде дерева, и перегенерировались время от времени.
На входе пользователю предоставлялся список заранее отобранных ключевых слов для конкретного типа контента — он постоянен. Если мы загружаем видео можно увидеть что-то вроде «ролик, видео, фильм, клип» и.т.д.
По клику например, на «ролик» вытаскивался список наиболее релевантных (точнее часто используемых с этим тегом) ключевых слов. Списки сохранялись в БД в виде дерева, и перегенерировались время от времени.
+1
Спасибо, как раз подобную штуку и я хотел реализовать… Буду черпать идеи теперь из вашего кода :)
-2
Вчера только наткнулся, на веблансере, на решение, которое еще и морфологию учитывает www.weblancer.net/users/m9i/portfolio/557485.html
+1
Я думаю стоит оставлять только существительные. К тому же у вас там «варианты, вариантам»
а идея хороша)
а идея хороша)
0
Все же, всё что связано со словами — надо использовать семантические алгоритмы.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Полуавтоматическое добавление тегов — решение