kt2k10 апр 2009 в 16:00

Полуавтоматическое добавление тегов — решение

8 мин

530

Чулан

+11

Комментарии 9

namata 10 апр 2009 в 16:44

Экспериментировал так:
1. Стемминг
2. Отсечение мусора
3. Набор слов и словосочетаний по каждые два и три слова, идущие подряд
4. Сопоставление с базой синонимов
5. Поиск терминов (тегов в вашем случае) по найденным синонимам
6. Выбор наиболее подходящего из ассоциированных терминов (тегов) (один и тот же синоним может относиться к разным терминам) определяя дальность по графу терминов
7. Сохранение нераспознанных сочетаний в архив, чтобы предложить позже пользователю, как накопится некоторое количество с предположением возможных связей с другими.

Может у вас что получится хорошее.

maxic 10 апр 2009 в 21:57

Можно еще семантически подойти к данному вопросу. Так будет даже правильнее :)

sergeant 10 апр 2009 в 17:24

думаю, будет не лишним приведение слов к их начальной форме. облегчает понимание, более человечно.

Ueasley 10 апр 2009 в 17:27

А почему не на клиентской стороне?

И не gule, а glue, если уж на то пошло.

wolandino 10 апр 2009 в 17:35

Я реализовал нечто подобное для ключевых слов к загружаемому контенту (видео, текст, аудио, картинка) на одном из проектов.
На входе пользователю предоставлялся список заранее отобранных ключевых слов для конкретного типа контента — он постоянен. Если мы загружаем видео можно увидеть что-то вроде «ролик, видео, фильм, клип» и.т.д.
По клику например, на «ролик» вытаскивался список наиболее релевантных (точнее часто используемых с этим тегом) ключевых слов. Списки сохранялись в БД в виде дерева, и перегенерировались время от времени.