kt2k Apr 10 2009 at 16:00

Полуавтоматическое добавление тегов — решение

8 min

530

Lumber room

+11

Comments 9

namata Apr 10 2009 at 16:44

Экспериментировал так:
1. Стемминг
2. Отсечение мусора
3. Набор слов и словосочетаний по каждые два и три слова, идущие подряд
4. Сопоставление с базой синонимов
5. Поиск терминов (тегов в вашем случае) по найденным синонимам
6. Выбор наиболее подходящего из ассоциированных терминов (тегов) (один и тот же синоним может относиться к разным терминам) определяя дальность по графу терминов
7. Сохранение нераспознанных сочетаний в архив, чтобы предложить позже пользователю, как накопится некоторое количество с предположением возможных связей с другими.

Может у вас что получится хорошее.

maxic Apr 10 2009 at 21:57

Можно еще семантически подойти к данному вопросу. Так будет даже правильнее :)

sergeant Apr 10 2009 at 17:24

думаю, будет не лишним приведение слов к их начальной форме. облегчает понимание, более человечно.

Ueasley Apr 10 2009 at 17:27

А почему не на клиентской стороне?

И не gule, а glue, если уж на то пошло.

wolandino Apr 10 2009 at 17:35

Я реализовал нечто подобное для ключевых слов к загружаемому контенту (видео, текст, аудио, картинка) на одном из проектов.
На входе пользователю предоставлялся список заранее отобранных ключевых слов для конкретного типа контента — он постоянен. Если мы загружаем видео можно увидеть что-то вроде «ролик, видео, фильм, клип» и.т.д.
По клику например, на «ролик» вытаскивался список наиболее релевантных (точнее часто используемых с этим тегом) ключевых слов. Списки сохранялись в БД в виде дерева, и перегенерировались время от времени.

ukko Apr 10 2009 at 18:02

Спасибо, как раз подобную штуку и я хотел реализовать… Буду черпать идеи теперь из вашего кода :)

iMaster Apr 10 2009 at 18:30

Вчера только наткнулся, на веблансере, на решение, которое еще и морфологию учитывает www.weblancer.net/users/m9i/portfolio/557485.html

CharnaD Apr 10 2009 at 19:44

Я думаю стоит оставлять только существительные. К тому же у вас там «варианты, вариантам»

а идея хороша)

maxic Apr 10 2009 at 21:59

Все же, всё что связано со словами — надо использовать семантические алгоритмы.