На самом деле теги вообще очень мало кто использует по-назначению. А, тем не менее, с ними можно делать кучу интересных вещей: возможность тежирования постов пользователями, как это реализовано на Last.FM, генерация списка схожих статей в блоке типа «читайте так же...» и т.д.
а по какому алгоритму делали? или планируете делать?
сначала ручками, это ладно. но потом то на автомат удобнее посадить, да чтобы ложных срабатываний почти небыло.
интересен алгоритм=)
Я думаю, что решениие о том, какой тэг будет родительским стоит принимать исходя из частоты его появления в поиске хабра / тэгах хабра / частоте слова в поисковиках. Взять самое часто употребляемое например.
Вот до такого объединение тегов никогда не должно доходить! И в этом-то основная проблема — слишком широки смыслы и области применения тегов-терминов-названий…
Sphinx — «поиск», но ни в коем случае не «SEO»!
Конечно, ведь SEO — это поисковая оптимизация.
Кстати помимо связывания синонимов можно связывать включающие понятия. Например пост с тегом Яндекс или Гугл можно находить по запросу поисковик, а по запросу Яндекс выводить посты про Гугл не следует
У ЭВМ, как правило, экстрасенсорных способностей нет, и что имелось под Google, к примеру, можно понять только из текста. А вот карта тегов…
Интересней будет, если у хабраграждан появится новая возможность ставить пользовательские теги при наличии, ну, там >100 кармы, маленький внутренний голос такой. :)
Действительно, можно помочь разработчикам Хабра, предлагая свои варианты тегов для склеивания. Алгоритм — это хорошо, а реальные варианты от сформированного сообщества — еще лучше.
Начнем с меня (с):startup=стартап; хтмл=html; линукс=linux; фотошоп=photoshop; опенсорс=опенсоурс=оупенсорс=opensource; юзабилити=usability=ui.
Возможно, некоторое из этого уже учтено.
Можно попробовать подстроить какой нибудь словарь. Автоматом найдёт кучу необходимых групп тэгов «на объединение», а вы их вручную отсортируете.
________________________________________________________________________
Не являюсь программистом (паскаль\маркапы не в счёт), так что объяснил так, как смог.
Один из способов чуть-чуть автоматизировать процесс объединения — транслитерировать русские теги и прогонять их через soundex()/metaphone(), при совпадении результатов с латинскими тегами объединять.
На мой взгляд, отношение родитель-ребёнок здесь не совсем уместно. Теги должны быть равноправны, они же синонимы, а отношение родитель-ребёнок возможно в паре, скажем, «поисковик > google». Т.е. это на самом деле должно быть два разных вида связывания, которые должны работать в паре :)
Объединение тегов на Хабре