Объединение тегов на Хабре

    На Хабрахабре и других проектах ТМ внедрена долгожданная технология объединения тегов.
    Один «тег-оригинал» теперь может иметь несколько «синонимов».
    Например: Веб 2.0 и Web 2.0, Yandex и Яндекс или Хабр, Habrahabr и Хабрахабр.

    Изменения можно заметить в облаке тегов. После объединения тегов Хабр и Хабрахабр тег вырос до размеров Гугла :-)


    В подсказке при создании поста:


    В подсказке при поиске по тегам:


    А так же в самом поиске по тегам. Теперь, если искать «Yandex» или «Яндекс», результат будет одинаковым.

    На данный момент фича работает в тестовом режиме и добавлять синонимы можем только мы. В течении недели база будет пополняться. Пока объединены только несколько самых жирных тегов, которые попадали в облако.

    P.S. Предлагаю пофлеймить на тему что с чем следует, а с чем не следует объединять :)

    Similar posts

    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 55

      +10
      Отличная новость! Жаль только не все сайты с тегами внедряют подобные фичи =)
        0
        На самом деле теги вообще очень мало кто использует по-назначению. А, тем не менее, с ними можно делать кучу интересных вещей: возможность тежирования постов пользователями, как это реализовано на Last.FM, генерация списка схожих статей в блоке типа «читайте так же...» и т.д.
          –3
          А у Вас — это где, если не секрет?
        • UFO just landed and posted this here
            +2
            А у Вас — это где, если не секрет
            • UFO just landed and posted this here
                0
                Расскажите как организован механизм у вас?
                Сами в ручную расставляете, расставляют пользователи или автоматически?
          +3
          Просто отлично! Казалось бы элементарная вещь, а как удобно!
            +3
            «схлопывать» можно названия компаний, которые написаны как на русском, так и на английском языке
              0
              Спасибо. Действительно, полезно!
                0
                Спасибо. Действительно, полезно!
                  0
                  а по какому алгоритму делали? или планируете делать?
                  сначала ручками, это ладно. но потом то на автомат удобнее посадить, да чтобы ложных срабатываний почти небыло.
                  интересен алгоритм=)
                    0
                    Пока без алгоритма. Я даже не уверен что это возможно полностью автоматизировать.
                    Сейчас изучаю статью blogs.sun.com/plamere/entry/determining_synonyms_from_tags
                    Самое простое — перевести название всех фирм в транслит и обратно.
                      0
                      Ниже я подсказал парочку алгоритмов ;)
                    +1
                    Замечательно! Стремимся к совершенству, товарищи ;)

                    побольше бы таких нововведений в сети.
                    спасибо
                    • UFO just landed and posted this here
                      • UFO just landed and posted this here
                          0
                          А без нормативной лексики нельзя? О_О Вы сначала подумайте «почему» вас заминусовали, а уж потом что-то говорите… и будет вам счастье :)
                            0
                            ненормативной
                        +1
                        Наконец-то :)

                        Фактически, полезное применение семантический алгоритма.
                        • UFO just landed and posted this here
                            0
                            Элементарно, для всех похожих тегов указывается один родительский.
                            • UFO just landed and posted this here
                                +2
                                Модератор, очень вдумчиво и аккуратно ;)
                                  +2
                                  Я думаю, что решениие о том, какой тэг будет родительским стоит принимать исходя из частоты его появления в поиске хабра / тэгах хабра / частоте слова в поисковиках. Взять самое часто употребляемое например.
                            +6
                            Очень эффектиным был бы нечеткий поиск строк (тот же Bitap algorithm) и фонетический (к последнему была хорошая хабрастатья).

                            Выявить «кандидатов» этими алгоритмами и связать нужные вручную или силами НЛО.
                              0
                              Спасибо!
                              –5
                              Предлагаю объеденить «Хабрахабр» с «Google»! ))
                              Вот бы тогда дело получилось! ;))

                              А если серьёзно, то надо бы «SEO» и «поиск» под один таг помоему.
                                +4
                                Вот до такого объединение тегов никогда не должно доходить! И в этом-то основная проблема — слишком широки смыслы и области применения тегов-терминов-названий…
                                Sphinx — «поиск», но ни в коем случае не «SEO»!
                                  –3
                                  Конечно, ведь SEO — это поисковая оптимизация.
                                  Кстати помимо связывания синонимов можно связывать включающие понятия. Например пост с тегом Яндекс или Гугл можно находить по запросу поисковик, а по запросу Яндекс выводить посты про Гугл не следует
                                    +1
                                    У ЭВМ, как правило, экстрасенсорных способностей нет, и что имелось под Google, к примеру, можно понять только из текста. А вот карта тегов…

                                    Интересней будет, если у хабраграждан появится новая возможность ставить пользовательские теги при наличии, ну, там >100 кармы, маленький внутренний голос такой. :)
                                      0
                                      Если 2 пользователя поставили один тег его можно отобразить
                                        +1
                                        Где-то я это уже видел…
                                  +2
                                  Разве что только «поисковая оптимизация» и «SEO»
                                  +3
                                  >>P.S. Предлагаю пофлеймить на тему что с чем следует, а с чем не следует объединять :)
                                  Размышления Дмитрия Смирнова на эту тему: spectator.ru/technology/web-building/tags2null
                                    –3
                                    Замечательно. Мы такую штуку тоже сейчас тестируем на своем проекте.
                                      +1
                                      как же у меня облегчилась бы жизнь, если бы еще теги присутстовали в rss, и нормально кушались rss-ридерами… эх… мечты :)
                                        +3
                                        пользуясь случаем хочу выразить отдельное спасибо за внедрение поддержки тегов с точкой, таких как «.net», раньше приходилось писать dotNet

                                        кстати, вот вам кандидат на слияние: dotNet == .net
                                          0
                                          logo = лого = логотип
                                          А еще хорошо бы клеить слова единственном и множественном числе «стартапы» = «стартап».
                                            0
                                            :) А я сделал наоборот
                                              +1
                                              (про стартапы)
                                            +1
                                            Действительно, можно помочь разработчикам Хабра, предлагая свои варианты тегов для склеивания. Алгоритм — это хорошо, а реальные варианты от сформированного сообщества — еще лучше.
                                            Начнем с меня (с):startup=стартап; хтмл=html; линукс=linux; фотошоп=photoshop; опенсорс=опенсоурс=оупенсорс=opensource; юзабилити=usability=ui.
                                            Возможно, некоторое из этого уже учтено.
                                              +1
                                              Спасибо. Склеил. :)
                                              Только opensource = open source, usability=юзабилити, а ui я оставил.
                                            • UFO just landed and posted this here
                                                0
                                                а это разве не полезное?
                                                • UFO just landed and posted this here
                                                  • UFO just landed and posted this here
                                                –7
                                                надо проверить bobuk = порно %)
                                                  –5
                                                  Можно попробовать подстроить какой нибудь словарь. Автоматом найдёт кучу необходимых групп тэгов «на объединение», а вы их вручную отсортируете.
                                                  ________________________________________________________________________
                                                  Не являюсь программистом (паскаль\маркапы не в счёт), так что объяснил так, как смог.
                                                    0
                                                    Еще бы при выборке по тегу можно было бы сразу несколько тегов выбрать. Например «WinXP» «Файловая система»
                                                      0
                                                      Да, поиск по нескольким тегам мы планируем сделать
                                                      0
                                                      А почему в статистике две Москвы? ;)
                                                        0
                                                        Один из способов чуть-чуть автоматизировать процесс объединения — транслитерировать русские теги и прогонять их через soundex()/metaphone(), при совпадении результатов с латинскими тегами объединять.

                                                        На мой взгляд, отношение родитель-ребёнок здесь не совсем уместно. Теги должны быть равноправны, они же синонимы, а отношение родитель-ребёнок возможно в паре, скажем, «поисковик > google». Т.е. это на самом деле должно быть два разных вида связывания, которые должны работать в паре :)

                                                        Вот как-то так.
                                                          0
                                                          А ещё жаль, что метки продолжают называть тегами.
                                                            0
                                                            А возможность объединения меток правильная.

                                                          Only users with full accounts can post comments. Log in, please.