Пожалуйста, пристрелите, наконец, эти тэги! / Хабр

Я обожаю крутые статьи, они необходимы мне как воздух. Если когда-нибудь наступит день, когда я не смогу прочитать прекрасную статью, мир для меня остановится. Стоит мне увидеть хорошую идею, я сразу же пишу письмо автору и у нас завязывается горячая дискуссия. Но вот в чем трабл — меня сводят с ума тэги. Это похоже на безумие – каждый блоггер ставит свои тэги. Пост о том, как девушка купила себе новый айпад, по дороге забежала в магазин, купила одежду, посидела с подружками в кафе, пришла домой, покормила собачку и посмотрела старый фильм – на разных блогах будет отмечен совершенно по-разному. Например, вот так: ipad2, Versace, starbucks, pretty small dog, retromovie или так: tablet, amazing fashion, coffee, dog like Paris Hilton dog, b/w film. Лично я, если увижу такое, решу что это наверняка черно-белый фильм о девушке, работающей в придорожном кафе, мечтающей о версачи и подкармливающая собаку с улицы. Это серьезный баг. По этой причине мимо меня проходит огромное количество нужных мне статей только из-за того, что они отмечены иначе. Но это еще не все. Когда я еще вижу тэг “others“ моя голова окончательно взрывается. Эммм, парни, вы действительно думаете, что все люди на земле телепаты? Я не знаю, что они положили в этот раздел, но я хочу знать об этом уже заранее, я не буду кликать в неизвестность. Тэги смертельно больны, это абсолютно точный диагноз. Поэтому нам нужно что-то другое, более эффективное и простое.
Аксиома первая: каждый интерпретирует тэги по-разному.

Давайте представим библиотеку, в которой каждый читатель ставит книгу не на свое место, а туда, куда ему захотелось, потому что «у них одинаковые корешки», «они одной высоты» или «вот наконец среди этой серой массы появилось яркое оранжевое пятно и мне уже не так грустно». Вам это кажется безумием? Но именно так обстоит дело с тэгами. В конце концов, когда все в библиотеке окончательно превратится в хаос, в лучшем случае уставшие посетители от безысходности договорятся между собой о том, как же ставить книги, а в худшем – обрастут шерстью и снова взберуться на деревья. Тэги изначально не были приспособлены к сети. Сколько попыток вам нужно, что бы глядя на облако тэгов, точно угадать, сколько постов в этом облаке имеют два и более тэгов? Какие именно тэги использовались для каждого поста? Мы можем понять лишь то, что мы видим – сколько тэгов всего на блоге, и соотношения разных постов. На самом деле это не совсем то, что нам нужно. Нам нужны не тэги, а информация, которую обозначают с помощью тэгов.
Аксиома вторая: тэги не информативны настолько, как нам нужно.

Как на счет того, что кликая в тэг «звезда» вы получите посты о селебритис, ресторанах, яхтах, отелях и геометрических фигурах и многое другое, но только не о звездах во вселенной, которые вы хотели найти? Как на счет получить сводки дорожных служб о работе, когда вы хотели узнать о способах увеличения посещений на вашем сайте? Это большая проблема современного интернета, не так ли? Огромное количество слов имеет несколько значений, а поскольку AI, способного понимать ваш конкретный запрос еще не существует то вы и впредь будете получать то, что вам совершенно не нужно.
Аксиома третья: один и тот же тэг может обозначать совершенно разные вещи.

Автомобиль, балетная пачка, картофель фри, нанотехнологии. Я хватаюсь за успокоительное, когда вижу такое. Серьезно, я не понимаю о чем этот пост, глядя на эти тэги. Думаете, нам было бы проще, если бы у нас была возможность узнать о пропорциях в тексте, например: автомобиль (28%), балетная пачка(32%), картофель фри(14%), нанотехнологии(26%)? Я так не думаю, во-первых, я вижу лишь обозначенные тэгами пропорции в тексте, а не нужную мне информацию в посте.
Во-вторых, я опять должен начать интерпретировать тэги и моя догадка будет сильно отличаться от того, что находится в посте. Вероятность того, что я угадаю с первого раза, очень мала. И чем дольше я буду стоять во фронт перед такими тэгами и думать о чем этот пост, тем сильнее становится мое желание покинуть эту страницу.
Аксиома четвертая: тэги не дают точного описания поста.

Как получилось, что тэги, не приспособленные для сети, все-таки пробрались в нее снаружи и превратились в огромного спрута, который обвил своими щупальцами нужные нам посты так, что мы не можем их заметить? Почему люди, начавшие делать это первыми, проигнорировали эти огромные недостатки? Ведь если вы устраиваетесь в библиотеку, вы не будете переставлять книги так, как вам захочется а сразу расспрашиваете — где должна стоять каждая книга и почему именно здесь, а не на другой полке? Что нам делать с теми, кто не подумал об этом? Заставить выложить на youtube видео на котором он извиняется, что мир стоит в информационном тупике вот уже много лет или сжечь на костре под крики «ведьма, сожгите ее»?
На самом деле они не виноваты. Они воспользовались техникой прямого переноса – если это работает в реальном мире, то сможет работать и в сети. И если в каждой крупной компании свои тэги для обозначения своих документов, то пусть и в сети все ставят свои. Увы, но сразу было понятно, что это не сработает. Давайте вспомним, что некоторые первые паровозы, уже стоявшие на рельсах, двигались за счет металлических ног, потому что изобретатель считал логичным повторить механику движения лошади. Давайте вспомним, что в первых летальных аппаратах форма крыльев повторяла крылья птиц. Металлические ноги тэгов изо всех сил упираются в землю, но не могут сдвинуть поезд с информацией, а похлопывания крыльев по бокам больше похоже на брачный танец самца, привлекающий самок, чем на свободный полет. Давайте скажем честно, тэги не работают. Нам нужна другая система. Которая сможет работать так, как нам нужно.
Аксиома пятая: тэги просто eye candy, а не инструмент для работы.

Решение.
Лично я вижу два выхода. Сразу скажу, что это не относится к стандартизации тэгов. Она не облегчит нам жизнь — мы по-прежнему будем думать над тэгами вроде «автомобиль, балетная пачка, картофель фри, нанотехнологии» стоящих в одном ряду — потому что такие сочетания не укладываются в логическую цепочку. И мы по-прежнему будем биться об стену слов с множественными значениями вроде «звезда».
Первый выход – это создание узкоспециализированных систем. Например, для фотографий гораздо лучше подходит не поиск по тэгам, а поиск по объектам или по формам. Мы озвучиваем голосом (или вводим вручную) все нужные нам на картинке объекты и располагаем их в нужных местах – так мы формулируем конкретный запрос и получаем конкретный или очень похожий результат. Второй вариант – как обычно, лежит на поверхности под самым носом (конец первой части).