Похожий механизм реализован в Kayako Support Suite: при попытке поставить тикет в саппорт вам на базе поиска по ключевикам в тексте предлагаются статьи из FAQ. Паршиво подсказывает, надо отметить.
Очень уж Вы усложнили. В чем проблема-то? В том, что баяны появляются? Ну так задачу кнопки «баян» с успехом выполняет кнопка «минус». Кроме того, предложенный вами алгоритм работы кнопки позволит скрывать пост (любой, ему не обязательно при этом быть повторным) с куда большей легкостью, нежели это предусмотрено текущей системой, то есть при достижении рейтинга топика более минус двух. А это уже неправильно.
ИМХО, минусование должно означать отношение к содержимому топика (откровенная тупость статьи, холивар, кг/ам, корявое оформление в конце концов), но никак не к его «баянности». Насчет сокрытия — я же не говорил о конкретных цифрах. Можно за 50 «баянов» скрывать…
можно пойти и другим путем,
1. при написании поста, не давать возможности публикации, а предоставлять копку «Предпросмотр», что с одной стороны позволит просмотреть пост, а с другой…
2. После нажатия на эту кнопку, просмотреть в базе данных соответствия по тегам, и предложить список идентичных/похожих тем. Что в свою очередь покажет человеку что такая тема уже есть, он сможет пройти по ссылкам и убедится что он сделал «баянистый» или новый пост.
3. После того как человек убедится в том что тема новая, он уже сможет запостить свой топик. ИМХО
Лучше конечно делать поиск по тексту, идентичным ссылкам на картинки, «ссылки источники» но это даст большую нагрузку. Но вот Теги и ссылки источники вполне смогут справится с поиском идентичных сообщений.
соглашусь, теги и ссылки на источники значительно профильтруют.
а еще можно после предпросмотра выдавать тот список тем, что будет висеть возле поста с заголовком «Похожие публикации» (ну, по идее, это и есть наверно сравнение по тегам)
Первая ситуация. Представьте, что автор пишет что-то про Гугл. Этот пост первый в своем роде: в нем автор рассуждает о том, как Гугл увел у него девушку. И кошку. Он помечает топик тегом google, жмет «Предпросмотр»… и получает тысячу восемьсот тридцать девять топиков, объединенных под словами «Похожие публикации». Автор теряет веру в будущее и вешается на витухе.
Вторая ситуация. Автор написал текст про выход Виндоус Семь — кажется, девятнадцатый по счету! — и протегировал его словами «винда» и «семерочка». Жмет предпросмотр, не видит ни одного совпадения и с гиканьем публикует пост. Спустя полчаса, после взгляда на значение своей кармы, автор теряет веру в будущее и вешается на витухе.
Третья ситуация. Автор находит свежую картинку с трупиком мыши в принтере, кидает ее на ipicture и вставляет ссылку в топик, тегируя его словом «юмор». Жмет предпросмотр. Механизм поиска похожих публикаций смотрит на картинку, потом на теги и, теряя веру в будущее, комментирует все строки своего кода.
Чего-то не хватает в третьем эпизоде, не находите? :)
Если серьезно, то в первом случае перебор, поскольку нормальный поиск похожих имеет список стоп слов, в который уж точно гугл входит :) А уже совсем правильно такой список вычислять самому по контенту раз в месяц, потому что он зависит от аудитории.
Во второй ситуации — сами же хвалились что теги у вас теперь умные. По идее «винда» должно быть равно «windows» и «суксь». Опять же теги это лишь теги, и должны иметь лишь чуть больший вес при поиске.
Да я к тому клоню, что механизм поиска схожих публикаций слишком сложен для реализации. Я не встречал еще ни одного адекватного. Да, можно по тегам сверять, но это не даст нужного эффекта. Кроме того, вы представляете себе, что такое перед КАЖДОЙ публикацией сверяться с выскочившим списком и искать там похожее на свой пост? Это натуральное издевательство. Не нужно усложнять систему, которая в этом усложнении не нуждается.
Дубли нам не нужны, но их появление неизбежно, с этим бесполезно бороться. Опять же: если дубль на самом деле дубль — его заминусуют, что и происходит в 9 случаях из 10. А автор сам виноват, если запостил что-то баянистое, предварительно не проверив.
С какого перепугу? Я предложил только общий механизм (между прочим в идеале массовые заминусовывания должны уменьшиться). но никак не рычаг для законных репрессий :)
Со способом реализации отсеивания баянов, предложенным автором, не совсем согласен но с баянами действительно делать что-то нужно. Вторая страница новых топиков и уже 3 баяна попалось…
Хабр, избавь нас от баянов!