Как стать автором
Обновить

Бывший сотрудник Яндекса выпустил бесплатный поисковик с блек… листами, но без рекламы

Время на прочтение 6 мин
Количество просмотров 63K
Всего голосов 119: ↑98 и ↓21 +77
Комментарии 209

Комментарии 209

Ты зачем гугл сломал?

P.S. От слова "сонце" перетряхивает литералли каждый раз

все нормально, «сонце» — это кто-то/что-то, связанное со сном :)

Да не, просто беглая гласная. В русском языке такого много.

Безграмотность, а не беглая гласная.
Вообще, за компьютером клавиша может банально не нажаться при быстрой печати. Да и кстати, если речь про сравнение поисковиков, то неплохо бы и проверить, исправляет ли сайт орфографию.

нет, это всё на полном серьёзе?) то есть оформление текста с запятыми и последующим грамотным написанием слов никому ни о чём не говорит?) именитым авторам можно ставить запятые и коверкать слова, а простой смертный сделавший очевиднейшую ошибку, которую даже самый безграмотный человек сейчас не сделает - определённо безграмотен и не достоин своего видения рифмы в условиях преднамеренной ошибки?
Нет, я может чего-то не понял... но понимаю, если бы пару минусов влепили автору, ну статистическая ошибка, у кого-то плохой день, и ладно сейчас на Хабр приплывает аудитория Пикабу, но тут массовое явление какое-то. Тут за откровенную ересь бывает меньше минусов, чем за мнение автора стихотворения! Не отрицаю, может я правда чего-то не понимаю. Объяснит кто?

Граммар-наци обычно дальше школьной программы в изучении языка не ушли, про эрративы не слышали, эволюцию литературной нормы не наблюдали. Зато очень оскорбляются, если ты говоришь или пишешь не так, как они привыкли.

>эволюцию литературной нормы

Вот как как филологи определят, насколько кандидат в нормы ломает семантику или же таки нет, не ломает, тогда и пишите в соответствии с новой признанной нормой. А пока что извольте пользоваться текущей нормой или хотя бы одной из субкультурных норм (пейсать по-падонкафски тоже надо правильно).

Некоторые прямо таки уцепились за возможность оправдывать собственную безграмотность и/или нежелание из-за лености соблюдать хорошие, годные традиции культуры речи «эволюцией», о которой что-то где-то слышали — а то как же, прямо в тренде «все мнения равны». Однако — не канает отмазка.

Возможно я нарушу вашу картину мира, но филологи не занимаются предписаниями как людям говорить и писать, они занимаются описанием как люди говорят и пишут.

Не совсем. Есть 2 подхода - прескриптивизм (предписание) и дескриптивизм (описание). Филологи, может быть, занимаются в основном первым, но они наверняка консультируют спициалистов по второму, потому что в конечном счёте именно второе будет иметь значение для ответа на вопрос "как правильно писать?".

Специалисты по предписаниям - это вы чиновников так красиво назвали? И на каком же основании они по вашему имеют право указывать как нам с вами разговаривать?

Странный вопрос. Вас же не смущает, например, что существуют строгие правила видов спорта, принятые на высшем уровне? Вам при этом никто не запрещает играть в футбол во дворе, допустим, в формате 3 на 3, но в официальных соревнованиях по футболу в команде должно быть определённое число игроков и поле должно иметь определённые размеры. Иначе это уже будет не футбол, а какой-то другой вид спорта.

Так и тут. Вам никто не запрещает говорить как хочется, но в официальных документах, в учебниках и в лицензированных СМИ должна использоваться формализованная и кодифицированная литературная норма.

Хороший пример - Исландия. Многие европейские языки страдают из-за "англификации", причём не простого заимствования слов (фиг бы с этим - это нормальный процесс развития языка), а из-за грамматического загрязнения. Многие неологизмы из английского языка переходят в язык в неизменном виде, их надо читать и писать как в оригинале, при том что это зачастую противоречит грамматике нового языка (например, не склоняются по правилам нового языка или содержат нестандартные звукобуквы - например, в шведском языке буква Y всегда читается как немецкая Ü, а теперь представьте заимствование типичного английского слова с этой буквой). Так вот, в Исландии местный языковой комитет не просто вырабатывает правила языка и следит за их соблюдением, но и занимается адаптацией неологизмов из всех сфер науки и общества к местному языку. Иногда для этого достаточно просто немного скорректировать слово, подогнав его под грамматику, а иногда задача посложнее (например, tölva - компьютер, "числовой предсказатель", слово взято из НФ-книги как авторский неологизм в 1965 году).

Благо ни мои статьи, ни (тем более) песни не являются официальными документами.

И, к счастью, языки развиваются самостоятельно носителями, и ничего не должны, ни вам, ни какому-то самопровозглашённому комитету.

"Самостоятельно" языки не развиваются, а деградируют. Если в стране-хозяйке слабый языковой орган, то её язык оказывается замусорен. Если в некоем регионе плохо работает система образования и не уделяется должного внимания обучению детей грамоте родного языка, то население этого региона начинает говорить и писать неграмотно, с массой ошибок и бессистемно. А вы думали, откуда взялись все эти "болие лимения", "в аочую", "из подтижка" и прочие "двух яростные кровати"? Именно оттуда, из тех мест Зацкадья, где русский язык "развивается самостоятельно носителями".

И вообще: карова. Всем понятно, что имелось в виду, следовательно, писать грамотно вовсе необязательно...

НЛО прилетело и опубликовало эту надпись здесь
Ну вот — написал же человек статью. По-своему ценную статью, а главное — относительно объёмную, то есть содержащую много текста. При этом человек ничтоже сумняшеся уверен в корректности формы *Сонце, называет непроизносимый согласный беглой гласной, не знает о прескриптивизме и дескриптивизме — и считает себя вправе выносить лингвистические суждения. На мой взгляд, этим он определённо вносит свою лепту в деградацию языка.

Что до размусоривания, то, во-первых, английский язык занимает особое положение в современном мире, однако, во-вторых, даже для него существует кодекс Hart's Rules for Compositors and Readers. А подавляющее большинство прочих языков (достаточно развитых) поддерживают именно что органы: l’Académie française, die Gesellschaft für deutsche Sprache, la Asociación de Academias de la Lengua Española — и т. д. Более сотни наименований в английской Вики (статья List of language regulators).
НЛО прилетело и опубликовало эту надпись здесь
1. Речь шла о другом: а) оказывает ли влияние на развитие языка слой населения, для которого характерна недостаточная грамотность, б) есть ли «органы, размусоривающие язык». Ответ — «да» оба раза. Вы эти «да» игнорируете, меняя тему. Это, простите, напоминает мне демагогию.

2. Если же рассматривать вопрос не в контексте этого диалога, а отдельно, то ответ на него очевиден, а если вам он неочевиден, то либо вам не вспомнилось, например, слово «солнечный» — и тогда вот оно; либо вы не знаете о том, что важнейший принцип русской орфографии — морфологический, — тогда ответ на часть «кому» — всем, кто использует русский литературный язык, а ответ на часть «почему» слишко объёмен для комментария на Хабре, но легко находится в университетских учебниках (или в справочных текстах академического характера).

Есть области, где наука [ещё] не разобралась в механизмах и закономерностях; есть — где разобралась. Пересматривать второе — странное занятие. Кому и почему стало бы хуже, если бы семью семь стало бы равняться сорока семи?

А попробуйте спеть "Солнечный круг, небо вокруг" без "л" )))

хотя...

Сонячне коло, небо навколо, це є малюнок хлопчини, Намалював на папірці і підписав у кінці:

Хай завжди буде сонце, хай завжди буде небо, хай завжди буде мама, хай завжди буду я! )))

Что до чудо-поисковика - может быть окно запроса / строку поиска разместить посередине?

Тогда уж "солнцечный круг", кстати.

Почему? В «солнце» корень — «солн», а «е» — так вообще окончание. Это вы и от слова «дерево» будете прилагательное «деревовянный» образовывать?
И тем не менее, «е» — это точно не часть корня.
Кроме того, нигде не нашёл оправдания включения «ц» в корень — нешто «подсолнух» и «посолонь» — не однокоренные ему?

</sarcasm> Так называемые "проверочные слова" не работают в русском языке. Какие бы сказки вам там в школе ни рассказывали.

Я из происхождения исходил
Восходит к праславянскому – sъlnь. С помощью уменьшительного суффикса -це появилось слово sъlnьce (солнце). Другой уменьшительно ласкательный суффикс –ко – дал рождение другому слову – sъlnьko (солнышко).
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
>а что делать, если «воочие» — это просто набор звуков, не привязанный ни к какой физической реальности вокруг говорящего? Да и «тишок», из-под которого что-то происходит — тоже вполне себе отжившее своё слово-понятие

«Наборы звуков» и «отжившие понятия»? Да, для публики, которая не читает и не имеет привычки к чтению / для публики, которой надо, чтобы если статья — то «чётко, без воды и по делу, без гуманитарщины» — наборы звуков. Деградирующие носители языка, разумеется, порождают процесс деградации языка.

Представьте себе, именно занимаются предписаниями, как правильно писать, потому что кто еще это сделает, кроме них? Банально потому, что описание того, как говорят, невозможно без письма, причем правильного письма — например, слова с одинаковыми корнями, хотя и могут произноситься по-разному, писаться должны так, чтоб было ясно, что это за корень. И т.д.

Вот не надо эрративами и эволюцией нормы прикрывать безграмотность и нежелание учиться. Эрративы всегда по контексту видно. А когда мне, как вчера, на мыло приходит деловое(!) письмо от организации (!!!) с «вкрации» и «искпертиза» и со знаками препинания, расставленными, похоже, рандомайзером, то это не эрративы, а чОрт знает что. И большинство дичи в Сети — не эрративы, а именно тотальная безграмотность.

Граммар-наци на самом деле не очень счастливые люди, и наезжают не потому, что хотят кого-то унизить, а потому, что им больно. Ну не знаю... представьте, что кто-то ведёт куском пенопласта по стеклу, звук такой, что у вас зубы ноют.

Олбанский, кстати, такого эффекта не даёт: когда всё не так – это воспринимается совсем по другому. Думаю, просто неграмотный текст даёт что-то вроде эффета Uncanny Valley, всё почти Ok, но мелкие несоответствия цепляют.

Я как бывший грамар-наци очень советую наблюдать и исследовать почему же люди говорят не так как написано с правилах. Это много интереснее чем на каждую ошибку читать лекцию из школьных правил, может даже не из школьных.

А вот с письмом сложнее. Оно теряет очень много того, что можно выразить в живом языке и соответственно там смысл сохраняется сложнее. Хотя даже тут можно найти свой стиль. Я например не ставлю запятые там, где их отсутствие не вредит чтению. Но в ситуации казнить нельзя помиловать обязательно поставлю. Аналогично заглавные буквы ставлю только в больших сообщениях где больше 3 предложений, чтобы легче читалось

В опщем занемайтись иследованиями, не упреками

Воопщем же!

А насчёт упрёков – да. Они не работают. Поправлять имеет смысл только тех, кто готов выслушать.

Вот если сказать: "чувак, что ж ты делаешь, мне же больно" – помогает иногда. Люди в целом не сволочи и готовы идти навстречу, если это не очень напряжно.

ЗЫ: с запятыми у меня беда, это порой очень стыдно :-).

Если невинные моменты вызывают приступы агрессии, то стоит обратиться к психотерапевту, а не бросаться на людей с высосанными из пальца обвинениями.

И кому именно вы адресуете это предложение? ;-)

Вообще не очень красиво получается. Вначале сделали людям больно, потом посылаете их к психотерапевту.

Фиксации здорово портят жизнь. Я сам через это прошёл.

Со мнительностью психотерапевт тоже может помочь, кстати.

Беглая грамотность.

согласен, с поиском что-то не то очень давно.
Мне очень хочется увидеть функционал в духе: искать везде кроме _новостных сайтов_ и агрегаторов. (а под новостными сайтами или агрегаторами может быть куча ресурсов).

Например хорошие фаерволы умеют фильтровать доступ по категориям сайтов и приложения, так почему не сделать такое же для поиска? В частности, фильтрация поиска по -site:* уже не эффективна, особенно если в поиске есть такие слова как "форум", "новости" и другие сильно пересекающиеся с другими пузырями синонимы.

> искать везде кроме _новостных сайтов_ и агрегаторов

И магазинов.
И клонов stackoverflow :(
Лично меня клоны в какой-то момент настолько достали, что пришлось установить специальное расширение, исключающее заданные сайты из поисковой выдачи Google.
Ссылку в студию!
Пожалуйста: uBlackList
Спасибо большое, совсем другая жизнь началась!
НЛО прилетело и опубликовало эту надпись здесь

У вас там есть qaru.site, но он уже видимо лежит и удалён из индекса. Так что может быть реабилитирован на случай если его купят чистоплотные владельцы. Поэтому думаю блек-листинг должен быть временным. Например, на год. Или нужно периодически чекать, есть ли сайт всё ещё в индексе.

В duckduckgo, если не просить результаты на русском, stackoverflow на первом месте и никаких клонов вокруг нет

Ну, реально. Знаете, лет 5 назад в сети был один текст, где описывался гевюрцтраминер. Ну т.е. блог одного чувака, который хорошим слогом и от себя описал, что это за виноград, какое из него вино, где его производят, где лучше и т.п.

Сегодня я этот текст пытался найти — и не смог. Магазины просто завалили интернет полностью одинаковыми текстами. Ничего авторского больше нет, или оно в поиске на 10 странице.
Лет 15 назад читал блог одного бывшего московского офисного хомячка под 50, который решил обеспечить старость, переключившись на выращивание орехов. Читалось в реальном времени как триллер-выживач. Какие там приключения! И природные катаклизмы, и соседи, как же без них.
И за переездами и сменами работ потерял ссылку. Года два назад вспомнил — не смог найти. Все поисковики подсовывают то, что считают нужным, как ни комбинируй слова
Именно так. Причем, когда (если) позже найдешь — выясняется, что ключевые слова были те самые, т.е. искал ты правильно.
интересно б в таком случае попытаться понять, от чего оно не искалось…
Ну как… оно искалось, только оно в выдаче где-то на 100-м месте, например. Это все равно что его там совсем нет, практически. То есть по моим ключевым словам как раз все понятно — все первые места в выдаче заняли магазины. Это не совсем поисковый спам, конечно, потому что они реально содержат то, что я ищу, просто при таком их количестве найти что-то другое стало почти невозможно.
Кстати, когда-то видел в сети текст (если я правильно помню) про призрак программиста. Его изгоняли с помощью Perl-скрипта, где было среди прочего «SUPER::demon()» (или что-то похожее).
Помню, что название произведения никак не относилось ни к демонам, ни к программистам.
В последние несколько лет пробую найти в разных поисковиках с разными запросами — результат немного предсказуем.
Нет, там точно про Perl было, но про тестеров тоже хорошо.
15 лет назад… с тех пор человек мог или умереть или просто забить на свой блог вплоть до удаления, так что не особо удивительно.

тут двоякая проблема — с одной стороны, замусоривание вплоть до пропадания из выдачи никуда не девалось (ну и robots.txt до кучи), с другой — а кто вообще сказал, что эта информация вообще осталась в сети?
нужна команда в поиск — инвертировать рейтинг сайтов по версии Google

Типа искать самые нерелевантные?

Рейтинг не поисковой выдачи, а рейтинг сайтов по которым Гугл ищет в первую очередь потому что они в принципе популярны. То что пузырем названо в статье

Рейтинг у Гугла может и не совершенен, но на другом его конце скорее всего тонны поискового спама, среди которого нужное тем более не найти.

Может я не очень понятно сформулировал, я имел ввиду, что в малопосещаемых сайтах может быть найдена релевантная информация. Это имеет смысл, если дефолтный расклад не даёт ничего стоящего. Поэтому как опция искать в обратном порядке от не известных к популярным.

Может я не очень понятно сформулировал, я имел ввиду, что в малопосещаемых сайтах может быть найдена релевантная информация. Это имеет смысл, если дефолтный расклад не даёт ничего стоящего. Поэтому как опция искать в обратном порядке от не известных к популярным.

н-да, подумал вот он поисковик моей мечты, начал накидывать домены в блек лист… и понял что гугл кончился. 0 Результатов в выдаче. А duckduckgo ещё что-то выдавал. Вот бы блек лист для duckduckgo. К сожалению каждый раз вставлять список доменов в адресную строку неудобно, да и размер у неё ограничен.

Как назначить поисковиком по умолчанию в браузере?

Также как и любой другой... Поставил, посмотрим как это будет жить.

Спасибо, за работу!

… в процессе набора запроса, например «momentjs local time», отдает:
search.hyoo.ru/#!query=momentjs%20local%20time
значит, можно настроить и в качестве поисковика по умолчанию
НЛО прилетело и опубликовало эту надпись здесь

В Хроме. Настройки > Поисковая система > Другие поисковые системы > кнопка "Добавить".
Заполняете нужные поля. Нажимаете "Добавить".

Поисковик добавился в список "Другие поисковые системы".

Далее жмёте на три точки напротив добавленного поисковика. Кнопка "Использовать по-умолчанию".. Всё, теперь вбиваете в поисковую строку запрос и попадаете сразу на нужный поисковик с запросом... 2 минуты дела

Я может и не бог дизайна...

Тёмная схема не юзабельная совсем. Светлая, лучше, но в результатах разобраться… Я не смог пользоваться. Навскидку, можно не показывать полностью ссылку и сделать больше контекста из страницы, визуально отделив результаты выдачи.

А так, thx за ресёрч, проблемы с поиском у всех, а разобраться, как обычно нет времени.

А что не так с тёмной темой?


Тоже самое, что и со светлой — нет визуального отделения результатов, поэтому для меня весь текст на странице — это как бы один связный текст.

Мне субъективно на светлой немного проще, но тяжело.

Например, заголовок и контекст результата визуально очень схожи, что ещё больше ломает мозг при попытке отделить разные результаты.
Можно отступами разделить, сделать меньше или убрать фавиконки, сделать «карточки».

P.S. Отвечаю редактированием, так как у меня карма слита до 1 комментария в час.

А что не так с тёмной темой?

Контекст - это сниппет? Этот текст отдаёт апи, его больше не сделать.

Немного отступов тут и там и у каждого 2-го результата серый фон
Немного отступов тут и там и у каждого 2-го результата серый фон

Как-то "давит" интерфейс. Подумал и понял, что хочеться больше пространства. То, что есть сейчас - отлично подходит под мобильные устройства. А на десктопах как то всё огромно слишком. Плюс заголовки всё-таки надо как-то выделить.

А так, вполне себе хорошая идея.

То, что поисковики скатились в с***ое г**о, заметно уже давно, более того, я пишу об этом уже лет пять кряду, время от времени описывая конкретику симптомов.
И таки да, я как владелец сайта, ещё как-то могу заплатить денег за то, чтобы меня нашли. Но когда я захожу как простой юзер и сам пытаюсь что-нибудь найти, а Яндекс выдаёт мне инфомусор - вот это уже обидно.

может быть, за этот инфомусор тоже кто-то заплатил, потому Яндекс его и выдаёт? )

В частных случаях - да, в общем случае - нет. Потому что платить имеет смысл за первые пять позиций в выдаче, а когда инфомусор оказывается на 8й-20й позиции выдачи, это уже издержки алогоритма.

Не, ну так-то все хотят быть на первом месте, но желающих больше, нежели первых мест. Вон в спорте тоже на пьедестале далеко не все оказываются, всем остальным срочно надо бросать спорт?

Насколько я понимаю, рекламные (проплаченные) ссылки у поисковиков маркированы. Я говорю не о них, а о результатах, которые попадают в выдачу из-за специфики алгоритма выдачи. Например, одно время первая страница выдачи была сплошь забита агрегаторами (ценность информации в которых В ОБЩЕМ СЛУЧАЕ близка к нулю), систематически на первых позициях оказывались ссылки на алиэкспресс, при проходе по которым обнаруживалось отсутствие искомого предмета. По хорошему, поисковик должен бы за такое банить, но этого не происходит, потому что, если это не ссылка на маркет, то никто в яндексе не станет проверять, есть ли по ссылке релевантная информация или нет. Сейчас среди агрегаторов и али нет-нет да проскакивают более-менее релевантные ссылки, но по многим запросам выдача сильно заспамлена.

НЛО прилетело и опубликовало эту надпись здесь

При уменьшении яркости большинство экранов сильно теряют в контрастности, от чего читать становится сложно. Инвертирование цветовой схемы позволяет существенно снизить световой поток не теряя в контрасте.

НЛО прилетело и опубликовало эту надпись здесь

Но ведь никто не делает темные темы (кроме специфических случаев) чисто черно-белыми и максимально контрастными по яркости

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

Одна из причин появления тёмных тем заключается в попытке "выключить" часть пикселей на экране, чтобы батарея устройства не так быстро садилась. Естественно, площади с абсолютно чёрные пикселями довольно напряжное дело. Поэтому и появились "тёмно серые по светло серому" темы.

НЛО прилетело и опубликовало эту надпись здесь

Когда я использовал свою PSP (первого поколения) в качестве читалки в транспорте, я обнаружил, что для меня оптимальной темой был "тёмно-коричневый" шрифт по "темновато-салатовому" фону. На солнце такое не читалось совсем, а вот в сумерках метро или вечернего трамвая - очень даже неплохо.

то, чего нет в поисковиках, туда бы дзен, куору,

и чёрный список доменов, которые исключаются из выдачи.

Так вы можете себе добавить их в настройках. Исключать их по умолчанию для всех всё же не стоит, ибо там есть и авторский контент. Это я про Дзен. А что за Куорра?

не понимаю как, подскажете? -site:site.com не предлагать

Справа вверху кнопка открытия настроек. Там дописываете в блеклист с новой строки домены.

а, спасибо) вы про свой поиск. прошу прощения за каламбур. я как раз и говорю, что это то, чего нет в поисковиках. и как раз пример того запроса, который плохо ищется потому, что поисковики предлагают решать проблемы SEO

Для гугла, кстати, есть плагин для браузеров с аналогичным функционалом, uBlacklist зовётся.

Вот надо у строки выдачи сделать галочку - если нажать на нее, то домен внесется в черный список. Чтоб не руками. А другую галочку сверху - Показывать все домены ( а не только не внесенные в черный список).

Так уже есть крестик для этого:

Бан предполагается для мусорных сайтов. Так что галка поиска по всем сайтам имеет сомнительную пользу. Ибо зачем копаться в мусоре? В крайнем случае всегда можно тыкнуть в иконку гугла и получить поиск без блеклиста.

А, ну отлично. А то я комменты прочитал, а на сайте не проверил.

Там так-то много чего добавилось с тех пор: быстрое исключение ключевых слов, поиск по документам и картинкам, ссылка на гугл-кеш, открытие в сайдбаре.

Если включен umatrix блокирующий внешние загрузки, почти хорошо, кроме полосочек.

Полосочки недвусмысленно дают понять, что приложение сломалось.

Я это понимаю, просто текст плохо читается. Условной рамочки или меньшего контраста было бы достаточно.

Уменьшил контраст, чтобы на скриншотах легче читалось.

Мне кажется лучше до некоторого языка довести.
Лежит у нас на винте файл .yan, в нём у нас и свои [постоянные] минусы, и приоритеты в поиске. Добиваем туда что хотим найти и кормим роботу. Как программу компилятору.
В реальности конечно это скорее будет онлайн файл (хотя и офлайн тоже хочется, ведь к нему можно сделать софт со словарями и настройками).
А еще можно уменьшить скорость ответа, по некторым темам я вполне подожду час ради получения хорошего ответа, например включая старые форумы и древние группы.

Ps: в каком то фантастическом романе, кажется у Ливадного, была идея найма нейросети — задаёшь ей задачу и она её решает.

Yacy? поднимаем узел. Настраиваем если надо интеграцию с public cluster (чтобы самостоятельно все не индексировать). если результаты не устраивают — в коде делаем правки чтобы побустить конкретные сайты.
Да, есть режим прокси-индексации когда трафик через узел и индексируется все публичное на глубину N ссылок либо можно скрипт на tampermonkey для того же. Да, пузырь получится но на базе того что юзер и так посещает.

в каком-то фантастическом романе

В хакерах Чубарьяна есть iSiN. Но в полную силу она вроде только во вторых хакерах показывалась. А третьи это прямо скорбь…

Я думаю, размытость результатов поиска связана с новомодными нейронными сетями - с поиском по смыслу через вектора слов, а не через сами слова. Когда экспериментировал с векторами слов, получал аналогичные результаты - вроде бы выдача по смыслу соответствует запросу, но результаты слишком обобщены. Т.е. результат получился сомнительный.

Например, ищу что-то по конкретной версии debian, а гугл мне подсовывает обобщенные результаты по linux. А если ваша узкая конкретная фраза хоть частично пересекается с хайповой темой, то... пиши пропало... даже кавычки могут не помочь.

Помню, искал, какими конкретно саморезами лучше прикручивать пластиковый плинтус к стене... Я в ответ узнал всю общую информацию о плинтусах, об их классификации, об истории возникновении и т.д. и т.п. - всё... кроме прямого ответа на мой вопрос (а он был в инете).

А вот если вы среднестатистическая домохозяйка, которая хочет почитать что-нибудь про котиков и прямо так и вводите запрос, то... такой обобщенный нечеткий поиск, опирающийся больше на статистическую популярность тем, чем на саму фразу, - самое оно.

> Помню, искал, какими конкретно саморезами лучше прикручивать пластиковый плинтус к стене

А ещё по таким запросам всё напрочь засрано сеошниками.

Да, именно так и было: все эти исторические экскурсы об изготовлении плинтусов и их типов были в основном сео-текстами - водой.

Недавно искал в гугле, как перезагрузить новый айпад кнопками (ккой комбинацией), так первой была статья с огромной простыней текста... на десяток десктопных экранов ... Хотя достаточно одного предложения. Но гугл посчитал эту простыню супер релевантной.

Заметил, что в результатах запросов на английском языке меньше инфомусора, меньше ответов для домохозяек от школьников рерайтеров.

Вчера зашёл на сайт одного отечественного производителя печатных плат, там подробно расписано, что такое печатные платы и с чем их едят, цен, разумеется, нет даже примерных. Неужели владельцы сайта предполагают, что некто, впервые читающий об этом, захочет воспользоваться услугой изготовления печатных плат, и именно у них?

Почти так. Я даже не поленился найти старый (уже четыре года назад это было...) пост яндекса, где они про это явно пишут: «И если вектора (а значит, смыслы запросов) оказываются достаточно близки, то и результаты поиска должны быть схожи». Т.е. и яндекс и гугл (у которого похожая технология пявилась AFAIR раньше), в погоне за (неверно понятой) эффективностью, создают поисковые пузыри, от которых невозможно избавиться.

Не знаю почему, но мне хочется строку поиска по центру экрана...

1) Ваша поисковая машина выдаёт только первую десятку - это фича? или будет допилено?

2) Правильно ли я понимаю, что движок просто парсит "на лету" результаты, выдаваемые по соответствующей поисковой фразе гуглом?
Если нет, то как происходит индексация?

3) Не хватает "расширенного поиска" ;)

  1. Первую двадцатку. Я не нашёл адекватного способа через апи получить больше.

  2. Гугл возвращает выдачу в JSON формате.

  3. А вот его надо бы добавить, да. Вы какими расширенными параметрами поиска пользуетесь?

3.* я - когда как, чаще всего это поиск в определённой стране или на определённом языке. Можно использовать "язык запросов", но он у разных поисковиков свой: например, запрос типа "<запрос> site:domain.ru" работает примерно одинаково во всех поисковиках, а запрос типа "<запрос> lang:cn" работает в duckduckgo, а ни в яндексе, ни в гугле не работает, а лезть в описание и смотреть, какой у них там синтаксис - лень. Иногда бывает надо поискать что-нибудь в Китае на английском языке, вот и сразу несколько параметров в строке получается.

смотреть, какой у них там синтаксис - лень

Если бы только это. В Гугле, например, такого синтаксиса уже нет.

Можно смотреть следующую страницу, но это надо дополнительный запрос к google-api делать.
Но я так понял, в вашем случае кол-во запросов не лимитировано, так что проблем с выводом других страниц быть не должно.
Насколько я помню, дальше 100го результата вывести не получится.

UPD. В api-запросе это параметр start. start=11 будет возвращать вторую страницу из гугла.

В используемом бесплатном апи нет возможности указать эти параметры, к сожалению.

Еще хотелось бы отметить огромное количество поискового спама в современном интернете. Спамеры (их сейчас называют копирайтерами) наводняют сеть информационным мусором. В итоге, если хочешь найти что-то в теме, в которой не очень разбираешься, ты обречен читать спам и отсебятину людей, которые в теме также ничего не понимают, не имея возможности найти ценную информацию в этом потоке мусора.

как установить поисковиком по умолчанию в Firefox? что бы выделенный текст искался сразу в этом поисковике
Есть несколько способов, но самый простой был бы, если бы сайт поддерживал OpenSearch.

Так он и поддерживается. Достаточно кликнуть по адресной строке и нажать кнопку добавления поисковика внизу. Потом выбрать поисковик по умолчанию.

спасибо
Совсем отлично тогда.
спасибо
На mycroftproject.com можно найти кучу готовых поисковых плагинов, или сделать свой собственный для любого сайта, для которого это вообще возможно.
Писал это под постом про про поисковик от экс-гугловцев, напишу и тут.
Беру ваш запрос «Ты моё Сонце — я твой Месяц в звёздах» и забиваю в StartPage:
Результат
image
Без фиолетовой кислоты и прочих коннекторов. Что я сделал не так??
А вообще, что за мода бывшим сотрудникам сосдавать свой поисковик.
НЛО прилетело и опубликовало эту надпись здесь

Я там занимался фотохостингом и браузерными расширениями, так что со внутренней кухней именно поиска не знаком. Зато эффективного менеджмента наелся сполна.

Например, помню, как при вводе адреса сайта в строку адреса, мы направляли пользователя в поиск, который уже редиректил на введённый адрес.. или выдавал SERP. Метрики числа поисков росли хорошо.

А кто-то потом наверняка удивлялся, почему так много людей ищут в Яндексе "yandex.ru". Ох уж эти глупые пользователи..

НЛО прилетело и опубликовало эту надпись здесь

Вы всё сделали так, только песню не нашли.

Не спорю, но это уже другое. Нужно правильно формировать запрос, для песни — указыать исполнителя. В примере, я так понял, была строка текса, в таком случае поиск может быть нерелевантным. Так или иначе, он хотя бы среди песен искал

Вот чтобы узнать исполнителя и название песню и гуглят по словам.

Какая разница где искал, если всё равно не нашёл?

Не нужно требовать от поисковиков то, чего они "не могут". Например оба (двое ЯиГ) не знали что такое "насингфаунд" (оно же 'nasingfaund'). А теперь прекрасно ищут. Гугл плохо ищет российские телефоны. А найти мыло и сотовый шефа "руспрофайл.ру" непросто в обеих поисковиках (но решаемо).

Дополню, так как достаточно часто номера телефонов (10 знаков) совпадают российские и американские, то гугл (google.com) добавляет в выдачу американские номера, но если у номера нет американских двойников, то вполне себе адекватная выдача, например спам номер (колл-центр) Теле2 "+7 (951) 520-06-11". А яндекс (yandex.ru or ya.ru) любит добавлять в выдачу много мусора, особенно если выдача отсутствует или мала, а гугл находит чуть больше и мусора меньше или нет совсем (например поиск "Dialog_AllowSchedulingFirstReminder").

Вообще-то претензии о нерелевантности бесплатного поиска и о маскировке рекламы под органическую выдачу — это в основном Яндекс. Гугл таким грешит гораздо меньше. К гуглу претензии по общему количеству рекламы и по сбору данных, но это все-таки намного более слабые претензии чем первые две.
Попробовал найти несколько видосов на youtube — не нашел ( Кучу похожего отдает, а вот ютубовскую ссылку- нет.

Ютуб тоже есть в индексе. Но, как я указал в конце статьи, далеко не весь.

Вопрос, а почему в качестве альтернативы у настройках поиска указаны( гугл / дакдакго / и яндекс) а в черном списке пинтерест? Чем пинтерест то не угодил?

Пинтерест не угодил тем, что в нём содержатся лишь частичные перепосты, а не полные оригиналы. А альтернативные поисковики по умолчанию я подобрал по субъективным соображениям качества. А какой вы бы хотели добавить/удалить?

На самом деле оно устраивает, понравилось что можно вручную добавлять или удалять.


Ещё вопрос, вот например я решил узнать погоду в своем городе. Ввел Погода Пермь.
В результатах выдачи я вижу несколько ссылок на гис метео, которые идут через одну выдачу.
Гисметео, яндекс, гисметео, погода мейл, гисметео, потом неизвестный мне сайт с погодой, несколько новостных ресурсов, и снова несколько ссылок на гисметео.
https://search.hyoo.ru/#!settings/query=%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0%20%D0%BF%D0%B5%D1%80%D0%BC%D1%8C

Почему так много гисметео?
Если ввести аналогичный запрос в гугле:
https://www.google.com/search?q=%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0+%D0%BF%D0%B5%D1%80%D0%BC%D1%8C&newwindow=1&sxsrf=ALeKk02CoIzaLJZkSWByv_iGnsFtmOjUyw%3A1626110443195&source=hp&ei=63nsYMqVCaiyrgT3kqfgBw&iflsig=AINFCbYAAAAAYOyH-45WS0yoVvN37y62Z7XuUZ3ft3dj&oq=%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0+%D0%BF%D0%B5%D1%80%D0%BC%D1%8C&gs_lcp=Cgdnd3Mtd2l6EAMyDQgAELEDEIMBEEYQgAIyBQgAEMkDMgUIABCSAzICCAAyCAgAELEDEIMBMgUIABCxAzICCAAyAggAMgIIADICCAA6BQguELEDOggILhDHARCvAToICAAQChABECo6CQgAELEDEAoQAToGCAAQChABOg4ILhCxAxCDARDHARCjAlCaDVjtMGCPM2gDcAB4AYABU4gB_AeSAQIxNJgBAaABAqABAaoBB2d3cy13aXqwAQA&sclient=gws-wiz&ved=0ahUKEwiKt9G6hd7xAhUomYsKHXfJCXwQ4dUDCAc&uact=5

первой идёт выдача: Weather.com , далее гисметео, потом яндекс погода, погода мейл и т.д.

Если ввести запрос в яндексе: https://yandex.ru/search/?lr=50&text=%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0%20%D0%BF%D0%B5%D1%80%D0%BC%D1%8C

Будет на первом месте яндекс погода (что логично), потом другие погодные сайты.

Если ввести запрос дакдакго: https://duckduckgo.com/?q=%D0%BF%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0+%D0%BF%D0%B5%D1%80%D0%BC%D1%8C&t=vivaldi&ia=weather

первый идет: Darksky, потом гисметео, яндекс, и все остальное.

Исходя из этого у меня подозрение что ваш поиск просто выдает запросы по порядку из каждого поисковика, но при этом пропуская какие-то "погодные" сайты.
И посмотреть другие страницы уже нельзя, т.к. нет такой возможности


Давным давно была программа, которая использовала апи популярных поисковиков. В ней можно было написать запрос, а потом его уточнять добавляя или исключая дополнительные слова. В результате после 3-4 шагов получался почти идеальный запрос, который находил то, что нужно. Слова, которые можно добавить/исключить предлагались автоматически на основании сравнения первых найденных страниц. Дополнительные слова к запросу предлагались в виде графа связей между ключевыми словами. Вот это была бомба. Но проработал он недолго.

Интересно. А какой может быть алгоритм подбора уточнений?

Могу только предположить. Думаю, что алгоритм не слишком сложный: программа берет некоторое количество результатов поиска и в их текстах ищет самые частотные слова (исключая слова из запроса). Те из них, которые встречаются в большинстве текстов и представляются в виде уточнений. Также можно брать совпадающие ключевые слова из разных результирующих страниц. Далее программа умела делать еще несколько шагов вглубь и повторяла эти действия для предложенных слов. Получался граф из ключевых слов. То, что уточняющие слова брались из найденных текстов — это точно, т.к. иногда встречались артефакты в виде попадания необычных слов, редких аббревиатур и т.д.
После ввода поискового запроса достаточно было 3-4 кликов мышкой, чтобы получить поисковую выдачу в разы качественней изначального запроса.
Вы, может быть, имеете в виду не программу, а сайт nigma.ru? Он довольно долго работал. И, действительно, очень жаль, что закрылся :(
Нет, это была программа, там дополнительные ключевые слова плавно анимировались (в то время в вебе это было крайне сложно).
Хорошо бы добавить кнопку «X» очистить строку поиска.


Спасибо

Раз уж тема про поисковики зашла, вот такой есть проект tapki.com который по сути мета-поисковик и ищет для бизнеса клиентов, без мусора SEOшного, которого стало столько, что уже сложно найти честный ответ :) а не "ТОП ЛУЧШИХ *** В РОССИИ" и т.п.

Вы — мой герой.
За кастомизируемый список исключений — отдельный респект и уважуха. Запарило везде видеть 100500 генерированных копий stackoverflow. Даже википедию задвигает иногда на 2 страницу гугловыдачи.

А не напомните домены этих копий? Добавлю их в дефолтный блеклист.

НЛО прилетело и опубликовало эту надпись здесь

А так же: overcoder.net, py4u.net, newbedev.com, extutorial.com, stackoom.com, qaru.tech, CoreDump.biz, lycaeum.dev, stormcrow.dev

Они появляются быстрее чем я успеваю добавлять их в гугловый фильтр

Я их проверил сейчас все. И они либо уже удалены, либо содержат вполне уникальный контент на первый взгляд, либо их нет в индексе программируемого поиска.

НЛО прилетело и опубликовало эту надпись здесь
Некоторые сайты вполне приличны и иногда даже помогают найти, если искать на русском. Но читать автоматический перевод обычно тяжело и лучше сразу перейти на источник. Не исключено, что некоторые попали по ошибке.

В своём скрипте я их не убираю эти сайты из результатов выдачи, а всего лишь выделяю. Перехожу на эти сайты, только если ни чего приличного не нашлось.
Может в поисковик добавить несколько видов списков. Или выбирать действие для черного списка: убрать/выделить.

у меня стоит скрипт, который переходит на оригинальный сайт
https://github.com/vladgba/Back2source


только ставить надо через https://github.com/vladgba/Back2source/raw/master/back2source.user.js (в ридми ссылка от родительского проекта)

Сравнил со своим списком.
Вот еще сайты:
codeindex.ru, codengineering.ru, husl.ru, qa-help.ru, ru.voidcc.com, stackoverrun.com, ubuntugeeks.com

Теперь банить сайты стало ещё проще.

В будущем можно коллаборативно так составлять списки забаненных сайтов.

Спасибо за старый добрый Рамблер'98. Поставил поисковой системой по умолчанию.


В некоторых браузерах требуется "адрес для подсказок".
Можно поставить от Гугла (или любого другого поисковика)
https://www.google.com/complete/search?q=%s


Пессимистичный: лавочку могут просто прикрыть.

Реалистичным назвал бы немного другое: у вас закончится бюджет на хостинг/трафик.
Конечно, у вас только статика, но при большом количестве пользователей и статика быстро "закончит" хостинг.

Статику можно спрятать за бесплатный тариф Cloudflare.

Ваша ссылка возвращает 404, но я прикрутил подсказки от Яндекса.

У меня нулевой бюджет. Статика раздаётся через GitHub Pages и кешируется через сервис воркер, так что даже удаление проекта с гитхаба не помешает приложению открыться.

немного не в тему, но вы напомниле мне, как я соскучился по старому-доброму nigma.ru. который был действительно поисковик.

удачи!

Скажите, пожалуйста, разве нигма.рус не является тем же, чем раньше был nigma.ru? Заранее благодарен.

Если честно, я перестал пользоваться поиском яндекса уже лет с 10 как — он просто не находил ничего из того, что мне было нужно или делал это крайне плохо.


Лет с 6 назад Гугл окончательно доломал свой поиск, последним шагом стало убийство управляющих спец.символов в запросах. Но и до этого поиск уже был частично сломан так, что я не мог по ключевым словам из сохраненной страницы найти ее на сайте, указав его через site: при том, что она там была и оставалась.
Ну а сейчас по факту с гуглом получается следующее:


  • если мы ищем по программированию, то оно помнит, какие языки ты знаешь (это наглядно видно, поищите, например strlen — оно будет именно на документацию на вашем любимом языке, а не, например, c++ ) и в первую очередь лезет в индексы снятые с сайтов с документацией и плюсует к ним stackoverflow
  • если мы ищем что-то из новостей — ну тут прям поиск эффективен… пока вы не пытаетесь найти новость, которой 10+ лет. При том, что она все еще есть в сети — просто в поисковиках ее уже нет
  • если мы ищем информацию о товаре, то ВСЕ ссылки будут вести исключительно на магазины, без вариантов. Для каких-то товаров еще можно принудительно заставить найти что-то иное добавив доп. ключевые слова типа "обзор" и т.п., но если мы возьмем, например, конкретную модель жесткого диска и по ее артикулу попытаемся гуглить — будут только магазины
  • если мы ищем кино-музыку, то это опять-таки будут гарантированно всякие магазины и десяток топовых сайтов про это, типа imdb

Ну а про какие-то еще запросы я сказать не могу, т.к. их в целом меньше и там не так наглядно, наверняка все то же самое.


И, кстати, я последние годы активнее начал пользоваться бингом. Да, он ищет часто не очень хорошо, но в отличие от гугла он не запирает тебя в этой вот комнате с магазинами и "слышь, купи". Да там до сих пор torrent'ы искать можно!

если мы ищем что-то из новостей — ну тут прям поиск эффективен… пока вы не пытаетесь найти новость, которой 10+ лет.
Вы это через задание кастомного диапазона дат проверяли?

Это вы про тот диапазон, который толком не работает даже в пределах текущего года? Не, что-то он там, конечно, пытается по диапазону дат фильтровать, вот только без фильтра почему-то показывается больше результатов — причем за то же время.


Да и фиг с ними, с датами… Я, вон, не могу сделать банальное: отделить результаты со словом ring в значении "кольцо" от результатов вида "ring finger" или со значением "звонить". В итоге ищешь в текстах (НЕ магазины) и там такая мешанина...

Помню, было вполне обычным делом пользоваться каталогом, типа dmoz, вместо свободного поиска. И нам хватало этих подборок. А если чего-то не хватало, шел в библиотеку :)
Kстати, кто ностальгирует по каталогам, можно глянуть тут alternativeto.net/software/dmoz

Ну а в контексте темы, хочется напомнить о SearX и YaCy.
Гугл поиск сломан напрочь.

К примеру, если вы ищете места в Ленинградской области для кемпинга на выходные, то вы найдёте только сайты по продаже туров, либо статьи копирайтеров в духе «топ 10».

Цель гугла — не найти релевантную информацию, а тупо продать как можно больше товаров.
Честно, я не понимаю, на кого это рассчитано. Ни раз не покупал ничего из рекламы.

КМК тут дело скорее в том, что хлеб seo-шников — протолкнуть своё дерьмо повыше в выдаче гугла, соответвенно они стараются изо всех сил, моментально адаптируясь под все изменения алгоритмов гугла

Ну раз принимаете багрепорты, то ловите!

Скажите, а 7 лет назад вы тоже писали "сонце"? Может, тогда вы написали слово правильно, и запрос со словом "солнце" поможет найти песню?

Вы легко можете проверить эту гипотезу самостоятельно и не задавать глупых вопросов.

Не, я стремаюсь появления такого в истории поиска)

Для этого в браузерах есть приватные окна.

Годно, я уверен что нормальные сеошники обнимут автора а it сообщество будет использовать эту версию поиска в своих проектах!

Странно, что еще нет ни одного коммента про опенсурсный мета-поисковик Searx - он работает примерно по тому же принципу (настраиваемый список источников, настройки в браузере), но также позволяет добавлять плагины. Я его довольно давно использую как daily driver, единственное, чего не хватает в стоке - "колдунщика" для запросов типа "цццюпщщпдуюсщь" и автораспознавания языка запроса.

З.Ы. Бенчмарк!

По ходу, автор считает, что в мире уже не существует никаких браузеров без поддержки вебкомпонентов (предположительно; глубоко не исследовал, первая проблема — что-то неподдерживаемое в web.js:224:52) и показывает им просто белый экран… А ведь тот же Pale Moon вполне жив и обновляется.

Между прочим, в Searx совсем не так.

Ну как поддерживаемое. Года на 2 так точно отстал от FF в поддержке JS.

Опции поиска по дате и прочие фильтры будут?

Да, конечно, пока руки не доши.

Дошли, но из доступных через язык запросов фильтров всего парочка полезных. В частности, фильтр по дате есть только в большом поиске.

Плохо работает.

Решил сейчас погуглить информацию по новой консоли Steam Deck.

Ввел в поиске "Steam Deck" - ничего релевантного

Пошел в гугл - сразу вагон ссылок.

Это же "технологии Google". В таких случаях может помочь кнопка "точного поиска", а так же кнопка исключения нерелевантных слов.

Поиск который по точному словосочетанию не выдает на первой страницы ни одного валидного результата... Это не то что нужно.
Жаль отказываться и возвращаться на гугл, но в текущем виде это не работает.

UPD: Что характерно - сейчас результаты правильные. Но показательно, что есть кейсы когда поиск работает очень плохо. (

Продолжу ругаться.
ТРИ! результата(и ни одного адекватного) на запрос "крючок леска грузило battlezone

А теперь тот же запрос в гугле:

Чего вы ругаетесь-то? Исправить это я не смогу. А если что-то не нашли, то внизу есть ссылка для поиска в большом гугле или иных поисковиках.

Вас понял. Больше не буду.

Норм идея! Кстати гугл у меня норм всё выдал по строке "Ты моё Сонце - я твой Месяц в звёздах" и ссылку на стих и ссылку на этот пост в Хабр :)

Времена когда весь интернет был доступен "из одного места" проходят. Миру нужен оперсорсный поисковик. Он должен работать тематически, не захватвая весь пузырь, а лишь кусок пирога. Отчего стоимость его работы должна быть невысокой. Миру нужны микротранзакции, чтобы автоматически платить по полкопейки за запрос. Миру нужен социальный рейтинг, и чтобы он учитывался в оценке поисковиком индивидуально. Потому как вся эта релевантность и другие технические признаки, ничего не говорят нам о качестве материала. По сути, нужно учитывать содержимое, его приоритет авторства, и пользовательские оценки индивидуально для кажого человека. Вот я читаю эту страницу и лайкаю или дизлайкаю. Поисковик учитывает это и формирует группы лайкающих-дизлайкающих. Выдача для этих групп будет разная. Самому интересно, сколько таких групп сформируется?

Да, еще обязательно должно быть можно грабить карованы.

Я джва года уже жду :-)

Искал плагин "AWarpSharp" для avisynth, про который прочел в статье неделю назад и перепутал местами слова в названии "asharpwarp" - не один поисковик кроме metager.de - не смог найти то, что мне нужно. Причём находит только в немецкой версии, что странно.

SearX тоже нашёл.

Браузер-то какой?

Mi browser ) Ну в Яндекс браузер все нормально

На мобильном Ghostery тоже белый экран.

И вопрос: как это произносить? Хьё? :)

Хью

Обрадовался было появлению альтернативы гуглояндексу, но был удивлен новому значению слова "релевантность" в этом году.

Сорри, но я не понимаю зачем нужен такой поиск.

Это подсветка искомого в сниппете. К релевантности оно не имеет никакого отношения.

Т.е. поисковик взял самое незначащее слово (предлог) из запроса, вернул результат, где это слово входит в виде приставок, предлогов и просто сочетаний букв в рандомной части слова, и выдал мне в качестве результата.

Ну ладно хоть тему "космонавтика" смог определить... а то ведь мог "одежда/обувь" подсунуть.

Нет. Зачем вы глупости-то придумываете? Подсветка искомого происходит на клиенте. Тут можете поиграться с ней: https://mol.hyoo.ru/#!section=demos/demo=mol_text_demo

Я констатирую факты на скриншоте. Факты обведены оранжевыми прямоугольниками, а глупости — это то, что выдал поисковик.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории