Comments 68
Однако у нас были продуктовые метрики, которые говорили: ребята,
успокойтесь, у вас всё хорошо, вы как минимум не хуже коллег по
индустрии.
В этом весь Яндекс.
Воочию застал улучшение поиска для разработчиков!
Еще полгода назад действительно плохо получалось яндексить функции из разных ЯП. Потом наконец-то появились вырезки из стековерфлоу, но код копировался в 'одну строку'. А теперь вcё идеально. Спасибо!
Зачем закрывать яндекс и открывать гугл, если у яндекса внизу страницы есть удобные ссылки на то чтоб поискать тот же запрос в других сервисах?
Я обычно начинаю поиск с яндекса только из-за этого. Потому что гугл тоже не всегда ищет то, что может найти яндекс, а с гугла обратно так удобно не перейти.
Технические подробности любопытны, но "перепредумать" поиск такими частичными полу-решениями не удастся.
Здесь следует начать с самого начала. С постановки задачи. С того, что нужно пользователю. А пользователю нужен не список ссылок на сайты, а ответ на вопрос. Во времена текстового интернета всё было гораздо проще. Простой полнотекстовый расширенный поиск практически всегда давал то, что нужно. К сожалению, часто приходилось пролистывать несколько страниц поисковой выдачи, зато вероятность "пропуска цели" была чрезвычайно мала. Сегодня очень не хватает статичной среды, чего-то типа архива, где и имело бы использовать поиск. А искать что-то в динамически меняющемся пространстве гиблое дело. Для каких-то очевидных вещей "быстрые ответы" ещё помогут, а для чего-то более глубокого и хорошо структурированного требуются более изощрённые инструменты.
Во-первых, пользователю желательно представить динамически разворачивающуюся форму опроса, позволяющую максимально уточнить цель запроса, и возможность фильтровать уже полученные результаты.
Во-вторых, результат поисковой выдачи должен быть структурированным. Вы должны выводить на экран самую суть, а не ссылки на ресурсы. Ссылки нужны только для того, чтобы прочитать оригинал (при необходимости). Идеальная выдача — это что-то вроде статьи в Википедии, когда можно, "не отходя от кассы", прочитать всё, что нужно, об интересующем тебя предмете. И всё это должно опираться на модель предметной области. Нейронные сети, как я вижу, направлены на решение этой задачи, но пользователю нужна именно структура. Смысл поискового механизма заключается в том, чтобы найти точное место в этой структуре. Для этого нужно не нагружать ассессоров оценкой документов, а строить предположения о том, что такое точный (или приблизительно точный) ответ на запрос (исходя из заданной предметной области). Взять бы тот же запрос:
C++ list find
Развёрнутый ответ на этот запрос — это статья о том, что существуют списки, в этих списках можно осуществлять поиск, и что имеются реализации, в том числе, и в языке программирования C++ (включающие библиотеку шаблонов и алгоритмов). То есть — большой сниппет.
В-третьих, .... Если бы интернет изначально был сетевой распределённой семантической базой знаний, то не нужно было бы выдумывать какой-то особый поиск, всё было бы встроено в систему.
Ох, что-то подобное было реализовано в замечательном поисковике Quintura...
...и googlы что-то подобное пилили, но оно так же кануло в лету, а жаль
Во-первых, во-вторых, в-третьих... - вы описали поиск, который нужен лично вам. Почему вы считаете, что всем остальным это тоже нужно?
Я немного идеализирую. Но, вообще-то, я исхожу из существа задачи. То как это должно быть в целом. Почему же Вы решили, что это нужно только мне? Что Вы знаете о реальных потребностях пользователей? Вы ориентируетесь на типовые запросы, то есть — на наиболее распространённые модели поведения. Но это не значит, что, будь у пользователей соответствующий инструментарий, они не стали бы делать более сложные запросы. Ваша постановка задачи сужает поле деятельности до угадывания смысла вводимой строки. Вот пользователи и пользуются для "относительно простых" запросов. Ну да. Угадать можно. Улучшить можно. А узнать, что действительно нужно пользователю нельзя. Для этого придётся перепредумать весь поиск. С нуля.
Отдельный плюс: можно искать на русском — в выдаче нет «весеннего отдыха» Spring REST — мусорных автоматических переводов документации и stackoverflow (russianblogs.com и пр.). Правда, кажется блоги на русском занижаются в выдаче по сравнению с Гуглом, тот же Хабр.
Есть одна небольшая проблема.
Это вы разработчики и увидели (т.к. обладаете знаниями в этой области), что поиск стал плохим(или был плохим) по этой области.
Но на самом деле с каждым годом поиск по ВСЕМ темам становится всё хуже и хуже. Исключение тут разве что коты и тиктоки. Поиск всё больше ориентируется на самого среднего потребителя без запросов сложнее запросов "красивый кот" и "порно".
Общий поиск для всех просто устарел. Нужны разные поисковые алгоритмы/нейросети для разных тематик и потенциально разных людей. То есть сеть обученная на том что нужно конкретному человеку.
Проблема любого обучения в том, что алгоритмы обучаются на плохих данных. Всякая выборка, которая используется в промышленных реализациях, заведомо нерепрезентативна. Классическая ошибка: повышаем точность при уменьшающейся полноте. Многие просто перестали пользоваться поиском, и поиск остался на откуп относительно простым запросам. Но как только мы задаёмся вопросом о том, а что действительно хотели найти пользователи (и в каком виде), и что они могли бы найти, если бы поиск был и вправду продвинутым, то картина перестаёт быть такой впечатляющей.
Спасибо за комментарий! Мы смотрим в сторону специализированных тематик. У нас уже есть эксперты по узким срезам (например медицине, финансам, играм), через какое-то время мы также расскажем что сделали в этом направлении.
А Вы не пробовали использовать обучение с подкреплением? Ваша первейшая задача — это индексирование страниц. Их нужно разбить на смысловые и структурные фрагменты, классифицировать и получить структурированное семантическое описание каждой страницы. Идентифицировать каждый объект на странице. Эдакий многоэтапный препроцессинг. Затем, Вы всё это "скармливаете" пользователю, но уже в категоризованном виде. А уже пользователь сообщает Вам, что объекты, попавшие в определённые категории, совсем не есть те "дроиды", который он ищет. (Специалисты потребуются только для того, чтобы выстроить некий скелет, чтобы предотвратить намеренное искажение обучения с подкреплением.)
Проверьте еще поиск с явным указанием города. Если человек указал город, значит ему это важно. И даже добавление "+" перед городом не работает. Это настолько раздражает, что я обращался в поддержку - тикет 22060618554364290.
То же самое и с названиями автомобилей. Если человек ищет конкретную запчасть для конкретного авто, то ему не нужны ссылки на другие запчасти или другие авто. Даже если они дешевле и ближе.
Таких вот статей ждешь от Яндекса! Попробую ваш поиск
Это так и должно работать? В гугле я читаю первую строчку и мне жирным шрифтом выделяют правильный ответ. В яндексе я ничего не читаю, потому что жизнь слишком коротка чтобы пытаться что-то найти в этом фонтане любви, извергающегося из вашего UX дизайнера.
Задача поиска в интернете довольно сложная. У нас есть сотни миллиардов документов. Нам надо найти среди них десять наиболее релевантных всего за сотню миллисекунд. Поэтому большинство документов отсеиваются простыми, но зато очень быстрыми алгоритмами.
Интересно, а что значит надпись "Нашлось 499 тыс. результатов " при попытке ввести в Яндексе "YATI"? Что находится в этом полумиллионе? А если попытаться катеогоризовать? Да и ещё кластернуть каждую категорию? А потом выложить всё это пользователю в таком же ухоженном структурированном виде...
К стати да для "покупок в интернете" пользовался яндексом, для гугления программерских вопросов - гуглом, что немного напрягало.
Если вы утверждаете что качество гугления по программерским вопросам улучшилось - попробую яндекс для всего.
Т.е. закостылили одну тему.
А поиск вообще делать будете, или метрики вас устраивают?
В добавок к копированию сниппета — для языков которые это позволяют, добавьте кнопку запуска этого сниппета в онлайн плейграунде.Чаще всего сниппеты из ответов не являются полноценно рабочими программами, их нужно будет дописывать/модифицировать перед запуском. Не думаю, что ссылка на плейграунд с нерабочим кодом хоть кого-то обрадует…
буйство жира на странице уменьшите
Так вроде официальная страница поисковика яндекса - ya.ru (уже больше недели как) вполне прилично смотрится в этом плане
не вижу объективных причин считать интерфейс гугла лучше на примере выше (в общем то же самое - список ответов + лучший ответ отдельно).
Для use-case "за широким монитором" яндексовский вариант даже лучше - т.к. использует всю площадь монитора (правую часть под лучший ответ).
Постойте яндекс оптимизирует вёрстку страницы под широкий монитор вы называете "объективными недостатками".
По-моему это как минимум "вкусовщина", а как максимум - у яндекса для программиста вёрстка лучше.
Не поленился посчитал, на примерах выше — у гугла два области выделены жирным шрифтом, у яндекса за тридцать. Из них пять с жирным в заголовках (т.е. самым большим размером шрифта).
Залёш ввёл те же запросы и оценил, смотрим:
1. Яндекс выделил жирным входление слов исходной фразы в заголовок (а гугл нет)
2. Яндекс выделил жирным вхождение ссылок со StackOverflow (а гугл нет)
3. Яндекс оптимизировал выдачу под широкие мониторы, в итоге контента влезло больше - а гугл нет
4. Гугл использовал вертикальное разреживание - яндекс в тех же местах использует более "широкий" шрифт (это на самом деле 3.1 - оптимизация под широкий монитор чтобы влезло больше строк)
Меня в результатах поиска больше всего бесят рекламные пиратские зеркала stackoverflow, как переводные так и на английском. Их тонны, и они замусоривают выдачу ужасно.
Верните кнопку типа "пожаловаться на сайт и убрать его из моей из выдачи навсегда", помню когда-то была такая!
Нас тоже эта проблема бесит! По нашей оценке, за последние несколько месяцев число пиратских зеркал stackoverflow в выдаче уже уменьшилось на 61.8%, и мы продолжаем работать над дальнейшим уменьшением их присутствия в выдаче.
Также, около каждого элемента на выдаче есть три точки, нажав на которые можно сообщить об ошибке, написав почему данный результат плохой.
Три точки с тем пунктом пропадали и вернулись? Или почему я мог их не находить?
Вот буквально сейчас опять столкнулся с этой хренью, вспомнил ваш коммент и полез в три точки. Ну и где тут сообщать об ошибке???
Более того, по первому из пунктов открывается шикарная страница, в которой можно почитать "комментарии и оценки от пользователей" - но нет, блин, вообще никакой возможности мне как пользователю, присоединиться к хору комментаторов и оценщиков! Я прошлый раз задолбался искать, где же эти пользователи могут оставлять комментарии. С трудом нашёл. С большим! В этот раз и пытаться не буду, лучше вот вам сюда напишу.
Где вы были 15 лет назад, когда я учился программировать и перешёл на google с их гигабайтной почтой (на яндексе давно закончилось место и каждый день начинался с чистки) и релевантными результатами?
Я любил тебя яндекс. Очень. Но со смертью человека, под столом которого стоял весь яндекс, умерла и часть яндекса которую я любил. R.I.P..
Спасибо тебе за всё. Но теперь уже поздно.
Хорошая попытка, Яндекс, но нет.
Вот запросы из моей истории:
memory mapped files c# get raw pointer
Google: первая же ссылка даёт ответ, Yandex: куча документации вообще не по делу.
python partially read tiff image
Google: всё по делу, Yandex: опять не уловил сути запроса (partially).
elementtree write to file
Тут оба молодцы
linux disable conda activate on bash
Тоже всё хорошо
c++ realtime clock
Google: документация по std::chrono::system_clock (то, что я ожидал), Yandex: какая-то проктология.
c# lambdaexpression invoke
Google: первая ссылка по делу, Yandex: опять не понял сути запроса.
А что случилось с вашей почтой? Войти не получается, требуют скан паспорта.
А у Алисы уже можно что-то спросить про Python так, чтобы она поняла?
Нужно чтобы пользователи имели возможность в поисковой выдаче у себя в браузере ставить плюсики и минусики. И все левые сайты в выдаче у себя в пределе блокировали или понижали. По крайней мере для личного пользования. А дальнейшем возможно получится какую-то информацию из этого извлечь для глобального использования.
Привет! Такое должно происходить благодаря персонализации в поиске. Часто посещаемые пользователем ресурсы повышаются в выдаче персонально для него.
В яндекс-картах при поиске обращаю внимание на рейтинг заведения(например, кафе), который не персонализированный, а некий групповой. Разве не логично, если запросы и пользователи часто спрашивают по одной и той же тематике, то отнести их к этой группе и воспринимать рекомендации от таких пользователей как компетентный? Возможно, это поможет снизить затраты на асессоров по этой теме.
Ну не зря в прошлом году выдачу размечали. Рад, что довели это до конца :)
Если эта статья про то, заметил ли я нерелевантность выдачи гугля? Да заметил, уже с месяц. Янедекс менее релевантен, чем 10 лет назад, когда можно было +-& "" site: и фильтрацию в найденном. Так что пока вы проигрываете себе в молодости. Это нормально, но для человека. Люди стареют. Не возникала мысль что для кодеров вполне естественно в поиске использовать код? Регулярки? Они стандартизированы и ERE вообще естественны для разработчиков? Что диапазоны дат и чисел кратно улучшают поиск? Сделали для кухарок, а теперь опаньки. К слову, я очень рад, что эта статья появилась. Спасибо. Очень поздно, но сегодня лучше чем никогда. Правда и выбора уже нет, и так схаваем, а тут такой каминг аут.
Мой товарищ, которому приходилось использовать в работе язык программирования R, жаловался на низкое качество поисковой выдачи.
Не так давно Яндекс поисковик переделали на дзен, неужели было настолько все плохо, чтобы сделать еще хуже и заменить на это убожество? В котором нет ни тёмной темы, ни удобства , а про приложение вообще молчу ??♂️??♂️??♂️
Точно такая же проблема у Яндекса с поиском любой узкоспециализированной информации.
Когда учился в универе/аспирантуре в середине 10-х регулярно искал англоязычные материалы по лазерной физике, выдача Яндекса, Mail.ru и Bing по теме была просто никакой. Можно было пользоваться только Google.
Подозреваю, что у них какой-то принципиально другой подход, и тысячами асессоров и закостыленных нейронок тут не отделаться
Мне кажется вам ещё не хватает функции "ручного" управление поиском. То есть когда пользователь смог один раз найти правильный результат, но с большим трудом, и ему не хотелось бы со временем повторно долго искать. Я даже вспомнил, искал в своё время клип Don Diablo - Survive, по запросу "клип, где астронавт терпит крушение" и яндекс нашёл вообще всё что угодно, кроме того что я искал.
Сейчас кстати, он дал правильный ответ в ответах мейл ру. Однако, если заменить астронавт на космонавт яндекс опять находит шляпу, и к сожалению его нельзя искусственно научить правильно искать материал.
Теперь прямо в выдаче можно увидеть рейтинг проекта, число форков и даже дату последнего коммита. Это поможет быстрее сделать правильный выбор.
Может сначала стоило научить яндекс брать текст из ридми вместо мусора?
Я придумал, что надо сделать. Отправляете запрос пользователя по программированию в google. Сравниваете ответ гугл со своим. Видите что отличается и решаете, что можно поменять чтобы выдача была в топ10 ссылок. В итоге ресурсы типа stackoverflow будут иметь самый высокий приоритет, а всякие непонятные сайты - не будут засорять выдачу.
Как Яндекс перепридумал поиск для разработчиков