alejes Sep 20 2022 at 10:01

Как Яндекс перепридумал поиск для разработчиков

9 min

38K

Яндекс corporate blogSearch engines*Programming*Algorithms*Machine learning*

Technotext 2022

+85

Comments 68

middle Sep 20 2022 at 10:26

Однако у нас были продуктовые метрики, которые говорили: ребята,
успокойтесь, у вас всё хорошо, вы как минимум не хуже коллег по
индустрии.

В этом весь Яндекс.

fedorro Sep 20 2022 at 10:54

как минимум не хуже коллег по индустрии.

Было явно хуже чем у коллег - т.к. после установки FF постоянно пригорало от результатов поиска Яндекса, установленного как поиск по умолчанию, если сразу забывал выбрать другой.

middle Sep 20 2022 at 14:13

Речь о том, что метрики в некоторых компаниях заменяют здравый смысл.

areaofdefect Sep 20 2022 at 10:48

Воочию застал улучшение поиска для разработчиков!

Еще полгода назад действительно плохо получалось яндексить функции из разных ЯП. Потом наконец-то появились вырезки из стековерфлоу, но код копировался в 'одну строку'. А теперь вcё идеально. Спасибо!

UFO just landed and posted this here

Zy2ba Sep 20 2022 at 15:51

Зачем закрывать яндекс и открывать гугл, если у яндекса внизу страницы есть удобные ссылки на то чтоб поискать тот же запрос в других сервисах?

Я обычно начинаю поиск с яндекса только из-за этого. Потому что гугл тоже не всегда ищет то, что может найти яндекс, а с гугла обратно так удобно не перейти.

UFO just landed and posted this here

OlegZH Sep 20 2022 at 11:19

Технические подробности любопытны, но "перепредумать" поиск такими частичными полу-решениями не удастся.

Здесь следует начать с самого начала. С постановки задачи. С того, что нужно пользователю. А пользователю нужен не список ссылок на сайты, а ответ на вопрос. Во времена текстового интернета всё было гораздо проще. Простой полнотекстовый расширенный поиск практически всегда давал то, что нужно. К сожалению, часто приходилось пролистывать несколько страниц поисковой выдачи, зато вероятность "пропуска цели" была чрезвычайно мала. Сегодня очень не хватает статичной среды, чего-то типа архива, где и имело бы использовать поиск. А искать что-то в динамически меняющемся пространстве гиблое дело. Для каких-то очевидных вещей "быстрые ответы" ещё помогут, а для чего-то более глубокого и хорошо структурированного требуются более изощрённые инструменты.

Во-первых, пользователю желательно представить динамически разворачивающуюся форму опроса, позволяющую максимально уточнить цель запроса, и возможность фильтровать уже полученные результаты.

Во-вторых, результат поисковой выдачи должен быть структурированным. Вы должны выводить на экран самую суть, а не ссылки на ресурсы. Ссылки нужны только для того, чтобы прочитать оригинал (при необходимости). Идеальная выдача — это что-то вроде статьи в Википедии, когда можно, "не отходя от кассы", прочитать всё, что нужно, об интересующем тебя предмете. И всё это должно опираться на модель предметной области. Нейронные сети, как я вижу, направлены на решение этой задачи, но пользователю нужна именно структура. Смысл поискового механизма заключается в том, чтобы найти точное место в этой структуре. Для этого нужно не нагружать ассессоров оценкой документов, а строить предположения о том, что такое точный (или приблизительно точный) ответ на запрос (исходя из заданной предметной области). Взять бы тот же запрос:

C++ list find

Развёрнутый ответ на этот запрос — это статья о том, что существуют списки, в этих списках можно осуществлять поиск, и что имеются реализации, в том числе, и в языке программирования C++ (включающие библиотеку шаблонов и алгоритмов). То есть — большой сниппет.

В-третьих, .... Если бы интернет изначально был сетевой распределённой семантической базой знаний, то не нужно было бы выдумывать какой-то особый поиск, всё было бы встроено в систему.

SADKO Sep 20 2022 at 17:48

Ох, что-то подобное было реализовано в замечательном поисковике Quintura...
...и googlы что-то подобное пилили, но оно так же кануло в лету, а жаль

UFO just landed and posted this here

DeniSix Sep 20 2022 at 18:59

По-сути grep.app — реинкарнация гугловского кодсёрча. Но Sourcegraph и новый поиск гитхаба выглядят функционально "повеселее".

alexeibs Sep 20 2022 at 23:24

Во-первых, во-вторых, в-третьих... - вы описали поиск, который нужен лично вам. Почему вы считаете, что всем остальным это тоже нужно?

OlegZH Sep 21 2022 at 12:47

Я немного идеализирую. Но, вообще-то, я исхожу из существа задачи. То как это должно быть в целом. Почему же Вы решили, что это нужно только мне? Что Вы знаете о реальных потребностях пользователей? Вы ориентируетесь на типовые запросы, то есть — на наиболее распространённые модели поведения. Но это не значит, что, будь у пользователей соответствующий инструментарий, они не стали бы делать более сложные запросы. Ваша постановка задачи сужает поле деятельности до угадывания смысла вводимой строки. Вот пользователи и пользуются для "относительно простых" запросов. Ну да. Угадать можно. Улучшить можно. А узнать, что действительно нужно пользователю нельзя. Для этого придётся перепредумать весь поиск. С нуля.

sparhawk Sep 20 2022 at 11:50

Выглядит работоспособно.

Отдельный плюс: можно искать на русском — в выдаче нет «весеннего отдыха» Spring REST — мусорных автоматических переводов документации и stackoverflow (russianblogs.com и пр.). Правда, кажется блоги на русском занижаются в выдаче по сравнению с Гуглом, тот же Хабр.

UFO just landed and posted this here

Kelbon Sep 20 2022 at 12:03

Есть одна небольшая проблема.
Это вы разработчики и увидели (т.к. обладаете знаниями в этой области), что поиск стал плохим(или был плохим) по этой области.
Но на самом деле с каждым годом поиск по ВСЕМ темам становится всё хуже и хуже. Исключение тут разве что коты и тиктоки. Поиск всё больше ориентируется на самого среднего потребителя без запросов сложнее запросов "красивый кот" и "порно".
Общий поиск для всех просто устарел. Нужны разные поисковые алгоритмы/нейросети для разных тематик и потенциально разных людей. То есть сеть обученная на том что нужно конкретному человеку.

OlegZH Sep 20 2022 at 12:45

Проблема любого обучения в том, что алгоритмы обучаются на плохих данных. Всякая выборка, которая используется в промышленных реализациях, заведомо нерепрезентативна. Классическая ошибка: повышаем точность при уменьшающейся полноте. Многие просто перестали пользоваться поиском, и поиск остался на откуп относительно простым запросам. Но как только мы задаёмся вопросом о том, а что действительно хотели найти пользователи (и в каком виде), и что они могли бы найти, если бы поиск был и вправду продвинутым, то картина перестаёт быть такой впечатляющей.

alejes Sep 20 2022 at 12:48

Спасибо за комментарий! Мы смотрим в сторону специализированных тематик. У нас уже есть эксперты по узким срезам (например медицине, финансам, играм), через какое-то время мы также расскажем что сделали в этом направлении.

OlegZH Sep 20 2022 at 12:56

А Вы не пробовали использовать обучение с подкреплением? Ваша первейшая задача — это индексирование страниц. Их нужно разбить на смысловые и структурные фрагменты, классифицировать и получить структурированное семантическое описание каждой страницы. Идентифицировать каждый объект на странице. Эдакий многоэтапный препроцессинг. Затем, Вы всё это "скармливаете" пользователю, но уже в категоризованном виде. А уже пользователь сообщает Вам, что объекты, попавшие в определённые категории, совсем не есть те "дроиды", который он ищет. (Специалисты потребуются только для того, чтобы выстроить некий скелет, чтобы предотвратить намеренное искажение обучения с подкреплением.)

unsvp Sep 29 2022 at 06:57

Проверьте еще поиск с явным указанием города. Если человек указал город, значит ему это важно. И даже добавление "+" перед городом не работает. Это настолько раздражает, что я обращался в поддержку - тикет 22060618554364290.

То же самое и с названиями автомобилей. Если человек ищет конкретную запчасть для конкретного авто, то ему не нужны ссылки на другие запчасти или другие авто. Даже если они дешевле и ближе.

imbalance Oct 21 2022 at 04:11

Ваш комментарий должен быть в топе, и в отдельной ветке.

zueve Sep 20 2022 at 12:20

Таких вот статей ждешь от Яндекса! Попробую ваш поиск

frenzis Sep 20 2022 at 12:43

Яндекс, торт. Вот бы аналог Copilot, а то OpenAI вообще не Open ни разу и под каблуком санкций США, а GitHub совсем зажрался, аж 10$ в месяц за продукт, который они сделали поверх бесплатного лицензионного кода.

MyWave Sep 20 2022 at 13:00

Это так и должно работать? В гугле я читаю первую строчку и мне жирным шрифтом выделяют правильный ответ. В яндексе я ничего не читаю, потому что жизнь слишком коротка чтобы пытаться что-то найти в этом фонтане любви, извергающегося из вашего UX дизайнера.

314159abc Oct 5 2022 at 13:58

Очень знакомая ситуация) Кстати, кажется, я такое встречал и с "не-програмистскими" запросами

OlegZH Sep 20 2022 at 13:39

Задача поиска в интернете довольно сложная. У нас есть сотни миллиардов документов. Нам надо найти среди них десять наиболее релевантных всего за сотню миллисекунд. Поэтому большинство документов отсеиваются простыми, но зато очень быстрыми алгоритмами.

Интересно, а что значит надпись "Нашлось 499 тыс. результатов " при попытке ввести в Яндексе "YATI"? Что находится в этом полумиллионе? А если попытаться катеогоризовать? Да и ещё кластернуть каждую категорию? А потом выложить всё это пользователю в таком же ухоженном структурированном виде...

thevlad Sep 20 2022 at 15:42

Это уже было, к примеру такой малоизвестный поисковик Nigma. Пользователю не нужны кластеры, он готов максимум прочитать топ 10 результатов.

AnthonyMikh Sep 21 2022 at 01:10

Nigma сдох, увы. И очень жаль, поиск весьма функциональный был.

WASD1 Sep 20 2022 at 14:40

К стати да для "покупок в интернете" пользовался яндексом, для гугления программерских вопросов - гуглом, что немного напрягало.

Если вы утверждаете что качество гугления по программерским вопросам улучшилось - попробую яндекс для всего.

MaksimMukharev Sep 21 2022 at 19:59

Гугл давно отлично справляется с поиском покупок, вроде. Правда, это в Москве. В регионах ситуация хуже, вроде.

saege5b Sep 20 2022 at 15:47

Т.е. закостылили одну тему.

А поиск вообще делать будете, или метрики вас устраивают?

UFO just landed and posted this here

DirectoriX Sep 20 2022 at 19:09

В добавок к копированию сниппета — для языков которые это позволяют, добавьте кнопку запуска этого сниппета в онлайн плейграунде.

Чаще всего сниппеты из ответов не являются полноценно рабочими программами, их нужно будет дописывать/модифицировать перед запуском. Не думаю, что ссылка на плейграунд с нерабочим кодом хоть кого-то обрадует…

UFO just landed and posted this here

WASD1 Sep 20 2022 at 21:27

буйство жира на странице уменьшите

Так вроде официальная страница поисковика яндекса - ya.ru (уже больше недели как) вполне прилично смотрится в этом плане

UFO just landed and posted this here

WASD1 Sep 20 2022 at 21:45

не вижу объективных причин считать интерфейс гугла лучше на примере выше (в общем то же самое - список ответов + лучший ответ отдельно).

Для use-case "за широким монитором" яндексовский вариант даже лучше - т.к. использует всю площадь монитора (правую часть под лучший ответ).

UFO just landed and posted this here

WASD1 Sep 20 2022 at 22:19

Постойте яндекс оптимизирует вёрстку страницы под широкий монитор вы называете "объективными недостатками".
По-моему это как минимум "вкусовщина", а как максимум - у яндекса для программиста вёрстка лучше.

Не поленился посчитал, на примерах выше — у гугла два области выделены жирным шрифтом, у яндекса за тридцать. Из них пять с жирным в заголовках (т.е. самым большим размером шрифта).

Залёш ввёл те же запросы и оценил, смотрим:
1. Яндекс выделил жирным входление слов исходной фразы в заголовок (а гугл нет)
2. Яндекс выделил жирным вхождение ссылок со StackOverflow (а гугл нет)
3. Яндекс оптимизировал выдачу под широкие мониторы, в итоге контента влезло больше - а гугл нет
4. Гугл использовал вертикальное разреживание - яндекс в тех же местах использует более "широкий" шрифт (это на самом деле 3.1 - оптимизация под широкий монитор чтобы влезло больше строк)

UFO just landed and posted this here

WASD1 Sep 20 2022 at 22:55

Именно поэтому я и хотел уточнить объективные претензии. Как по мне их нет, а есть привычка к дизайну гугла.

Мне (я яндексю %20 от гугленья) дизайн яндекса больше нравится - он более информативен (одно выделение слов запроса в заголовке чего стоит), но вам, вероятно по привычке, он нравится меньше.

Nashev Sep 20 2022 at 18:15

Меня в результатах поиска больше всего бесят рекламные пиратские зеркала stackoverflow, как переводные так и на английском. Их тонны, и они замусоривают выдачу ужасно.

Верните кнопку типа "пожаловаться на сайт и убрать его из моей из выдачи навсегда", помню когда-то была такая!

alejes Sep 20 2022 at 23:01

Нас тоже эта проблема бесит! По нашей оценке, за последние несколько месяцев число пиратских зеркал stackoverflow в выдаче уже уменьшилось на 61.8%, и мы продолжаем работать над дальнейшим уменьшением их присутствия в выдаче.

Также, около каждого элемента на выдаче есть три точки, нажав на которые можно сообщить об ошибке, написав почему данный результат плохой.

Nashev Sep 21 2022 at 09:24

Три точки с тем пунктом пропадали и вернулись? Или почему я мог их не находить?

Nashev Dec 12 2022 at 16:01

Вот буквально сейчас опять столкнулся с этой хренью, вспомнил ваш коммент и полез в три точки. Ну и где тут сообщать об ошибке???

Более того, по первому из пунктов открывается шикарная страница, в которой можно почитать "комментарии и оценки от пользователей" - но нет, блин, вообще никакой возможности мне как пользователю, присоединиться к хору комментаторов и оценщиков! Я прошлый раз задолбался искать, где же эти пользователи могут оставлять комментарии. С трудом нашёл. С большим! В этот раз и пытаться не буду, лучше вот вам сюда напишу.

Nashev Dec 12 2022 at 16:03

К слову, цитата справа на странице поиска тут даёт действительно нужный ответ, это приятно. Но наверное это не менее убийственно для рекламной политики монетизации сайта с источником ответа, чем блокировщики рекламы. И не меньше того убивает и смысл их локальной статистики...

KasperGreen Sep 20 2022 at 18:50

Где вы были 15 лет назад, когда я учился программировать и перешёл на google с их гигабайтной почтой (на яндексе давно закончилось место и каждый день начинался с чистки) и релевантными результатами?

Я любил тебя яндекс. Очень. Но со смертью человека, под столом которого стоял весь яндекс, умерла и часть яндекса которую я любил. R.I.P..

Спасибо тебе за всё. Но теперь уже поздно.

DistortNeo Sep 20 2022 at 20:06

Хорошая попытка, Яндекс, но нет.

Вот запросы из моей истории:

memory mapped files c# get raw pointer
Google: первая же ссылка даёт ответ, Yandex: куча документации вообще не по делу.
python partially read tiff image
Google: всё по делу, Yandex: опять не уловил сути запроса (partially).
elementtree write to file
Тут оба молодцы
linux disable conda activate on bash
Тоже всё хорошо
c++ realtime clock
Google: документация по std::chrono::system_clock (то, что я ожидал), Yandex: какая-то проктология.
c# lambdaexpression invoke
Google: первая ссылка по делу, Yandex: опять не понял сути запроса.

echo0x00 Sep 20 2022 at 20:26

Lonsdaleite Sep 21 2022 at 01:12

Причём чему приколу уже лет 5, но его так и не поправили.

Bwana Sep 20 2022 at 21:08

А что случилось с вашей почтой? Войти не получается, требуют скан паспорта.

Vaitek Sep 20 2022 at 21:34

А у Алисы уже можно что-то спросить про Python так, чтобы она поняла?

diakin Sep 20 2022 at 22:09

Нужно чтобы пользователи имели возможность в поисковой выдаче у себя в браузере ставить плюсики и минусики. И все левые сайты в выдаче у себя в пределе блокировали или понижали. По крайней мере для личного пользования. А дальнейшем возможно получится какую-то информацию из этого извлечь для глобального использования.

alejes Sep 20 2022 at 22:54

Привет! Такое должно происходить благодаря персонализации в поиске. Часто посещаемые пользователем ресурсы повышаются в выдаче персонально для него.

iipolovinkin Sep 22 2022 at 05:02

В яндекс-картах при поиске обращаю внимание на рейтинг заведения(например, кафе), который не персонализированный, а некий групповой. Разве не логично, если запросы и пользователи часто спрашивают по одной и той же тематике, то отнести их к этой группе и воспринимать рекомендации от таких пользователей как компетентный? Возможно, это поможет снизить затраты на асессоров по этой теме.

Afigan Sep 20 2022 at 22:21

главный вопрос, зачем вообще что то гуглить в яндексе про программирование. я уверен, что даже в самом яндексе большинство разработчиков тех. вопросы ищут в гугле.

Forum3 Sep 27 2022 at 08:22

Иногда удобней яндекс, когда тема специфичная для ру-сегмента.

Так что почему нет? Иногда удобней и там и там искать, если вопрос очень специфический.

У гугла что большой плюс, он меньше ищет по ру-сайтам и для it-тем меньше мусора в списке

alexeibs Sep 20 2022 at 23:33

Ну не зря в прошлом году выдачу размечали. Рад, что довели это до конца :)

Kirikekeks Sep 21 2022 at 00:36

Если эта статья про то, заметил ли я нерелевантность выдачи гугля? Да заметил, уже с месяц. Янедекс менее релевантен, чем 10 лет назад, когда можно было +-& "" site: и фильтрацию в найденном. Так что пока вы проигрываете себе в молодости. Это нормально, но для человека. Люди стареют. Не возникала мысль что для кодеров вполне естественно в поиске использовать код? Регулярки? Они стандартизированы и ERE вообще естественны для разработчиков? Что диапазоны дат и чисел кратно улучшают поиск? Сделали для кухарок, а теперь опаньки. К слову, я очень рад, что эта статья появилась. Спасибо. Очень поздно, но сегодня лучше чем никогда. Правда и выбора уже нет, и так схаваем, а тут такой каминг аут.

UFO just landed and posted this here

Ksyushik Sep 22 2022 at 05:02

Мой товарищ, которому приходилось использовать в работе язык программирования R, жаловался на низкое качество поисковой выдачи.

eddilou Sep 23 2022 at 14:45

Не так давно Яндекс поисковик переделали на дзен, неужели было настолько все плохо, чтобы сделать еще хуже и заменить на это убожество? В котором нет ни тёмной темы, ни удобства , а про приложение вообще молчу ??‍♂️??‍♂️??‍♂️

NickNal Sep 23 2022 at 14:48

Точно такая же проблема у Яндекса с поиском любой узкоспециализированной информации.
Когда учился в универе/аспирантуре в середине 10-х регулярно искал англоязычные материалы по лазерной физике, выдача Яндекса, Mail.ru и Bing по теме была просто никакой. Можно было пользоваться только Google.

Подозреваю, что у них какой-то принципиально другой подход, и тысячами асессоров и закостыленных нейронок тут не отделаться

Dimofey Sep 25 2022 at 11:59

Мне кажется вам ещё не хватает функции "ручного" управление поиском. То есть когда пользователь смог один раз найти правильный результат, но с большим трудом, и ему не хотелось бы со временем повторно долго искать. Я даже вспомнил, искал в своё время клип Don Diablo - Survive, по запросу "клип, где астронавт терпит крушение" и яндекс нашёл вообще всё что угодно, кроме того что я искал.

Сейчас кстати, он дал правильный ответ в ответах мейл ру. Однако, если заменить астронавт на космонавт яндекс опять находит шляпу, и к сожалению его нельзя искусственно научить правильно искать материал.

MrMurder Sep 29 2022 at 07:01

Теперь прямо в выдаче можно увидеть рейтинг проекта, число форков и даже дату последнего коммита. Это поможет быстрее сделать правильный выбор.

Может сначала стоило научить яндекс брать текст из ридми вместо мусора?

bromozel Oct 1 2022 at 15:16

На самом деле к моменту написание Вашего комментария уже выкатили масштабное улучшение сниппетов и этот текст стал выделяться (из текста на сайте) намного лучше. Для примера сниппет, приведенный в посте, теперь выглядит так:

litos Oct 23 2022 at 04:05

Я придумал, что надо сделать. Отправляете запрос пользователя по программированию в google. Сравниваете ответ гугл со своим. Видите что отличается и решаете, что можно поменять чтобы выдача была в топ10 ссылок. В итоге ресурсы типа stackoverflow будут иметь самый высокий приоритет, а всякие непонятные сайты - не будут засорять выдачу.