Тот, кто нам мешает, тот нам поможет / Песочница / Хабр

Здравствуйте Аркадий Юрьевич!

А может, всё таки зря в 97-м году вы проиндексировали Рунет? Речь не про саму первую индексацию Яндекса. Речь о том, что скопировали славный опыт иностранных поисковиков, со всеми их математическими ошибками… (списали - как в школе на уроке). И вот, по прошествии почти 25 лет строгий учитель наконец то ставит неуд и тому кто списывал, и тому у кого списали.

Самый дорогой поисковый трафик уже второй год уходит в социальные сети.

Ну конечно, в 97-м году все говорили лишь про ГКО, и мало кому в голову могло прийти, что в 20-х годах нового века случится COVID. Людей запрут по домам, и они, все как один, побегут в интернет, спрашивать у поисковиков «что же делать», а не найдя ответ на этот и другие вопросы у обычных поисковиков, толпой ринутся со своими вопросами в социальные сети. И вот тут, как раз, вылезут все РЕАЛЬНЫЕ ошибки в алгоритмах и стратегии привычных поисковиков.

И накроется, вся история борьбы за мобильный поиск,(когда Google увидел, что интернет уходит в смартфоны, а с ним уйдет и поиск, и на коленке по быстрому слепили конкурента iOS, чтобы не вылететь с поискового рынка). И все громкие PR-обновления в поисковых алгоритмах Яндекса и Google (пиару не верят те, кто не получает ответ у поисковика на свой вопрос). И его величество Пользователь проголосовал ногами.

Даже не знаю, как назвать то, чем все эти годы Вы занимались, если поиск, причем самый прибыльный (да еще в самое растущее время!) уходит в соц. сети. Туда, где не такие профи с многолетним опытом в поисковых технологиях. Уходит самая молодая часть пользователей. Самая динамичная, перспективная, и очень скоро - самая платежеспособная.

В 97-м, когда индексировали по той же модели, что другие поисковики, может, именно модель была выбрана не верно? С одной стороны есть поисковый алгоритм, который должен отвечать на вопросы (а чтобы правильно отвечать на вопросы нужно знать ответ). С другой - гипертекстовая разметка текста, которая ну вообще никак (ДО СИХ ПОР!) не разрабатывалась для того, чтобы быть источником ОТВЕТОВ! А еще есть чисто человеческая проблема - не все интернет страницы вообще формулируют ответы! - некоторые лишь задают вопросы, да и то, не всем понятные. А поисковый робот об этом даже не догадывается.

Умные люди - эксперты и аналитики, знают, что если в данных у вас мусор на входе - то будет мусор и на выходе, как бы вы внутри процесса с этим мусором хороводы не водили (ну не умеют пока еще поисковики понимать смысл фраз, и тем более отделять в тексте один смысл от другого, это даже написавшие текст интернет-писатели не всегда успешно делают). В то время, когда люди друг друга иногда не понимают, при том, что говорят на одном языке. А тут, определить, кто из писавших написал глупость, а кто и правда эксперт, смысл из чужого текста выделить, подобрать под конкретный вопрос, а потом ещё и сформулировать ответ, да так, чтобы и профессор и Эллочка-людоедка поняли ответ (каждый на своем уровне и на своем сленге). Увы, не могут пока технологии разобрать такой мусор в интернете, а вот в социальных сетях люди сами этот мусор пережевывают. Т.е. соц. сети это тот же интернет-контент, но который консорциум мудрецов из W3C не успел еще заформатировать в несъедобное. И пользователи сделали свой выбор - проголосовали ногами, кликами, лайками, репостами и унесли свои денежки с собой.

Think Different

Интересный был год 97-й: Яндекс провел первую индексацию в Рунете, и повернул в сторону копирования опыта Google. А в Apple вернулся Джобс и круто развернул компанию с дороги ведущей в пропасть (тогда компания была на грани банкротства, и был придуман слоган Think Different - «Думай иначе»). Скопированный тогда подход к поиску, привел классические поисковики к такой же пропасти. И социальные сети не упустят такой подарок от поисковиков.

Спросите у Google - а он точно знает?

Любой ребенок знает фразу из мультика про 38 попугаев: «Когда не знаешь как — сказал слонёнок, — нужно у кого-нибудь спросить». Основа любой самообучающейся системы - обратная связь. Все эти 25 лет «поисковики» боролись с владельцами и создателями интернет контента. И вот, пандемия, как санитар леса показала, что поисковики проиграли в этой борьбе - интернет уже не тот, нейронные алгоритмы слишком молоды (и математически, и по мощности), чтобы делать серьезные выводы уровня людей - экспертов. И это уже не проблема - это тупик.

А если главная проблема современного поиска - источник данных, так почему бы не изменить сам фундаментальный подход: спросить у источника, а не у посредника. Ну и если уж источник не сможет ответить на свои же вопросы….. то как на эти вопросы может ответить поисковик?

В начале было слово

Выбор решений не так велик, как хотелось бы - тот, кто создает тексты (и др. контент) должен иметь возможность этот текст объяснить, комментировать. И механизму индексации на помощь приходит простая таблица вопросов-ответов (со ссылками на материалы). Эту таблицу, создатель текстов (и др. контента) интернет-ресурса и формирует сам, на основе своего экспертного понимания тех текстов, мыслей, выводов, цитат, что украшают его интернет ресурс. Так, разбивая контент на цитаты, абзацы и фрагменты мы получаем простейшую базу знаний, сформированную ЧЕЛОВЕКОМ, отредактированную ЧЕЛОВЕКОМ, создавшим этот контент (а значит лучше всех его понимающий). Человеком мотивированным на то, чтобы его мысли и тексты не были изуродованы поисковыми роботами и кривыми алгоритмами. Роботами, которые не являются специалистами в темах и специфике знаний каждого сайта, но пытаются давать ответы на сложные вопросы, смысл которых не каждый взрослый может объяснить ребенку.

Добавим музыки и видео

Тексты - лишь малая часть мобильного интернет трафика сегодня. Видео, аудио, и др. медиа-потоки качаются мобильными устройствами - основным потребителем интернета. И весь этот контент нужно правильно организовывать. А создают весь этот разный контент одни и те же люди, владельцы сайта, ютуб-канала, блогеры, интернет издатели… И будет совершенно справедливо добавить в нашу табличку (назовем уже её базой знаний для простоты понимания) вопросов - ответов, ссылки на фрагменты в видео, аудио, и пустить всё это вместе большой толпой к поисковику на индексацию, обработку, обучение нейронок, и их старших братьев всех поколений, которые от такого здорового питания станут умнее, румянее и белее.

Новое будущее

Если опустить богатую эротическую фантазию поисковиков, на тему «что можно сделать с пользователями, пока те отвернулись, и думают что их смартфон выключен», то кратко, описанная выше технология в корне меняет очень многое (а не только выводит из алгоритмического тупика):

Значительно сокращается количество ошибок поисковой выдачи, сделанное в результате анализа мусора из интернета. А конечные пользователи получают вменяемые ответы на свои вопросы.
Обучаемость поисковых сетей начинает действительно работать, даже на основе анализа текста сайта, владелец которого, заполнил табличку - система уже получает эталонную модель для обучения. Энергетические и временные затраты на такое обучение на порядки сокращаются. А это значит и обновление/дополнение знаний в поисковую базу знаний будет быстрее происходить, и общий интеллектуальный рост базы знаний ускорится. Такая обучаемость - это уже не индексация, это новый уровень «понимания» контента и его содержания, на основе экспертных моделей знаний, созданных людьми-экспертами, уровень знаний которых системе и предстоит ранжировать. Это направление будущего поисковиков. Уровень интеллекта такого поискового механизма сравним и выше уровня энциклопедических знаний (недостижимого для современных моделей поиска).
Наконец-то модель поиска начнет обращать своё внимание на мобильные устройства, которые ближе всего к схеме работы вопрос-ответ. А потом сюда же подтянутся и остальные «недесктопные» гаджеты, от навигаторов, до умных колонок, которые, и задуманы то были именно на общение голосом… а тренд, на голосовые сервисы в пандемию растет уже который год, и это тренд на содержательное, диалоговое общение - пища для которого, именно в описанном подходе.
Обучаемость бывает разная, интеллектуальная, и лингвистическая, и на основе приведенной тут технологии, с табличкой вопросов-ответов-ссылок на контент, заполнение базы знаний улучшится значительно, но и лингвистические тупики в обучении поможет разрулить, поисковики хорошо это знают
Если Вы еще читаете это Аркадий Юрьевич, и до сих пор считаете, что Россия в развитии поиска пошла своим путем - ответьте на один простой вопрос: почему люди общаются диалогами, а Яндекс-поиск (так же, как и другие поисковые движки) не дает такой возможности в общении с машиной? Он лишь копирует ту концепцию, которую однажды списал у иностранных поисковиков.
Ну почему!? Когда владелец интернет сайта анализирует входящий трафик - он понимает, что чем больше переходов делает пользователь по сайту, тем выше конверсия. Миллионы, сотни миллионов владельцев сайтов это понимают, а поисковик - ЭТОГО НЕ ЗНАЕТ! Если и этот аргумент не пробил стену - то зачем же тогда в магазинах нужны продавцы - консультанты, ведь покупатель и так пришел, пусть сам себе дополнительные вопросы задает и сам разбирается в вываленной на него куче ассортимента!
В случае с описанной выше технологией диалог, сценарный диалог и даже диалог с целями (построенный по теории игр), не только возможен, но и будет воспринят пользователем с большим интересом. А алгоритм с уточняющими вопросами (вместо глупой поисковой выдачи на первый же вопрос) не только поднимет точность ответов, но и поможет пользователю точнее сформулировать тот запрос, который ему нужен. Это и человека позволит лучше понять, и владельцам интернет ресурсов подскажет - куда развивать контент, и на какие вопросы дополнить ответы (такая обратная связь в масштабах инета и не снилась современным поисковым чудо-алгоритмам).

Прогнозы строить глупо, но на данном этапе поисковой эволюции, без изменения входящих данных, одно только увеличение мощностей нейронных кластеров, анализирующих текущий интернет мусор приводит лишь к потеплению климата.
Чтобы шагнуть на новую ступень эволюции нужно отказаться от старых демонов (к которым так привыкли инвесторы и топ-менеджеры). А для этого надо иметь не только видение будущего, но и стальные яйца.