Как стать автором
Обновить

Комментарии 15

Потрясающее достижение! Такие мощности! Террабоды хилобайтов!

Но почему же эти мощности не направить на примитивный поиск? Чтобы поиск не выдавал гору нерелевантных ответов. Это же так просто понять, что "это не те дроиды, которых Вы ищете"!

Ведь, в чём смысл применения машинного обучения? Правильно разметить данные. Так, ведь, уже давно можно было бы всё разметить и дать всему своё место (и время). Например, я ищу некоего человека. (Там, давнего одноклассника, преподавателя, посетителя конференции.) Если всё корректно размечено, то мне предъявляется список персон, а не бурный поток ссылок и фотографий, большая часть которых не имеет никакого отношения к предмету поиска. (Например, имя другое.) При этом, я мог бы сам отметить в результатах поиска то, что мне не нужно. Это же классический вариант с подкреплением и частичным обучением! Или я хочу найти статью...

Все эти победные реляции как-то сильно меркнут на фоне воспоминаний о том, что старый расширенный полнотекстовый поиск по текстовому статическому интернету был гораздо полнее, точнее и эффективнее, чем нынешний интеллектуальный поиск.

Есть, конечно, слабая надежда, что все эти прорывные технологии от Яндекса — это подготовка к будущему преображению поиска. Но, пока...

Возможно, выдача нереваленых ссылок связана с контекстной рекламой. Ведь если ничего не найдено, как баннер лепить рядом, совсем уж будет не красиво выглядеть.

Я живу в Мурманске, и когда мне надо что то искать в Питере, на пример кафе которое есть там, но нет тут...

Запрос - кафе длинный дог Санкт Петербург.

Результат : в Мурманске нет таких кафе.

При этом ещё условный год назад, это работало и я многое искал в городах где у меня родня или куда я хочу поехать.

Сейчас надо на картах отдельно найти Питер, а потом уже искать там...

То есть что то же они сломали....

Проверил, с телефона что надо находит, а с компа в начале июня не работало...

Может и сейчас не работает, далеко от компа.

Просто мимокрокодил, про решение в сабже знаю не сильно много, но зацепился за поиск, хочу немного прокомментировать, потому что часто рассказывал о его работе.

>Так, ведь, уже давно можно было бы всё разметить и дать всему своё место

Зайду от обратного. Если бы всё было так просто, то каждая вторая компания с ML-опытом уже запустила бы свой поиск по интернету. Но таких решений по-прежнему очень мало в мире. Потому что это архисложная задача. Вряд ли я совру, если скажу, что сейчас в космос полететь проще, чем современную поисковую систему воссоздать.

>старый расширенный полнотекстовый поиск по текстовому статическому интернету был гораздо полнее

Поправьте меня, если вру, но мне кажется, вы не учитываете, что раньше а) интернет был очень маленький, контент текстовый и статичный, б) его пользователи были в основном опытные айтишники, их было тоже мало, в) никто не пытался манипулировать результатами поиска. Сейчас тот самый «старый поиск» не справился бы от слова совсем.

>Но почему же эти мощности не направить на примитивный поиск?

Поверьте, там и суперкомпьютеры задействованы, мощнейшие в Восточной Европе, и YATI с трансформерами. И улучшения регулярно есть. Просто поиск достиг таких масштабов, что на глаз уже никто их заметить не может. Но любые багрепорты полезны.

Раньше я бы согласился с Вами, но сегодня я собираюсь вступить с Вами в полемику. Вы не возражаете?

Если бы всё было так просто, то каждая вторая компания с ML-опытом уже запустила бы свой поиск по интернету.

Во-первых, никто не будет тягаться с гигантом больших данных. Плюс традиционная инерция сообщества, привыкшего к определённому положению вещей, когда некоторые задачи считаются как бы уже решёнными (вроде поиска) и никто не собирается заглядывать за горизонт, за которым одни только неясные финансовые перспективы. Привычнее оставаться в общепринятых парадигмах.

Во-вторых, ещё не вечер. На очередном витке колеса истории положение вещей может измениться. И тогда ML-компании будут сыпать своими решениями в области поиска. В этом плане, могут существенно помочь подходы и инструменты вроде тех, которые описаны в помещённой выше статье. Вы только представьте возможность быстро переключаться с языка на язык и выстраивать цепочки соответствующих ресурсов. Так можно будет реконструировать тезаурус. Я и не говорю о собственно внутричеловеческом многоязычии, когда человек в разговоре быстро переключается с одного "языка" на другой.

В-третьих, проблема заключается ещё и в том, что людям не нужно много различных поисков. Если бы интернет сам был распределённой сетевой иерархической семантической базой данных (знаний), то в большинстве случаев потребуется относительно простой семантический запрос (semantic query language, GRAPHQL).

Но таких решений по-прежнему очень мало в мире. Потому что это архисложная задача. Вряд ли я совру, если скажу, что сейчас в космос полететь проще, чем современную поисковую систему воссоздать.

Согласен. Но вопрос в том, в чём именно заключается сложность. По сути, сложность заключается в том, как именно подготовить данные. Нельзя просто так взять существующий ворох страниц и хорошо их проиндексировать. Нужно изначально иметь то, что имеет смысл индексировать.

Ещё более важна постановка задачи. Что мы хотим получить на выходе? Список ссылок на некие ресурсы? Совсем нет. Нужен ответ на вопрос. Материал. Выжимка. Реферат на заданную тему. Это раньше, когда был текстовый интернет, приходилось иметь дело с поисковой выдачей. А сейчас? Даже те изменения, которые происходят с существующими поисковыми системами, направлены в сторону структуризации выдачи.

Поправьте меня, если вру, но мне кажется, вы не учитываете, что раньше а) интернет был очень маленький, контент текстовый и статичный, ...

Совершенно верно. Вот и спрашивается тогда, а зачем нам индексировать динамически меняющееся содержимое? Индексировать имеет смысл только статическое содержимое. Какой смысл получить в выдаче ссылку на страницу, которой не будет уже в следующий момент? ... Рассуждая таким образом, мы, однажды, придёт к необходимости сделать что-то вроде Википедии, где каждая сущность имеет свою страницу (свой узел или сайт).

 б) его пользователи были в основном опытные айтишники, их было тоже мало,

Маленькая нагрузка, говорите? А если взялся простой пользователь, то ему ни в коем случае не давать расширенный поиск? Что может быть проще, чем возможность задавать простые ограничения и искать пересечения множеств?

в) никто не пытался манипулировать результатами поиска.

Какой смысл манипулировать результатами поиска, если выдача управляется только релевантностью? Например, мне нужен Пётр Петрович. Вот, пусть, мне и покажут всех Петров Петровичей. Но мне совсем не нужен Иван Петрович, даже, если Иван Петрович — очень известный человек.

Какой смысл манипулировать результатами поиска, если выдача изначально структурирована? Если я ищу Петра Петровича (человека!), то мне не нужно видеть в выдаче никакие не рестораны или строительные фирмы. Понятное дело, что в поисковой выдаче в начале должны располагаться именно "Петры Петровичи", а все сокращения должны рассматриваться как более далёкие в смысле релевантности.

Поисковая выдача, вообще, должна иметь традиционный для специализированных поисковых систем вид распределения результатов по категориям. И это пользователь должен выбирать, какая категория мне нужна.

Или, например, я ищу конкретного Илью Щурова:

Да! Поисковая система пытается подсказать мне, кто мне нужен. Не спорю. Но нужна только карточка. Кстати, если нужен совсем другой Щуров? Поиск будет просто забит нерелевантными ссылками! А оно нам нужно?

Да. Есть блок "Основная информация". Но это всё рассчитано на то, что большинству пользователей нужны односложные ответы, а тем, кому нужны подробности, пусть копаются в традиционной выдаче. Но этим мы просто формируем определённый упрощённый образ действий, ибо пользователь привык, что ничего более сложного поисковая система предоставить не может. Было бы интересно посмотреть на пользователя, который однажды обнаружил, что поисковая система имеет много различных гитик.

Сейчас тот самый «старый поиск» не справился бы от слова совсем.

Всё определяет постановка задачи.

Основная задача — это индексирование. Методы машинного обучения нужны для того, чтобы:

  • установить тождество объектов, чтобы сводить воедино разрозненные сведения и, наоборот, и исключать из рассмотрения заведомо нерелевантные сообщения;

  • установить зависимость текстов (во времени и в пространстве), чтобы исключать перепечатки;

  • установить связи между различными аспектами деятельности, чтобы перемещаться между слоями.

Здесь имеются три следующие задачи.

  1. Извлечение сведений из существующих страниц. Здесь производится первичное индексирование текстовых и графических фрагментов. Здесь необходимо уметь разбивать страницы на разделы (или классы), в терминах которых должны работают методы машинного обучения.

  2. Классификация фрагментов и укладка из по отдельным сайтам или узлам семантической сети. Это что-то вроде вторичной индексации. Результат — статичная версия интернета.

  3. Окончательное индексирование элементов полученной сети в терминах предметных поисковых запросов.

«Старый поиск» в этой схеме соответствует последнему этапу. Но чтобы этот этап заработал, нужны два предыдущих. Сейчас результат поисковой выдачи — это полуфабрикат где-то в пределах первого этапа. Только, на самом деле, результат первого этапа — это атрибутированный фрагмент, а не ссылка целиком на некоторую страницу.

Но тут мы подходим к тому, что нынешний интернет устроен как генератор шума. Индексировать шум — неблагодарное дело. Тут надо что-то такое подправить в консерватории. Интернета.

Поверьте, там и суперкомпьютеры задействованы, мощнейшие в Восточной Европе, и YATI с трансформерами. И улучшения регулярно есть. Просто поиск достиг таких масштабов, что на глаз уже никто их заметить не может.

Верю. Сам это чувствую.

Но любые багрепорты полезны.

Мне было бы интересно узнать, а что было бы, если попробовать нечто изобрести. Как бы отреагировали?

Погуглил, посмотрел видео, но полный список языков не нашёл. Напишите пожалуйста, кто знает)

Надо было яндексить 😉

Модель распознавания поддерживает языки:

русский;
казахский;
английский;
немецкий;
французский;
финский;
шведский;
датский;
польский;
итальянский;
испанский;
португальский;
турецкий.

Для перевода азиатских языков типа японского, китайского понадобиться квантовый компьютер.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости