Комментарии 11
Весьма занимательно. +1.
А кроме Яндекс.Новостей это сейчас где ещё используется?
Форексис - это яндексовская дочка?
В целом поисковики очень активно исползует реферирование по поисковому запросу: если люди спрашивают что-то простое, лучше сразу показать им ответ на первом экране.
Разные маркетплейсы используют подобные технологии для сводного реферирования отзывов по товарам.
В середине прошлого десятилетия была куча проектов/стартапов по реферированию, они вот тут описаны. А так это в основном упомянутые выше новостные агрегаторы, новостные мониторинги, дайджесты научных статей, всякие сервисы для рерайта.
Про Форексис первый раз слышу, беглый поиск показывает, что он вроде как с Яндексом никак не связан.
Я почему про Яндекс спросил, потому что если попытаться в том же Google.Drive или Google Photos составить запрос посложнее (с boolean логикой) для поиска картинок с мета-тэгами, присвоенными вручную, то Гугл довольно плохо с такими запросами справляется.
Вы наверняка слышали про специальные решения (на базе того же exiftool.org), которые позволяют вручную присваивать мета-тэги для медиа-данных (картинок и тп)? Меня удивляет почему до сих пор не существует доступных облачных решений на базе OCR-технологий и Machine Learning с обучением, которые бы автоматизировали рутину присвоения тэгов? Сколько бы сразу нагрузки это сняло с плеч тех, кто каждый месяц по работе вынужден просматривать сотни публикаций и делать снэпшоты самого интересного для будущего использования. Ведь каждая публикаций - это порой 50-100 страниц, тогда как нужен порой лишь 1 график или табличка из всей публикации, причём нужда в этом может возникнуть спустя 3 года после прочтения публикации, когда сложно бывает вспомнить даже название издания, в котором она мелькнула. Я уж молчу о том, что у каждого издания нередко свой собственный архив, никак не связанный с архивами других изданий (в смысле возможностей сквозного поиска). Вам что-то о такой проблеме известно? :)
Про решения для автоматизации присвоения мета-тегов я до сих пор не слышал, да и в целом проблема мне не очень близка.
А вот задача генерации текста, который описывает картинку, мне известна. Задача в литературе называется image captioning. Аналогично с видео. Если есть обучающая выборка с тегами (а она есть), то все эти методы можно использовать и для тегирования.
Я не очень понял, как картинки плавно перетекли в публикации. Софт для их автотегирования мне тоже не знаком, но он, несомненно, технически возможен и даже несложен.
Я не очень понял, как картинки плавно перетекли в публикации. Софт для их автотегирования мне тоже не знаком, но он, несомненно, технически возможен и даже несложен.
Очень удобно когда читаете публикации или статьи в pdf с планшета их скриншотить и потом присваивать картинкам тэги, чтоб потом быстро находить нужное
Про Форексис - у Вас одна из ссылок в статье была на публикацию:
курс Воронцова, «Нейронные сети: градиентные методы оптимизации»
в публикации на первом же слайде указан имейл адрес автора в домене этой компании
Не очень понятно, как из этого следует связь со мной, Яндексом или вообще чем-либо. Это слайды из курса, который я когда-то очень давно проходил и сейчас смог быстро найти.
Придётся довольно подробно разбираться с постановкой задачи. Далеко не всё понятно. Многое, даже, совсем не.
Если речь идёт о формировании поисковой выдачи, то лично мне совершенно не понятно, почему нельзя говорить о построении струкутрированного индекса страниц в интернете. То есть: сначала специальный механизм проводит анализ страниц, пытается восстановить их структуру (вот здесь нужны методы машинного обучения), привести структуру страниц к единому знаменателю и предоставить пользователю разнообразные семантические индексы.
Здесь надо понимать, что для различных запросов нужно строить и различные рефераты. Это означает, что в каждой конкртеной задачи будет свой критерий сходства.
Есть и ещё одна проблема. Почему-то никто ещё не догадался (кроме разработчиков старинных экспертных систем), сначала, хорошенько опросить пользователя на предмет того, а что тому нужно. Не гадать на кофейной гуще, а активно поинтересоваться. Для этого должден быть мастер-нидекс. Что-то вроде справочника номенклатуры и прписанных к нему регистров. Здесь снова нужны методы машинного обучения. И уже после того, как получен ответ что? где? когда?, можно будет корректным образом решать и остальные задачи.
И последнее. Обучение с подкреплением. Когда я получаю поисковую выдачу, я хочу, чтобы она была изначально структурирована по категориям. Я сам хочу выбирать категоризацию и разрез рассмотрения. Но! Если я вижу, что определённая ветка поисковой выдачи нерелеватная моему запросу, то у меня должна быть возможность поставить на этой ветке метку Это не то дроиды, которые мне нужны, и, тем самым сообщить системе, чтобы она больше никогда не показывала мне это в будущем. Аналогичные рассуждения касаются и фотографий, которые можно заранее отреферировать и группировать фотографии по действительно различным персонам, объектам и темам. Обратная связь позволит постепенно повышать точность и чувствительность распосзнаваия.
Эта статья к поисковой выдаче имеет крайне слабое отношение. Реферирование по запросу — отдельная задача, которая несомненно требует отдельных подходов. Но я всё равно постраюсь ответить.
Проблема всего, что описано в комментарии, банальна — с точки зрения поисковых корпораций это слишком сложно для типичного пользователя. По той же причине, например, медленно умирает язык поисковых запросов. Невыгодно поддерживать фичи, которыми пользуются доли процента пользователей.
Если же мы говорим не о потребительских поисковиках, то системы, спрашивающие пользователя, существуют. Мне это известно как интерактивное реферирование, вот пример статьи на эту тему. Это действительно выглядит круто, и у этого есть и будут свои пользователи, но это не массовый продукт.
это слишком сложно для типичного пользователя.
Здесь я с Вами не соглашусь. Думаю, что всё наоборот. Компании пытаются взрастить своего пользователя. Они думают, что, чем проще, тем удобнее. Я Вас уверяю, если сегодня предложить более продвинутую поисковую форму (типа расширенного поиска), то все будут с радостью пользоваться ею. А сейчас, когда пользователи привыкли к (не)замысловатости поисковой выдачи, то никто не будет искать что-нибудь нетривиальное. Компании упростили себе работу. В результате, то, что позавчера (где-то ещё в начале нулевых), во времена текстового интернета, можно было найти, терпеливо просмотрев несколько страниц поисковой выдачи, теперь совершенно невозможно найти, заранее зная, что этого не будет даже на сотой странице. (Впрочем, РКН и другие привходящие обстоятельства сейчас сильно подрезают любую выдачу.) А мне, как пользователю, совершенно не нужна вся это поисковая выдача. Мне нужен ответ на свой вопрос. Я хочу получить его в хорошо структурированном виде. Этот вид — реферат! И мы снова возвращаемся к началу разговора и теме статьи.
Извлекающие методы автоматического реферирования