dnclive Apr 11 2013 at 21:22

Поиск вчера, сегодня, завтра…

3 min

7.2K

Search engines*Algorithms*

Comments 23

VolCh Apr 11 2013 at 21:44

по моему запросу я получаю одну максимально релевантную запросу статью-ответ!

Некоторые запросы подразумевают не один ответ

Ведь идеальный ответ мы можем получить, если возвращенный результат в действительности был ответом на кем-то заданный, в точности наш, вопрос.

При условии, что ответ верный и достаточно для наших целей полный.

dnclive Apr 11 2013 at 21:57

Некоторые запросы подразумевают не один ответ

Согласен. Но тогда наш запрос подразумевает множественный ответ. Имею ввиду например, Где можно заправиться в этом городе

При условии, что ответ верный и достаточно для наших целей полный.

Вот и я о том же. Абсолютная истина, это конечно тема отдельного обсуждения, я хотел выразить суть того, что у меня есть вопрос, я спрашиваю, и получаю ответ реально нужный мне. Согласитесь, что это очень серьезный уровень. Сегодня мы привлекаем свой мыслительный аппарат для извлечения необходимой нам в нашей конкретной ситуации информации, из обсуждения какой либо проблемы или идеи на форуме, решения кем-то аналогичной (аналогичной, но не в точности такой задачи). И принцип используемого поиска сегодня не может взять эту работу на себя…

diseaz Apr 12 2013 at 00:38

Но тогда наш запрос подразумевает множественный ответ.

Совсем необязательно запрос подразумевает множественность ответа в явном виде, а тем более множественность однотипных ответов. Запрос просто может быть неточен. Например, «Санчо Панса» — гугл среди первых результатов выдает литературного героя, пивной ресторан и какого-то пользователя ВКонтакте. Понять по запросу, что конкретно имелось в виду, невозможно.

Так что, проблема с тем, чтобы выдавать лишь одну ссылку, в том, что пользователи ленивы и не умеют формулировать свои мысли. Почитайте сказки про джиннов и исполнение желаний :)

BrownTrigger Apr 12 2013 at 00:57

К сожалению, поиск вчера и поиск сегодня отличаются только алгоритмами. Машины ищут только то, что есть, а не то, что мы хотим получить в действительности. Мы лишь выбираем из списка найденного и доступного.

Я понимаю, что для идеального поиска нужны колоссальные ресурсы, но в то же время, предполагаю, что не машины виноваты и не наши знания в создании хорошего поисковика. Виновником сложности поиска виноваты мы сами. Мы, засоряем интернет и заставляем машины копаться в мусоре, когда можно все сложить по полочкам и пользоваться обычным поиском.

dnclive Apr 12 2013 at 01:06

Думаю, что перекапывание интернета, отнимает не меньше ресурсов. Скорее проблема именно в теоретической базе.
Я вполне ясно понимаю принципы действия используемых сейчас методов. Однако подобраться к другой принципиальной идее удалось лишь не так давно. И шел я извилистым путем. И, честно говоря, впереди неизвестность хоть и с просветами…

VolCh Apr 12 2013 at 05:03

Засорение интернета (черное и серое SEO) — это лишь часть проблемы. Основная проблема в том, что машина не умеет извлекать смысл (или хотя бы его аналог) из не размеченного специально текста (теги html это лишь грубое подобие реально семантической разметки). В лучшем случае сейчас массово доступно если автор текста предугадал (сознательно или нет — не суть) запросы, по которым этот текст может оказаться полезен и сформировал его так, чтобы по этим запросам он был машиной признан релевантным. Простой, утрированный пример: на сайте-визитке написано «здесь продаются яблоки» — поисковик в ответ на запрос «где купить яблоки?» укажет этот сайт в выдаче после сайта Q&A с этим вопросом без ответа. Она не «догадается», что «здесь продаются яблоки» — это именно то, что пользователь ищет, что «здесь продаются» это ответ на вопрос «где купить?». Если сейчас такие запросы и обрабатываются более-менее корректно, то только за счет захардкоженых пар «популярные запросы»->«релевантные (по мнению разработчиков поисковика) ответы». Может уже и более сложные алгоритмы применяются (я именно про анализ содержимого страницы), но хоть сколь-нибудь полного семантического индекса у поисковиков нет. Если кому-то не пришел в голову вопрос, то вероятность найти на него ответ минимальна, только после просмотра страниц с этим же вопросом.

В общем с мусором все не так однозначно, он мешает поиску, но его отсутствие кардинально проблему не решит.

dnclive Apr 12 2013 at 00:58

Согласен, хотя я, все же, склонен считать подобный запрос в принципе подразумевает данную неоднозначность, хотя человек конечно в мыслях точно знает что именно ему надо. Данный вопрос как мне кажется более или менее решаемый, и его активно решают, оценивая контекстную информацию о пользователе. Например, если я сейчас в пути или формирую запрос из навигатора, то велика вероятность, что я ищу именно ресторан.

Мне интересен другой момент. Реализация системы которая поймет смысл моего вопроса. Пусть учитывает при этом прочие факторы, но она уже сможет вступить со мной в диалог, попросить уточнения. Принять более сложный логически запрос, и вернуть не целую страницу, а часть информации интересную мне здесь и сейчас.

Напримет вопрос — сколько мест в банкетном зале Санчо Панса. Google справляется в этим вопросом на ура, но он, даже умея синтезировать речь, не сможет ответить на мой вопрос так, как это сделает администратор по телефону.

И кстати. Заметьте, впервые столкнувшить с интернетом и поисковиком, люди пытаются задавать ему человеческие вопросы, спустя некоторое время, она подстраиваются и пишуть просто ключевые слова… )

BrownTrigger Apr 12 2013 at 01:09

Я задаю вопрос: «как php прикрутить к apache». И получаю ответ в Google -> четвертый результат. А получаю я его, потому что кто то уже задавал такой вопрос. Ключевые слова уходят из моды )) только прямой запрос, только хардкор.

dnclive Apr 12 2013 at 01:21

Согласен, но опять таки.

При этом мы должны понимать, что поисковик покажет то, что кто-то оставил.

И еще заметьте, что Ваш запрос, достаточно популярен, и вы видите ответ человека, оставленный именно на этот вопрос. И, что самое плохое в этой схеме, вы не можете непосредственно у googla, доспросить, если этот ответ не понятен ( не имею ввиду почитать другой результат поиска), а именно переспросить у машины, которая поняв, что Вам нужно, домыслит, возможно задаст пару дополнительных попросов, но ответит точнее, и уже по Вашей конкретной задаче…

С точки зрения пользователя, я текущим уровнем поиска доволен очень (особенно google)! Наверное то, что мы обсуждаем, уже отчасти немного другая история, это консультация универсального специалиста.

И согласитесь, если завтра появиться такой продукт, и будет работать на уровне, он привлечет внимание так или иначе.

BrownTrigger Apr 12 2013 at 01:23

Я только за!

samally Apr 12 2013 at 01:56

На мой взгляд текущий интернет вообще плохо подходит для реальной информации, знаний. Больше всего он подходит для общения, котиков и сисек :) Все таки абсолютно никакая структурированность (исключения очень редки и обычно узкотематичны или как-то еще ограничены). Микроформаты выглядят на этом фоне довольно жалко. Конечно это попытка структуризации, но очень слабая.

В общем кажется, что для дальнейшего рывка развития интернета, как обширного хранилища доступных глубоких знаний и информации нужен новый принцип, новая сеть, существующая параллельно текущему интернету. В целом есть даже пара идеек о том, как это сделать. Вообще если кому-то это интересно (особенно если есть желание поучаствовать в реализации), то классно было бы обсудить.

VolCh Apr 12 2013 at 05:15

Собственно попытки делаются, где с помощью специальной разметки и соответствующих баз знаний ищутся не текстовые паттерны, а смысл. www.ruscorpora.ru/corpora-sem.html например. Основная проблема, по-моему, в том, что мало кто захочет делать семантическую разметку своих
текстов. А до автоматического анализа ещё ой как далеко.

Вот вы бы стали уточнять в своем комментарии, что под «котиками» и «сиськами» вы имеете в виду соответствующие изображения, а не то, что интернет по-вашему мнению сделан для кошачьих и грудей?

samally Apr 12 2013 at 18:12

Я совершенно не о специальной разметке. Это костыли по типу тех же микроформатов — неплохо, но не решает проблему. Здесь действительно будет развиваться автоматический анализ текста, смысла… Искусственный интеллект и т.п.

Под новым принципом я имею ввиду не развитие гипертекстового веба, а совершенно другой слой сети, параллельный сайтам. Основанный на других принципах. Созданный именно для структуризации и организации доступа к знаниям и информации. К более глубокому анализу текстов и комментов это не имеет отношения. Больше к проблеме того, что в интернете есть далеко не «все» (глубокой информации мало, то и дело приходится все равно обращаться к печатным источникам). А то, что есть плохо организовано.

VolCh Apr 12 2013 at 19:42

Попытки это сделать есть. Проблема в том, что некому доступные человечеству знания вводить в этой специальной разметке. Под разметкой тут имеется в виду не html или аналоги, а именно разметка смысла текстов. Разметка отношений разных слов, словосочетаний, предложений и т. д. к абстрактным понятиям и друг другу.

samally Apr 13 2013 at 00:21

Специальная разметка тут совершенно не нужна. Я о другом говорю. Для начала нужен просто доступ к данным, которого сейчас нет или он затруднен/неполон.

И как раз есть идеи на тему того, как это возможно сделать. Без какой либо специальной разметки.

Просто другой принцип работы — не гипертекст/ссылки, а полностью контентная сеть. Параллельная всему остальному. Что-то вроде графа, упорядочивающего произвольные данные на компе пользователя, с возможностью автоматически обрабатывать все основные типы данных, а поверх этого P2P обмен любыми частями этих данных, в идеале с возможностью легко (для пользователя) анонимизировать/шифровать передачу. Книги, статьи, музыка, фильмы, игры. Что угодно. На самом деле даже первичная проработка того, как это сделать уже набросана.

dnclive Apr 13 2013 at 14:06

Чем данный подход отличается от torrent?

samally Apr 13 2013 at 14:19

Торренты это только P2P обмен. Они не обеспечивают никакой структуризации/упорядочивания ни глобально, ни персонально для пользователя. Юзер скачивает и просто куда-то сохраняет. Даже поддерживать этот торрент ведь можно только сохраняя структуру скачанного, какой бы идиотской или не подходящей она не была. Это ведет к файлопомойкам на компе. К тому же торренты требуют центрального трекера — единственная точка, где хоть как-то упорядочена информация.

dnclive Apr 13 2013 at 15:05

Проблема структуризации/упорядочивания в принципе интересна, и заключается как раз в том, что мы не знаем как должна быть упорядочена информация, поскольку часто не знаем ее будущий состав. Идеальное решение данной проблемы как раз и есть поисковик. Однако поисковик рождает другую проблему (имею ввиду классическую поисковую строку), если мы не знаем что искать, тоже например строка терминала. В случае с поиском в интернет, эта проблема как раз является не актуальной в связи с объемом информации, и учитывая факт глобальности, скорее всего если мы об этом думаем кто-то уже подготовил для нас информацию, и даже здесь появляется список-подсказка, облегчающий работу. Другой вопрос поиск в сравнительно малом объеме информации. Когда-то это вопрос был решен введением меню, что существенно упростило работу. Когда я работал над алгоритмом расчета KVL, решил данную задачу использованием как я его теперь называю статистическое дерево. Это дерево формируется из KVL конфигурации путем анализа статистики ключей формирующих конфигурацию. Таким образом оно является динамическим, оно формируется естественным образом, и постоянно меняется в процессе работы, соответствуя текущему состоянию системы. Этот принцип очень эффективен. Но ключ к успех как раз в том что дерево и есть информация. Сейчас я хочу опробовать данный механизм на сравнительно больших объемах информации…

samally Apr 13 2013 at 18:35

Проблема структуризации/упорядочивания в принципе интересна, и заключается как раз в том, что мы не знаем как должна быть упорядочена информация, поскольку часто не знаем ее будущий состав.

Поэтому как раз идея в том, что бы дать возможность организовывать абсолютно универсально. На основе графов. Т.е. ядро, которое позволяет что угодно организовывать и поверх него плагины организующие различные типы данных, создающие основные связи автоматически (плюс возможность пользователю создавать любые связи и данные).

Поисковик не является тут идеальным решением. Вообще не является решением. Поисковик обеспечивает только поиск, а это лишь часть задачи по использованию данных.

dnclive Apr 12 2013 at 13:18

На счет специальной разметки, лично мне эта идея тоже не нравиться. Это как насаждение дополнительной отчетности на сотрудников компании. Никто не хочет делать дополнительную, а, что хуже, повторную работу. Сужу по себе. Не выношу однообразной механической работы! Для чего тогда нужны достигнутые вычислительные мощьности? Большинство из них сегодня тратиться впустую, так же на единообразные операции согласно жестким алгоритмам.

Проблема, все же, в теории. Я вижу решение в переосмыслении основ. Казалось бы простой вопрос — Что есть информация? Есть много определений. Ни одно не отражает сути…

VolCh Apr 12 2013 at 13:46

Нейронные сети, ИИ, базы знаний и т. п.

dnclive Apr 12 2013 at 15:20

Наверное все сразу. Я перекопал всю область прикладных и теоретических исследований ИИ, нейронных сетей и тд., Согласно моим вычислением, проблема сейчас не в недостатке ресурсов, а именно в отсутствие теории для реализации решения. В течение последних двух лет я прорабатываю теоретическую базу пытаясь выработать общую теорию информации. На основании которой разработал и реализовал прикладной алгоритм, сейчас дорабатываю легкую объектную библиотеку на С, на которой будет протестирована эта разработка. В параллельных проектах, подготовил систему наполнения этой штуки информацией из публичных источников, первоначально это книги. Это достаточно глобальная задача, где сталкиваешься с кучей технических проблем, и пожалуй с самой главной — недостаточно времени, нужно ведь и кушать что-то…

VolCh Apr 12 2013 at 19:46

А где-то ознакомиться можно? Практически вряд ли чем смогу помочь, на Си лет 10 не писал минимум, но может на других языках что-то смогу опробовать.

Show the best of all time