ustuz23 мар 2011 в 10:58

Beegoo.ru — новые подходы к поиску информации

3 мин

785

Я пиарюсь

+45

Комментарии 81

НЛО прилетело и опубликовало эту надпись здесь

Mainer 23 мар 2011 в 11:06

суровая вырастет девочка

egoholic 23 мар 2011 в 12:06

Уж лучше так, чем начинать курить с первого класса.

НЛО прилетело и опубликовало эту надпись здесь

FError 23 мар 2011 в 13:01

Через выжигатель.

НЛО прилетело и опубликовало эту надпись здесь

plan 24 мар 2011 в 09:48

Ну тоже неплохо для «девочки» от 7 лет и старше…

Xlab 23 мар 2011 в 13:42

Для девочки от 3 до 5 лет Выжигание Из пластмассы

hollow 23 мар 2011 в 11:25

>В ближайшем будущем мы планируем добавить в beegoo.ru знания о детской одежде и обуви. После этого должен получиться интересный для родителей ресурс, который может занять место постоянного инструмента для поиска товаров для своего малыша.

Лучше в ближайшее время добавьте поиск по городам! А так выходит ресурс интересен будет только жителям Ё-бурга.

ustuz 23 мар 2011 в 11:35

Верное замечание. Спасибо.

В статье, действительно, забыл об этом сказать. На первых порах мы сознательно заузили аудиторию географией. Это было сделано вот для чего:
— чтобы иметь возможность не очень болезненно для аудитории круто что-то менять. При больших аудиториях велик риск потерь части этой аудитории при таких изменениях
— Нам на первых этапах развития проекта нужно установить как можно более теплые отношения с интернете магазинами. Понять чем они дышат, каковы рекламные бюджеты и вообще что они думают про нашу идею, сервис, бизнес модель и т.д. Этот обмен информацией чаще всего происходит при личных встречах. Так как мы сами живем в Екатеринбурге, то на первых порах дешевле работать с местными магазинами.

Ну а расширение — это наши ближайшие планы. Параллельно с наращиванием товарных ниш проводить географическую экспансию.

f1neman 23 мар 2011 в 11:46

Идея хорошая, надо делать универсальный поисковик (можно и обёрткой для существующих).

CKOPOBAPKuH 23 мар 2011 в 14:23

я сделаю очевидным абсурность вашего высказывания:

— идея хорошая, осталось сделать полноценный искусственный интеллект
— идея хорошая, осталось до конца года построить электростанцию на холодном ядерном синтезе
— идея хорошая, осталось немножко повернуть магнитное поле земли

f1neman 23 мар 2011 в 14:34

Спасибо, поржал.
Я имел в виду сделать возможным поиск не только подарков детям, но и других вещей.

НЛО прилетело и опубликовало эту надпись здесь

dimanjy 23 мар 2011 в 14:34

Уже первого примера достаточно :)

SowingSadness 23 мар 2011 в 15:07

А что если это уже сделано, в прототипе?
Например уже показано на ceBite?

Horzerus 23 мар 2011 в 11:52

На странице результатов поиска кажется не работает ссылка «новый запрос», она не возвращает на главную

ustuz 23 мар 2011 в 11:56

Опс. Действительно, дефект. Сейчас поправим, ночью обновим.
Спасибо!

ustuz 24 мар 2011 в 02:39

Исправили.

Adrior 23 мар 2011 в 12:10

Поисковый движок всё же ещё стоит калибровать.

«Мальчик 16 лет»
Набор для вязания «Одень куклу»

ustuz 23 мар 2011 в 15:23

Отвечу здесь сразу на все комментарии, описывающие проблему неадекватности некоторой части результатов запросов.

Проблема есть. У нас разработан некоторый язык описания знаний предметной области и движок, интерпретирующий страницы и запросы в соответствии с этим описанием. Вопрос улучшения качества поиска напрямую связан с развитием самого языка и описания. Все найденные «выбросы» поиска мы обязательно анализируем после каждого сканирования магазинов и процесс постепенного улучшения описания и движка не останавливается. Правда, иногда не так быстро как хотелось бы в связи с тем, что мы находимся в условиях стартапа и сталкиваемся с постоянным дефицитом ресурсов.

alrond 23 мар 2011 в 12:15

что-то уж ооочень медленно работает, даже на амазоне

ustuz 23 мар 2011 в 12:19

Хабраэффект :-) За последний час ощущаем значительный наплыв посетителей. Так сказать нагрузочное тестирование в полевых условиях получилось.

По логам сегодняшнего дня попытаемся диагностировать проблему и полечить.

xy4 23 мар 2011 в 12:21

Несмотря на текущую «сырость», подход очень правильный. Удачи в дальнейшей работе!

echoes 23 мар 2011 в 12:22

> Допустим, что продавец интернет магазина на своем сайте написал “Машинка Lego Duplo”. Очевидно, что по запросам “Игрушка для мальчика”, “Конструктор” и т.д. я этот документ не найду в поисковиках, которые я упоминал выше.

Современные поисковики типа Google не имеют такой проблемы. По запросу «кипящая вода» Google найдет заодно «горячая вода» и пр. (http://habrahabr.ru/blogs/google/95833/)

Alexx_ps 23 мар 2011 в 12:41

Обратите внимание на Яндекс Маркет market.yandex.ru/search.xml?text=%D0%B8%D0%B3%D1%80%D1%83%D1%88%D0%BA%D0%B8&hid=90783&srnum=79521
Там справа есть такая замечательная панель, разбивающая товары на всякие логические подвиды. По сути Beegoo это тот же Маркет, только аяксовый и заточенный под игрушки.

Sortafreelus 24 мар 2011 в 14:36

Кстати, да) Первое что пришло в голову. Но различия есть.

Как я понимаю, в Директ каждый магазин подружает свой собственный xml-прайс (или в каком-то там другом формате), а Beego сканит магазины сам. То есть, он более универсальный в данном вопросе.

Поправьте, если я что-то понял неправильно.

Alexx_ps 24 мар 2011 в 15:23

Да, магазины подгружают прайс в xml, скорее всего это сделано с целью унифицировать выдачу, т.к. все магазины разные.

Svobodniy 23 мар 2011 в 12:46

Теперь родители точно найдут Хабр при поиске «игрушки для мальчика 3 года от 700 до 1000 рублей»… А потом рассуждают про результативность выдачи :)

Mozart 23 мар 2011 в 12:47

По запросу «Игрушка для мальчика» у вас тоже не совсем релевантные игрушки.

volerog 23 мар 2011 в 12:50

может, кто не видел
market.yandex.ru/gifts.xml

ustuz 23 мар 2011 в 13:06

Отвечу на этот комментарий и заодно на еще один чуть выше от Alexx_ps

Отличие Beegoo.ru от Яндекс.Маркет не в умении систематизировать информацию и организовывать релевантный поиск (по этому критерию Яндекс имеет существенную фору перед нами). Основное отличие — это в подходе формирования информационной базы.

В Яндекс.Маркет попадают предложения только от тех интернет-магазинов, которые готовы платить за переходы. Если продавец не заплатил — в Яндекс.Маркет он не попал.
Beegoo.ru сканирует те магазины, которые интересны с точки зрения контента. То есть при наборе объема информационной базы нет такого входного порога — как согласие от продавца платить. Мы сами выбираем магазины и сканируем их «полки».
То есть мы претендуем на то, что у нас в итоге должна получиться более интересная для покупателя база.

Тут, наверное, уместен такой гипотетический пример. Представьте себе, если бы в Google попадали страницы только тех сайтов, которые бы платили Google. Какой бы поисковик мы с вами имели? И захотели бы мы пользоваться этим инструментом?

dimanjy 23 мар 2011 в 13:36

Магазин, который покупает рекламу, с точки зрения покупателя, вероятно, будет выглядеть более привлекательным, чем магазин, не тратящий (или не имеющий возможности тратить) денег на рекламу.

Может он уже вообще загнулся (этот второй магазин), а сайт все еще висит… а Вы его в поиск :)

ustuz 23 мар 2011 в 16:49

Риск описанный Вами есть. Бороться с ним будем тратой усилий на качественный отбор претендентов на сканирование и последующий их мониторинг.

bolnikh 23 мар 2011 в 13:25

Набрал «игрушка для мальчика 4 года» — попадается довольно много кукол. Рановато ему еще с куклами играть.

GearHead 23 мар 2011 в 13:29

Мне одному заголовок показался несколько кричащим? Взглянув на него, подумал о пришествии семантического веба. Прочитав, несколько разочаровался.

dimanjy 23 мар 2011 в 13:40

А чем Вам это не семантическое?
Тут как раз и прикручена дополнительная семантика предметной области!

GearHead 23 мар 2011 в 13:50

я просто имел в виду, что обычно под семантическим поиском понимают выуживание информации, основанной на смысле из обычного текста. Данный же сайт использует наоборот предопределённые знания о предметной области для «обёртки» имеющейся информации.

dimanjy 23 мар 2011 в 14:00

Что у меня в голове отложилось, когда я изучал вопросы анализа связных текстов, так это то, что информацию из текста можно получить только тогда, когда ИИ обладает как раз предопределенной базой знаний о предметной области. Только так можно справиться с омонимией и получить действительно «смысл» текста, а не просто неоднозначное дерево разбора предложения.
Хотя я особо глубоко и не копался. Может ошибаюсь…

GearHead 23 мар 2011 в 14:08

в общем-то вы правы, онтология без терминов на самом деле не может существовать. и действительно, сервис представляет из себя решение одной из задач СИИ — ситематизации. что действительно было бы интересно — это алгоритмы сборки данных (хотя вряд ли нам дадут даже их краткое описание ;) ), а то узость предметной области даёт предположить, что они могут быть либо ручными, либо очень примитивными :)

eRaider 23 мар 2011 в 19:20

Я добавлю, что в 2000 году уже продавались специализированные семантические базы — что-то вроде дерева, где вверху понятие «бог», а внизу «квант». Области были коммерческие и англоязычные — торговля, строительство. Полагаю, сейчас уже такие технологии доступны.

yamalight 23 мар 2011 в 15:30

NLP это всего лишь часть семантического веба (одна из самых сложных, кстати), которая вовсе не обязательно должна присутствовать, чтобы назвать что-то семантическим :)

kixx 23 мар 2011 в 13:29

Подпись снизу результатов:

11 предложение

ustuz 23 мар 2011 в 15:17

Да, недочет принят. Поправим.
Спасибо!

ustuz 24 мар 2011 в 02:38

Исправили.

НЛО прилетело и опубликовало эту надпись здесь

yamalight 23 мар 2011 в 13:56

А в каком виде все это хранится? Используете какие-нибудь triple-store? Или все в таблицах?
И как запросы к базам выполняются? SPARQL? SQL? Свой язык запросов?

ustuz 23 мар 2011 в 15:16

Данные по предложениям товаров хранятся преимущественно в файлах. Для индексов и некоторых данных сайчас используется PostgreSQL. Есть планы миграции в БД типа «ключ-значение», вроде redis. Займемся переходом, когда нагрузка вырастет до «промышленных» значений. Пока что текущей архитектуры хватает.

Запросы пользователей сейчас в конечном счете преобразуются в SQL, который выполняется над PostgreSQL.

yamalight 23 мар 2011 в 15:29

а почему решили именно так делать? все равное же по сути создаете объекты из индексированных постов.
ну и да, как показывает практика, такие переходы это ойойой как тяжело :)

ustuz 23 мар 2011 в 17:27

Основной мотив — не тратить много времени на стадии прототипа. На этой стадии ведь главное идею проверить; подправить (возможно кардинально) реализацию, если что; инвестору показать «крутящиеся шестеренки», обеспечивающие прохождение всего сценария от начала до конца.

А вот когда случится переход от этой стадии к другой, тут мы сядем и, видимо, напишем заново эту часть с учетом полученного опыта. Ну и скорее всего это будет делаться уже на деньги найденного инвестора и под понятные коммерческие перспективы.

yamalight 24 мар 2011 в 10:06

ага. логично. ну что ж, удачи вам в этом непростом деле :)

dmitriko 23 мар 2011 в 19:49

Рекомендую взглянуть в сторону MongoDB

SowingSadness 23 мар 2011 в 15:12

Идею где украли? -))

dem0n3d 23 мар 2011 в 19:51

Да это фактически нигма, просто автоматическую кластеризацию заменили на ручную классификацию :)

SowingSadness 23 мар 2011 в 21:11

Вообще то я знаю ответ, просто надеюсь на честность.
Подобную технологию, но более развитую показывали на cebit'e

SowingSadness 23 мар 2011 в 21:17

imitation.ru/#q=Corei7%20Частота%20системной%20шины%201300%20мгц

chemistmail 9 апр 2011 в 15:38

Не, скорее от quintura ноги растут.

octave 23 мар 2011 в 16:13

> Мы объединили возможности традиционного индексирования “по словам” со знаниями о той предметной области, к которой относится информация.
а можно подробнее? вручную обучали?

ustuz 23 мар 2011 в 16:19

Да, вручную. Аналитик садится и фиксирует описание области на разработанном для Beegoo языке.
Затем интерпретатор использует это описание при индексировании товарных предложений и парсинге запроса пользователя.

octave 23 мар 2011 в 16:24

А думали над автоматизацией?

ustuz 23 мар 2011 в 16:41

Да, думали. Но скорее как дополнение к «ручному» описанию, нежели его полной замене.

Например, после обработки большого статистически значимого объема информации можно будет автоматом делать вывод о наличии определённых, но еще не прописанных в описании, связей между существующими понятиями предметной области.

ainu 23 мар 2011 в 17:45

А дайте-ка нам пример запроса, который может прям удивить.

ustuz 23 мар 2011 в 17:55

Вопрос удивления — крайне индивидуальный. Есть люди, которых сложно чем-то удивить вообще :-)

Я отвечу на другой вопрос: «Какой запрос пользователя может обработать Beegoo.ru, так чтобы продемонстрировать свои конкурентные преимущества?»
Ответ: например, этот Игрушка из дерева возраст от 1 до 2 лет от 300 до 500 рублей

Чтобы понять сложность задачи, нужно вспомнить, что товарные предложения в разных магазинах описываются очень по-разному — где полно, где-то одной фразой.

selenite 24 мар 2011 в 01:40

Любой из тех, которые WolframAlpha уже умеет обрабатывать?
Или из тех, который был приведен в Нигмовской (well, написанной в соучастии с кем-то из разработчиков Нигмы) книжке по кластеризации данных?

f0rk 23 мар 2011 в 18:16

мальчик 22 года — набор с лобзиком. То что мне нужно! :)

egoholic 23 мар 2011 в 18:33

Не понимаю как название относится к содержимому? «новые подходы к поиску информации» — и чего здесь нового описано?

amario 23 мар 2011 в 19:41

Вот вчера тоже подумал, почему более точный поисковик никто не придумает. И вот первые попытки.
Удачи!
p.s. Измените бегунок, который убирает ранее введенные критерии поиска, уж очень он похож, на «привет от paint».

starodubcev 23 мар 2011 в 23:08

а у мну в магазине и так с этим все хорошо )

НЛО прилетело и опубликовало эту надпись здесь

LeKot 24 мар 2011 в 03:35

Публикуйте конечно!

ustuz 24 мар 2011 в 04:59

Очень интересно. Опубликуйте, плиз, этот материал, или, если не сложно, пошлите на почту.

НЛО прилетело и опубликовало эту надпись здесь

selenite 24 мар 2011 в 01:42

[irony] Ура, в России изобрели свой WolframAlpha с медведями. [/irony]

redhummer 24 мар 2011 в 03:50

Найдено по запросу "Наборы Для мальчика от 5 до 7 лет Развивающие Из пластмассы"

webzest 24 мар 2011 в 05:28

Видела проект еще с полгода назад.
Идея понятная. Но частенько, если кликнуть по одному тегу из каждого набора поиск вернет ничего. То есть ничего не найдёт.
Ну и моему младенцу от 1 до 2 лет предлагают прорезыватели, мобиль и развивающий коврик. Нерелевантно, короче.

ustuz 24 мар 2011 в 05:33

Спасибо за замечание.

С тем, чтобы последовательности выбранных в пользовательском интерфейсе подсказок всегда приводили к ненулевому результату, сейчас боремся.

webzest 24 мар 2011 в 05:52

Это хорошо, что вы об этом уже знаете. Желаю удачи в вашем непростом деле. Как мама годовалого мальчика постараюсь вас тестировать почаще.

siasia 24 мар 2011 в 17:40

И чем ваше решение отличается от классической экспертной системы?

coolspot 26 мар 2011 в 21:28

Подробная статья о разрабатываемом подобном поисковике.

ustuz 27 мар 2011 в 02:48

Спасибо за статью!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий