Как стать автором
Обновить

Комментарии 81

НЛО прилетело и опубликовало эту надпись здесь
суровая вырастет девочка
Уж лучше так, чем начинать курить с первого класса.
НЛО прилетело и опубликовало эту надпись здесь
Через выжигатель.
НЛО прилетело и опубликовало эту надпись здесь
Ну тоже неплохо для «девочки» от 7 лет и старше…
Для девочки от 3 до 5 лет Выжигание Из пластмассы
>В ближайшем будущем мы планируем добавить в beegoo.ru знания о детской одежде и обуви. После этого должен получиться интересный для родителей ресурс, который может занять место постоянного инструмента для поиска товаров для своего малыша.

Лучше в ближайшее время добавьте поиск по городам! А так выходит ресурс интересен будет только жителям Ё-бурга.
Верное замечание. Спасибо.

В статье, действительно, забыл об этом сказать. На первых порах мы сознательно заузили аудиторию географией. Это было сделано вот для чего:
— чтобы иметь возможность не очень болезненно для аудитории круто что-то менять. При больших аудиториях велик риск потерь части этой аудитории при таких изменениях
— Нам на первых этапах развития проекта нужно установить как можно более теплые отношения с интернете магазинами. Понять чем они дышат, каковы рекламные бюджеты и вообще что они думают про нашу идею, сервис, бизнес модель и т.д. Этот обмен информацией чаще всего происходит при личных встречах. Так как мы сами живем в Екатеринбурге, то на первых порах дешевле работать с местными магазинами.

Ну а расширение — это наши ближайшие планы. Параллельно с наращиванием товарных ниш проводить географическую экспансию.
Идея хорошая, надо делать универсальный поисковик (можно и обёрткой для существующих).
я сделаю очевидным абсурность вашего высказывания:

— идея хорошая, осталось сделать полноценный искусственный интеллект
— идея хорошая, осталось до конца года построить электростанцию на холодном ядерном синтезе
— идея хорошая, осталось немножко повернуть магнитное поле земли
Спасибо, поржал.
Я имел в виду сделать возможным поиск не только подарков детям, но и других вещей.
НЛО прилетело и опубликовало эту надпись здесь
Уже первого примера достаточно :)
А что если это уже сделано, в прототипе?
Например уже показано на ceBite?
Опс. Действительно, дефект. Сейчас поправим, ночью обновим.
Спасибо!
Исправили.
Поисковый движок всё же ещё стоит калибровать.

«Мальчик 16 лет»
Набор для вязания «Одень куклу»
Отвечу здесь сразу на все комментарии, описывающие проблему неадекватности некоторой части результатов запросов.

Проблема есть. У нас разработан некоторый язык описания знаний предметной области и движок, интерпретирующий страницы и запросы в соответствии с этим описанием. Вопрос улучшения качества поиска напрямую связан с развитием самого языка и описания. Все найденные «выбросы» поиска мы обязательно анализируем после каждого сканирования магазинов и процесс постепенного улучшения описания и движка не останавливается. Правда, иногда не так быстро как хотелось бы в связи с тем, что мы находимся в условиях стартапа и сталкиваемся с постоянным дефицитом ресурсов.
что-то уж ооочень медленно работает, даже на амазоне
Хабраэффект :-) За последний час ощущаем значительный наплыв посетителей. Так сказать нагрузочное тестирование в полевых условиях получилось.

По логам сегодняшнего дня попытаемся диагностировать проблему и полечить.
Несмотря на текущую «сырость», подход очень правильный. Удачи в дальнейшей работе!
> Допустим, что продавец интернет магазина на своем сайте написал “Машинка Lego Duplo”. Очевидно, что по запросам “Игрушка для мальчика”, “Конструктор” и т.д. я этот документ не найду в поисковиках, которые я упоминал выше.

Современные поисковики типа Google не имеют такой проблемы. По запросу «кипящая вода» Google найдет заодно «горячая вода» и пр. (http://habrahabr.ru/blogs/google/95833/)
Обратите внимание на Яндекс Маркет market.yandex.ru/search.xml?text=%D0%B8%D0%B3%D1%80%D1%83%D1%88%D0%BA%D0%B8&hid=90783&srnum=79521
Там справа есть такая замечательная панель, разбивающая товары на всякие логические подвиды. По сути Beegoo это тот же Маркет, только аяксовый и заточенный под игрушки.
Кстати, да) Первое что пришло в голову. Но различия есть.

Как я понимаю, в Директ каждый магазин подружает свой собственный xml-прайс (или в каком-то там другом формате), а Beego сканит магазины сам. То есть, он более универсальный в данном вопросе.

Поправьте, если я что-то понял неправильно.
Да, магазины подгружают прайс в xml, скорее всего это сделано с целью унифицировать выдачу, т.к. все магазины разные.
Теперь родители точно найдут Хабр при поиске «игрушки для мальчика 3 года от 700 до 1000 рублей»… А потом рассуждают про результативность выдачи :)
По запросу «Игрушка для мальчика» у вас тоже не совсем релевантные игрушки.
Отвечу на этот комментарий и заодно на еще один чуть выше от Alexx_ps

Отличие Beegoo.ru от Яндекс.Маркет не в умении систематизировать информацию и организовывать релевантный поиск (по этому критерию Яндекс имеет существенную фору перед нами). Основное отличие — это в подходе формирования информационной базы.

В Яндекс.Маркет попадают предложения только от тех интернет-магазинов, которые готовы платить за переходы. Если продавец не заплатил — в Яндекс.Маркет он не попал.
Beegoo.ru сканирует те магазины, которые интересны с точки зрения контента. То есть при наборе объема информационной базы нет такого входного порога — как согласие от продавца платить. Мы сами выбираем магазины и сканируем их «полки».
То есть мы претендуем на то, что у нас в итоге должна получиться более интересная для покупателя база.

Тут, наверное, уместен такой гипотетический пример. Представьте себе, если бы в Google попадали страницы только тех сайтов, которые бы платили Google. Какой бы поисковик мы с вами имели? И захотели бы мы пользоваться этим инструментом?
Магазин, который покупает рекламу, с точки зрения покупателя, вероятно, будет выглядеть более привлекательным, чем магазин, не тратящий (или не имеющий возможности тратить) денег на рекламу.

Может он уже вообще загнулся (этот второй магазин), а сайт все еще висит… а Вы его в поиск :)
Риск описанный Вами есть. Бороться с ним будем тратой усилий на качественный отбор претендентов на сканирование и последующий их мониторинг.
Набрал «игрушка для мальчика 4 года» — попадается довольно много кукол. Рановато ему еще с куклами играть.
Мне одному заголовок показался несколько кричащим? Взглянув на него, подумал о пришествии семантического веба. Прочитав, несколько разочаровался.
А чем Вам это не семантическое?
Тут как раз и прикручена дополнительная семантика предметной области!
я просто имел в виду, что обычно под семантическим поиском понимают выуживание информации, основанной на смысле из обычного текста. Данный же сайт использует наоборот предопределённые знания о предметной области для «обёртки» имеющейся информации.
Что у меня в голове отложилось, когда я изучал вопросы анализа связных текстов, так это то, что информацию из текста можно получить только тогда, когда ИИ обладает как раз предопределенной базой знаний о предметной области. Только так можно справиться с омонимией и получить действительно «смысл» текста, а не просто неоднозначное дерево разбора предложения.
Хотя я особо глубоко и не копался. Может ошибаюсь…
в общем-то вы правы, онтология без терминов на самом деле не может существовать. и действительно, сервис представляет из себя решение одной из задач СИИ — ситематизации. что действительно было бы интересно — это алгоритмы сборки данных (хотя вряд ли нам дадут даже их краткое описание ;) ), а то узость предметной области даёт предположить, что они могут быть либо ручными, либо очень примитивными :)
Я добавлю, что в 2000 году уже продавались специализированные семантические базы — что-то вроде дерева, где вверху понятие «бог», а внизу «квант». Области были коммерческие и англоязычные — торговля, строительство. Полагаю, сейчас уже такие технологии доступны.
NLP это всего лишь часть семантического веба (одна из самых сложных, кстати), которая вовсе не обязательно должна присутствовать, чтобы назвать что-то семантическим :)
Подпись снизу результатов:

11 предложение
Да, недочет принят. Поправим.
Спасибо!
Исправили.
НЛО прилетело и опубликовало эту надпись здесь
А в каком виде все это хранится? Используете какие-нибудь triple-store? Или все в таблицах?
И как запросы к базам выполняются? SPARQL? SQL? Свой язык запросов?
Данные по предложениям товаров хранятся преимущественно в файлах. Для индексов и некоторых данных сайчас используется PostgreSQL. Есть планы миграции в БД типа «ключ-значение», вроде redis. Займемся переходом, когда нагрузка вырастет до «промышленных» значений. Пока что текущей архитектуры хватает.

Запросы пользователей сейчас в конечном счете преобразуются в SQL, который выполняется над PostgreSQL.
а почему решили именно так делать? все равное же по сути создаете объекты из индексированных постов.
ну и да, как показывает практика, такие переходы это ойойой как тяжело :)
Основной мотив — не тратить много времени на стадии прототипа. На этой стадии ведь главное идею проверить; подправить (возможно кардинально) реализацию, если что; инвестору показать «крутящиеся шестеренки», обеспечивающие прохождение всего сценария от начала до конца.

А вот когда случится переход от этой стадии к другой, тут мы сядем и, видимо, напишем заново эту часть с учетом полученного опыта. Ну и скорее всего это будет делаться уже на деньги найденного инвестора и под понятные коммерческие перспективы.
ага. логично. ну что ж, удачи вам в этом непростом деле :)
Рекомендую взглянуть в сторону MongoDB
Да это фактически нигма, просто автоматическую кластеризацию заменили на ручную классификацию :)
Вообще то я знаю ответ, просто надеюсь на честность.
Подобную технологию, но более развитую показывали на cebit'e
Не, скорее от quintura ноги растут.
> Мы объединили возможности традиционного индексирования “по словам” со знаниями о той предметной области, к которой относится информация.
а можно подробнее? вручную обучали?
Да, вручную. Аналитик садится и фиксирует описание области на разработанном для Beegoo языке.
Затем интерпретатор использует это описание при индексировании товарных предложений и парсинге запроса пользователя.
А думали над автоматизацией?
Да, думали. Но скорее как дополнение к «ручному» описанию, нежели его полной замене.

Например, после обработки большого статистически значимого объема информации можно будет автоматом делать вывод о наличии определённых, но еще не прописанных в описании, связей между существующими понятиями предметной области.
А дайте-ка нам пример запроса, который может прям удивить.
Вопрос удивления — крайне индивидуальный. Есть люди, которых сложно чем-то удивить вообще :-)

Я отвечу на другой вопрос: «Какой запрос пользователя может обработать Beegoo.ru, так чтобы продемонстрировать свои конкурентные преимущества?»
Ответ: например, этот Игрушка из дерева возраст от 1 до 2 лет от 300 до 500 рублей

Чтобы понять сложность задачи, нужно вспомнить, что товарные предложения в разных магазинах описываются очень по-разному — где полно, где-то одной фразой.
Любой из тех, которые WolframAlpha уже умеет обрабатывать?
Или из тех, который был приведен в Нигмовской (well, написанной в соучастии с кем-то из разработчиков Нигмы) книжке по кластеризации данных?
мальчик 22 года — набор с лобзиком. То что мне нужно! :)
Не понимаю как название относится к содержимому? «новые подходы к поиску информации» — и чего здесь нового описано?
Вот вчера тоже подумал, почему более точный поисковик никто не придумает. И вот первые попытки.
Удачи!
p.s. Измените бегунок, который убирает ранее введенные критерии поиска, уж очень он похож, на «привет от paint».
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Публикуйте конечно!
Очень интересно. Опубликуйте, плиз, этот материал, или, если не сложно, пошлите на почту.
НЛО прилетело и опубликовало эту надпись здесь
[irony] Ура, в России изобрели свой WolframAlpha с медведями. [/irony]
Видела проект еще с полгода назад.
Идея понятная. Но частенько, если кликнуть по одному тегу из каждого набора поиск вернет ничего. То есть ничего не найдёт.
Ну и моему младенцу от 1 до 2 лет предлагают прорезыватели, мобиль и развивающий коврик. Нерелевантно, короче.
Спасибо за замечание.

С тем, чтобы последовательности выбранных в пользовательском интерфейсе подсказок всегда приводили к ненулевому результату, сейчас боремся.
Это хорошо, что вы об этом уже знаете. Желаю удачи в вашем непростом деле. Как мама годовалого мальчика постараюсь вас тестировать почаще.
И чем ваше решение отличается от классической экспертной системы?
Спасибо за статью!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории