julia 11 сен 2006 в 14:03

Для чего «Рамблеру» поиск от Fast?

3 мин

625

Комментарии 69

kukutz 11 сен 2006 в 15:01

Какие варианты вертикальных поисков есть? Картинки у Рамблера уже есть, у PicSearch куплены.

Видео у Рамблера уже есть, Vision, там поиск есть, но не работает.

Стало быть, поиск по Vision решили сделать?

Как говорится, "счастья вам, женщины!".

minaton 11 сен 2006 в 15:09

ну да - видео поиск, аудио поиск, кластеризация

gray 11 сен 2006 в 15:19

У FAST нет никакой особой кластеризации, вроде бы.
Не говоря уже о том, что кластеризация - это такое "модное слово в поиске" 2.0, для тех, кому надоело медитировать на слово 1.0 - "морфология".

-1

НЛО прилетело и опубликовало эту надпись здесь

uni 11 сен 2006 в 17:39

Я что-то не понимаю наверное...

А разве публичная компания с IPO может
скрывать сумму сделки? Помоему это уголовно
наказуемое преступление. Поправьте если я не прав.

ideali 11 сен 2006 в 18:14

могут быть варианты?
Смотря кто в бухгалтерии, как покупатель лицензии указан - раз.
кто там у них указан на ипо, какая орг-я? - два

lexa 11 сен 2006 в 20:15

Вот будет годовой (или квартальный)отчет, они
и напишут "приобретение ПО" - столько-то денег.
А до того - не обязаны.

Lermont 11 сен 2006 в 20:20

Вариант#1(оптимистичный)
Rambler мог договориться об очень хорошей скидке, соответственно чтобы не прогибаться под новых клиентов Fast могла настоять о сокрытии суммы в договоре.

Вариант#2(реалистичный)
В Рамблере оптимизируют налоги - одну и ту же сделку вполне реально оформить несколькими легальными способами с совершенно различными налоговыми отчислениями.

Lermont 11 сен 2006 в 20:23

Комментарии Ашманова понравились - про "ребят из глобальной компании" очень реалистично.

iseg 11 сен 2006 в 21:35

Нету в Фасте мирового поиска (=мирового индекса) с тех самых пор, как они продал свой веб-поиск (пол-команды, сайт allthweb и собственно поисково-роботную ферму) в увертюру почти три года назад.

Registrant: Overture Services Inc. (DOM-352367) 74 N. Pasadena Ave., 3rd Floor Pasadena CA 91103 US

А Увертюра -- это Яху. Сайт alltheweb принадлежит yahoo и поиск там стоит yahoo-вский.

minaton 11 сен 2006 в 22:43

Рамблер продастся Яху?

boris 11 сен 2006 в 23:25

А РБК - Руперту Мёрдоку?

superman 12 сен 2006 в 01:26

Скорее, ИД Родионова. :)

gray 11 сен 2006 в 23:20

Придется вслед за Ильей повторить - у FAST нет такой технологии, как веб-поиск.
Вот что у них действительно есть - это поиск по видео и аудио. В качестве примера - новость годичной давности - http://www.searchengines.ru/news/archive…

Ashmanov 12 сен 2006 в 00:46

Сергей, ты не путай публику. Технология веб-поиска есть у любого игрока рынка корпоративных искалок. Включая Верити, Автономию и других. Просто потому, что это не такой уж фокус, когда собственно поисковик для больших баз уже есть.

Всегда, когда продают корпоративную искалку, она должна поддерживать многотерабайтные базы, инкрементное индексирование, 200-300 форматов, а также индексировать корпоративные сайты и документы на вебе. Большинство этих искалок позволяют индексировать и тысячи сайтов вовне корпоративной сети.
Борьбу со спамом, PageRank и прочие тонкие штуки можно пока опустить.

А вот большая база по Вебу - это действительно вопрос. Её нет у фирм, которые продают корпоративные решения, поскольку их бизнес другой, с бурной лотереей интернет-проектов не связанный, а большую базу набрать и поддерживать сложно и очень дорого.

Что касается поиска по видео и аудио, FAST этим хвалится давно, но что это значит - неясно. Потому что распознавание речи на больших базах - это, по-моему, пока что туфта. Есть в таких задачах, правда, тот эффект, что можно распознавать с низким качеством, скажем 5-10% и уже будет можно искать по распознанному. Но всё равно что-то мне пока не верится.

gray 12 сен 2006 в 01:07

Игорь, ну не мне же тебе объяснять разницу между корпоративной искалкой, которая ищет по многотерабайтной базе документов сотни разных форматов, и веб-поиском. Ведь главный фокус состоит в том, что эта самая много... база - чистая, а веб-искалка должна искать по грязному вебу и никак тут нельзя опускать борьбу со спамом, учет цитируемости, подавление дубликатов и другие "тонкие штуки".
Да, понятно, что технология поиска Google в основном одинакова и в веб-поиске, и в Google Desktop, и в Google Mini. Как ты, вероятно, догадываешься, поиск Яндекса по блогам или Персональный поиск принципиально мало отличаются от Большого поиска по вебу и друг от друга. Но разница все же есть и она критична.
Я уж не говорю о том, что такого зверя, как отчуждаемый веб-поиск, даже FAST не изобрел :).

Ashmanov 12 сен 2006 в 01:32

Фаст не асилил, а человечество асилило. Ты при случае сходи на Персональный поиск, изучи отчуждаемый веб-поиск.

gray 12 сен 2006 в 01:58

Нет, Игорь, человечество нифига не осилило. Это ты нашел компромисс между своей идеей создания веб-поиска по коллекции отобранных документов (а не сплошняком по грязному вебу) и расходами на создание такой коллекции. Не берусь судить, на каком этапе количество маленьких коллекций перерастет (если перерастет) в качество одной большой. Но отчуждаемость-то тут где? Арендуемый сервис, персональные кабинеты, все, что может пользователь - добавить адрес сайта.

Ashmanov 12 сен 2006 в 08:32

а) ты почитай внимательно, что там можно. "Всё, что может пользователь" - это добавить точки входа, указать глубину индексации, период индексации, квоты выкачки, задать свои, читабельные, имена сайтов и страниц, и т.п. Скоро выкатим новую версию, там будет возможность вести свой каталог, выдача будет тоже по рубрикам.
В следующей версии дадим возможность влиять на ранжирование, статистику запросов и т.п.
Так что возможностей там много, управляешь, как своим, а вот головной боли по установке нет совсем.

б) Что же касается установки поиска к себе - в чём тут такая уж доблесть? Это всегда ведёт к проблемам и острой потребности в техподдержке. Не будем далеко ходить за примером: ты вот Яндекс ставил на SearchEngines, тебе понравилось?
Большинству моих знакомых, кто пробовал - не понравилось. Ставится трудно, а техподержки практически нет. В этом смысле, "отчуждаемым" Яндекс.Сервер не является, хотя формально это софт "в коробке". При том, что в большинстве случаев людям нужен даже не вебпоиск, а скорее простой поиск по сайту.
Это я не к тому, чтобы наехать на Яндекс. Просто ставить к себе поиск - не самая лучшая идея.

А что вообще ты понимаешь под "отчуждаемым" ПО - возможность вот непременно установить на свой сервер? А зачем она?
У нас она есть, так же как у Гугля или FASTа, только это мало кому нужно, только корпоративным клиентам, за $20-40К, с внедрением и т.п. Мы в АиП умеем этим заниматься, вот, например, наш клиент , у него именно веб-поиск по всем его конкурентам, несколько сотен сайтов. Да возьми хоть Спамтест, который стоит у массы крупняка в России, Спамтест как раз работает "из коробки", не требует настроек и т.п.
Так что такое отчуждаемый софт, мы себе представляем. Но в любом случае это тяжёлый бизнес и немножко уже вышедший из моды. Хостинг сервиса - совершенно другое дело.
Вообще сейчас мир быстро движется от коробочного софта к "software as a service". То есть к хостингу сервисов и приложений.
А уж массового пользователя поисковика можно удовлетворить только хостингом этого поисковика.

Lermont 12 сен 2006 в 09:16

"Всё, что может пользователь" - это добавить точки входа, указать глубину индексации, период индексации, квоты выкачки, задать свои, читабельные, имена сайтов и страниц, и т.п.
И так по каждому сайту?!! Такой подход резко сужает область применения подобной схемы и ни в коей мере не становится альтернативным выходом для "массового пользователя поисковик". Кроме поиска по конкурентам трудно представить другие юзкейсы.
А "отчуждаем" поиск или нет - это всего лишь вопрос определения, как по мне, так и "Персональный поиск" и Яндекс.Сервер и Google Desktop Search являются отчуждаемыми, т.к. по степени "грязности" некоторые персоналки и корпоративные сети еще могут дать фору вебу.

Ashmanov 12 сен 2006 в 10:08

Задавать по каждому сайту необязательно. Можно пакетом загнать список сайтов и всё. Однако по нашему опыту, людям нравится аккуратно разбирать сайты и настраивать параметры индексирования. От этого сильно зависит качество ИХ поиска. Для многих узких предметных областей автору поисковика достаточно 10-20 сайтов, для некоторых достаточно сотни. Скажем, у нашего тренера по айкидо теперь есть поиск по школам, залам, семинарам по айкидо Москвы и Петербурга, всего под 100 сайтов. Больше и не нужно, все нужные вещи можно найти, никаких дорвеев нет. А тщательно вести свои 100 сайтов при хорошей диагностике (перестало скачиваться, качается мало и т.п.) - не так уж трудно.
Для создания большого поисковика, конечно, таких авторов нужны десятки тысяч, но это дело наживное.

Lermont 12 сен 2006 в 10:16

А если появится 10 или 20 новых, хороших сайтов про айкидо - как ваш тренер о них узнает? Или вдруг ему захочется поискать что-нибудь про таэквондо - опять идти в Google\Яндекс\Рамблер?

Ashmanov 12 сен 2006 в 11:03

А почему бы не пойти в Гугляндекс, что в этом зазорного? Ну вот есть поисковики для обработки веб-грязи, этакая сырьевая промышленность. Почему не пользоваться её продуктом для производства своей продукции высокой очистки?

Если же поисковик про айкидо станет популярен в узких кругах, то в нём пойдёт самостоятельная регистрация тематических сайтов.

lexa 12 сен 2006 в 11:21

И так по каждому сайту?!! Такой подход резко сужает область применения подобной схемы и ни в коей мере не становится альтернативным выходом для "массового пользователя поисковик". Кроме поиска по конкурентам трудно представить другие юзкейсы

Ну вот у меня давно чешутся руки (но не доходят) сделать поисковик по сайтам о цифровом фото и цифровой обработке изображений.
Навскидку, там пара десятков сайтов, пара десятков форумов и несколько ньюсгрупп. Все, 99% информации будет покрыто.
Да, это работа, но вполне подъемная.

Или, извиняюсь, поиск по барахолкам на заданную тему. Ну сколько тех барахолок - десяток будет ?

Lermont 12 сен 2006 в 11:39

Ну, если Вы уверены в ограниченности зоны поиска, соглашусь, что ПП может быть хорош, хотя ...
Навскидку, там пара десятков сайтов, пара десятков форумов и несколько ньюсгрупп.
Проиндексировать 1 хороший форум - та еще задача, у "неперсональных" поисковиков не всегда получается:
http://www.yandex.ru/yandsearch?serverur… - 94K страниц
http://search.rambler.ru/srch?sort=0&fil… - 96K страниц
http://www.google.com/search?&q=allinurl:forum.searchengines.ru/+site:forum.searchengines.ru - 297K страниц.
Кто-то что-то недоиндексировал.

lexa 12 сен 2006 в 11:47

Да, то что к форумам нужен особый подход - мы понимаем еще
с Рамблеровских времен. В данной инкарнации - пока не сделали.

gray 12 сен 2006 в 11:51

Конкретно в данном случае очень легко посчитать, что на форуме:
1 главная страница;
несколько десятков страниц разделов;
~82 тысячи страниц тем - при дефолтной выдаче по десятку сообщений на страницу, причем часть нельзя проиндексировать, ибо это закрытый форум, например.
~19 тысяч страниц профилей пользователей.
Итого - ~100K страниц, которые действительно что-то содержат.
Вероятно, кто-то что-то переиндексировал :).

Lermont 12 сен 2006 в 12:16

Ищем "Садовский" Яндексом на forum.searchengines.ru - 343 страницы
Ищем "Садовский" Гуглом на forum.searchengines.ru - больше 3000 страниц
Все же больше похоже на то, что кто-то недоиндексировал.

gray 12 сен 2006 в 12:39

Из них в архиве - больше тысячи.
Похоже, кто-то не умеет склеивать нечеткие дубли :).

Lermont 12 сен 2006 в 13:28

Хорошо. Усложним запрос, чтобы перейти из области неосязаемо больших чисел к тому, что можно пересчитать по пальцам.
Яндекс нашел 1 топик
Google - 4 ветки в форуме и 2 в архиве.
И почему мне до сих пор кажется, что кто-то "недоиндексирует"?

gray 13 сен 2006 в 11:17

Вероятно, не креститесь, потому и кажется :).
Еще раз - абсолютно точно на форуме существует порядка 100к страниц, которые можно проиндексировать - с уникальным контентом. Добавьте сюда архив - копию форума, фактически, с очень легким дизайном и статическими урлами - и получите еще 70к. Таким образом, на примере отдельно взятого форума мы видим, что Google показывает явно завышенное число результатов поиска - считая там дубли (а весь архив это дубль, причем на 80% - довольно четкий), мусор и т.д.
Так что вам может казаться, что кто-то недоиндексирует, но факт остается в том, что кто-то индексирует больше, чем есть в наличии.

Lermont 13 сен 2006 в 11:27

Ткнул пальцем в небо и сразу напоролся на запрос, где Гугл всего в шесть раз больше нашел, чем Яндекс ... Вот ведь не повезло!

-1

gray 13 сен 2006 в 11:42

Еще раз - в конкретном случае Google проиндексировал примерно в два раза больше, чем есть на самом деле. Можете считать это признаком качества поиска - найдет даже то, чего нет.

Lermont 13 сен 2006 в 11:58

А ... теперь понял! Страниц, найденных Гуглом:
http://forum.searchengines.ru/showthread…
http://forum.searchengines.ru/showthread…
http://forum.searchengines.ru/showthread…
http://forum.searchengines.ru/archive/in…
http://forum.searchengines.ru/archive/in…
просто нет!

-1

kukutz 12 сен 2006 в 12:55

Давно известно, что верить цифрам результатов, показываемых Гаглом, нельзя.

Он их завышает зачастую на порядок - потому что считает "примерно", и учитывает весь спам, дубликаты, мусор и т.п. "supplemental results".

Lermont 12 сен 2006 в 13:38

Просто "Гагл" менее самонадеян - склеивает и чистит как умеет все же оставляя посетителю шанс ("repeat the search with the omitted results included") самому что-то искать (и находить!) в "дубликатах".

kukutz 12 сен 2006 в 17:43

То есть Вы правда считаете, что писать 353 000 там, где результатов реально 48 - нормально?
http://www.google.com/search?q=kukutz&hl…

Lermont 12 сен 2006 в 20:43

Так я о том и пишу! Он честно показал Вам 48 уникальных с его точки зрения документом, а дальше самые недоверчивые "can repeat the search with the omitted results included". Пускает, как обычно, до start=990 и 353`000 документов он нашел или 1010 - я проверить, к сожалению, не могу. Но мне кажется, что "сырых" документов там явно больше чем 48.

P.S. Кстати, а почему их должно быть именно 48, а не 80`805?

kukutz 12 сен 2006 в 21:05

Вот и я думаю, почему 48, когда пишут про 353 тысячи.

Lermont 13 сен 2006 в 10:46

IMHO по этому запросу Вам виднее сколько существует уникальных документов - 48, 81`234 или 346`000.

uni 12 сен 2006 в 13:38

Ужас... И это Пишут разработчики Яндекса...

Просто сразу в лоб:

a). Все поисковые машины считают кол-во результатов "примерно",
то, что у Вас написано число с точностью до числа это введение
людей в заблуждение.

b). На текущем этапе жизни Гугл единственный, кто реально очень неплохо клеит нечеткие дубли. Яндексовский веб-поиск этого не делает вообще.
Пример - запрос "webalta" 6+7 позиции, просто даже снипет одинаковый.

Вообще очень забавно наблюдать как yandex (gray,kukutz,iseg и прочие товарисчи) общаются с ex-rambler (ashmanov,lexa) :)

-1

kukutz 12 сен 2006 в 17:40

"Ужас... И это Пишут дорвейщики..."

Я не разработчик.

а) Да, все считают примерно, но используют очень разные подходы.
То, что у Гагла число написано с учётом спама и дубликатов - это гораздо большее введение людей в заблуждение.

б) Мы уже видели, что на запрос webalta выдаёт webalta. Не с таким бревном в глазу, простите.

uni 12 сен 2006 в 17:56

kukutz, вам наверное сложно это понять,
но от того, что наши партнеры сливают нам
трафика больше чем на Яндексе, я не становлюсь
дорвейщиком :)

-2

kukutz 12 сен 2006 в 18:02

Видите, как хорошо - Вы не дорвейщик, я не разработчик.

Только Вы всерьёз написали, а я в кавычках.

Такие дела.

kukutz 12 сен 2006 в 17:44

b) Вот, смотрите, как он хорошо клеит нечеткие дубли:
http://www.google.com/search?hl=en&lr=&q…

Буквально весь сайт - нечёткий дубель.

iseg 12 сен 2006 в 19:10

> Гугл единственный, кто реально очень неплохо клеит
> нечеткие дубли. Яндексовский веб-поиск этого не делает вообще

ой? а как вы это поняли?

Мы иногда чего-то на эту тему публикуем

Вот например http://www2002.org/CDROM/poster/187/

Или вот здесь: http://www.rcdl2006.uniyar.ac.ru/ru/doc/…

Там будет написано, что показатели у G = 88.4% "уникальных" в "чистой" выдаче (то есть без &filter=0) и у Y = 90.1% "уникальных" в "чистой" выдаче (то есть без &rd=0).

Показатели близкие, но существенно более объективные чем если судить по одном запросу.

uni 13 сен 2006 в 12:49

Подобных публикаций очень много,
однако работает это только у них более-менее.

-1

iseg 13 сен 2006 в 13:51

по единственному наблюдаемомоу вами запросу?

uni 13 сен 2006 в 14:14

по всем.

-1

iseg 13 сен 2006 в 14:33

может быть это религиозное ощущение?

uni 13 сен 2006 в 16:26

Не думаю :)

-1

НЛО прилетело и опубликовало эту надпись здесь

Ashmanov 12 сен 2006 в 11:00

Почему же не будет? Это просто будет стоить денег. Но меньших, чем покупка того же самого "в коробке". Потому что в стоимость коробки ещё входит высокая стоимость отчуждения (документация, техподдержка, тестирование, инсталлятор, средства управления и т.п.).

Что касается приватности, то какая там, интересно, приватность в публичном поисковике? Что там секретить и главное, от кого - от хостера? А почту Вы не боитесь хранить у хостера?
Вас, скажем, не удивляет, что у SalesForce, самой известной CRM на Вебе, примерно 300 тысяч корпоративных клиентов, которые хранят где-то там на сети, у третьего лица, данные о всех своих клиентах? Куда уж приватнее, казалось бы - базы данных по клиентам, то, что обычно сейлы воруют при увольнении. И ничего, хранят и не жужжат.

НЛО прилетело и опубликовало эту надпись здесь

gray 12 сен 2006 в 11:10

Лень, я не знаю, будет она или нет, но у меня в августе Новотека выкачала 250 тысяч страниц с форума. И не унимается, кстати.

НЛО прилетело и опубликовало эту надпись здесь

lexa 12 сен 2006 в 11:17

Я не вижу такой уж проблемы с парой миллионов.
У одного из наших пользователей порядка полумилиллиона документов
и он все не унимается, добавляет сайты. Будет пара миллионов -
значит будет пара миллионов.

По выходу из беты - такие объемы скорее всего не будут бесплатными,
но формы этой не-бесплатности могут быть разными. Деление денег от
контекстной рекламы, например.

НЛО прилетело и опубликовало эту надпись здесь

lexa 12 сен 2006 в 11:34

Ну как-то нет задачи всех на один горшок. Казалось бы,
горшки недорогие, а на дворе сейчас не 2002-й год

Неужто у кого-то сейчас есть проблема с железом ? оно
же моментально окупается в любом разумном проекте

gray 12 сен 2006 в 11:22

Мы куда-то не туда с тобой заехали. Изначально речь шла о том, что:
1. У FAST`а нет веб-поиска и Рамблер не может у него его купить.
2. Поиск по вебу требует немного других решений по сравнению с чистыми коллекциями - поэтому нельзя взять корпоративную искалку и получить из нее веб-поиск.
Если подытожить - Рамблер не будет ничего менять в веб-поиске в связи с покупкой машинки у FAST.

Ashmanov 12 сен 2006 в 11:27

Да, скорее всего так. Хотя а) что-то у них там есть, б) никто не мешает прикрутить свою веб-обвязку (как пишет ниже Илья про Fireball) поверх базовой поисково-индексирующей машины.
Ну, пока паники или уныния среди разработчиков поисковика в Рамблере не видно, увольнять не собираются, а даже скорее наоборот, как я понимаю.

iseg 12 сен 2006 в 11:11

Попытаюсь вас помирить следующим примером и историей:

Кусок fast-а, как известно, принадлежит Lycos-у и vice versa. Поэтому пару лет назад, принадлежащий Lycоs-у, и до того работавший на бвзовом движке altavista поисковик fireball.de (некогда был 2-й - 3- й в Германии) пересел на базовый поиск fast.

Но это именно только собственно индексирующая машинка - полнотекстовый индекс и все. Все ранжирование, дубли, стат.ранк, ссылки, зеркала, спам, линковвая накрутка и тп и тд - вне движка. Самописное. И оно по размеру БОЛЬШЕ движка. Движок просто позволяет (как кажется менеджерам) экономить на железе и надежности.

Недостатки такого подхода: (1) чужого монстра на самом деле труднее укротить, чем своего. (2) Все нюансы, извлекаемые при индексации недоступны (а они могут понадобиться, системы-то все живые). (3) Все нюансы нужные в ранжировании тоже недоступны (и они тоже могут понадобиться в силу все той же "живости" веба).

Ashmanov 12 сен 2006 в 11:20

Верно. Именно поэтому я совершенно не понимаю, зачем Рамблеру чужой движок. Либо он вместе с базами чего-там мультимедийного, копирайтного, со всей легальной и партнёрской инфраструктурой, либо с какой-то совершенно волшебной технологией распознавания речи и изображений. НИ в то, ни в другое мне что-то не верится.
Есть ещё одно предположение: Рамблер хочет, для влияния на курс акций, объявить, что будет продавать корпоративный поиск своим клиентам и тем зарабатывать. Типа, диверсификация, выход на рынок ПО и т.п.
Для наивных инвесторов это может показаться разумным бизнес-шагом (как же - будет больше денег, диверсифицированный бизнес и прочее). То есть для них это будет очередная хорошая новость о том, что Рамблер развивает бизнес и собирается заработать ещё больше денег. Гугл же продаёт свой поисковичок из тех же соображений, хотя, по-моему, это совершенно провальный проект.

Для тех, кто понимает, это будет выглядеть грубой ошибкой (потому что Рамблер ни разу не умеет продавать и внедрять ПО). Но этих понимающих инвесторов сильно меньше.

gray 12 сен 2006 в 11:26

В итоге мы оказались полностью друг с другом согласные :).
В действительности мы уже одну такую сделку видели и обсуждали - когда РБК покупало движок Альтависты.

habroman 12 сен 2006 в 00:37

Так для чего купили-то, кто скажет внятно?

superman 12 сен 2006 в 01:20

Чтобы курс акций подрос. Да-да.

-1

superman 12 сен 2006 в 01:20

Чтобы курс акций подрос. Да-да.

-1

guideway 12 сен 2006 в 05:05

Улыбнула фраза "Снизу довольно плотно поджимает «Гугл»"... Так и хочется сказать им - очнитесь, хватит спать!
Имхо, здравая мысль отдать на аутсорсинг разработку движка. Рамблеру давно не хватало "глотка свежего воздуха"... трупные зловония не самый лючший парфюм для поисковика... :))

-1

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время