Поисковые технологии *

От AltaVista до Яндекса

alizar 9 окт 2008 в 13:32

Google наконец-то сделает RSS для результатов поиска

1 мин

1.1K

Компания Google официально подтвердила, что в ближайшее время подключит RSS-фиды к результатам поиска, так что можно будет подписаться на канал по определённому ключевому слову и отслеживать все новые ссылки по этой теме.

Мониторинг поисковой выдачи в данный момент работает только через электронную почту, через рассылку Google Alerts, но это явно не удобно. До настоящего момента Google остаётся единственным из крупных поисковиков, у которого отсутствует подписка на RSS-фиды поисковой выдачи. Тем пользователям, которым был нужен данный функционал, приходилось пользоваться сторонними сервисами для мониторинга Google либо писать собственные скрипты.

По имеющейся информации, долгожданный сервис будет запущен в течение ближайшего месяца.

alizar 17 сен 2008 в 09:19

Индексирование звука появилось на страничке Google Labs

1 мин

989

Поисковые технологии *

На страничке перспективных разработок Google Labs появился новый проект: GAudi (Google Audio Indexing). Это технология распознавания и индексирования англоязычной речи, которая извлекается из мультимедийных файлов, в том числе из видео.

Последнюю разработку Google де-факто начали тестировать два месяца назад на небольшом количестве видеороликов с портала YouTube: см. новость «На YouTube появился полнотекстовый поиск по видео». Но это был своеобразный «чёрный ящик»: мы просто могли посмотреть, как работает новая фича, но не знали, что реально за ней стоит. Теперь же опубликован отдельный интерфейс для поиска по видеороликам (в этот индекс в будущем можно подгрузить любой видеоконтент из интернета), а также FAQ с информацией.

Из FAQ’а мы узнали, что движок распознавания речи создан с нуля специальной рабочей группой из сотрудников Google. Хотя в этой области идут изыскания уже десятки лет силами множества компаний, но GAudi — это полностью самостоятельная разработка Google.

В данный момент поддерживается только английский язык и система, конечно же, делает много ошибок. Например, в этом видеоролике слово «Czechoslovakia» неправильно распознано как «tech also but there», а слово «free» распознано как «forty», и подобных ошибок довольно много.

Читать дальше →

evil_random 21 авг 2008 в 01:29

Поиск картинок 2.0

2 мин

5.9K

Поисковые технологии *

Недавно открылся интересный сайт: tineye.com, о котором уже как-то писал Mitesha, но тогда он был в стадии закрытого тестирования.

В двух словах принцип работы такой: сайт ведет поиск изображений, но не по ключевым словам, а по исходному изображению загруженному пользователем.

Например:

исходная картинка

найденные

Читать дальше →

+179

145

mikhanoid 12 авг 2008 в 18:19

Как квантовые физики PageRank считали

1 мин

997

Поисковые технологии *

А я всегда говорил, что есть связь между теорией алгоритмов и физикой. Вот, первые подтверждения от профессионалов. Группа учёных предложила смотреть на PageRank как на волновую функцию в потенциале, который определяется разностью входящих и исходящих ссылок на страницу. Учитывая это, и применяя простую алгебраическую магию над исходной формулой для PageRank, математики приходят к уравнению типа уравнения Шрёдингера, решением которого является функция PageRank. Человечеству это, кроме осознания удивительных взаимосвязей в природе, даёт ещё и возможность вычислять PageRank (не точно, похоже, а только приблизительно) в три раза быстрее, чем существующим итеративным методом.

Статья доступна здесь: arxiv.org/abs/0807.4325

Читать дальше →

+60

Antoxa 4 авг 2008 в 11:27

Инновационный механизм Google. Полемика

2 мин

806

Поисковые технологии *

В июне Harvard Business Review опубликовал большую статью. Журналисты постарались со всех сторон посмотреть на гиганта и проанализировать историю успеха компании. Очевидно, что инновации предложенные и предлагаемые Googl'ом стали и продолжают быть одним из главных компонентов бурного развития компании. Но не только.
Можно было бы и не вспоминать об этой статье, ведь прошло больше месяца, и кто хотел, тот успел ее прочитать. Но на днях тот же Harvard продолжил историю и опубликовал комментарии троих деятелей Рунета:

Читать дальше →

marysam 29 июл 2008 в 08:35

Что делать с триллионом фотографий в Интернет?

2 мин

1.8K

Поисковые технологии *

Разработка новых подходов к поиску фотографий в Интернет становится сейчас более чем перспективным направлением:

Просто потому что 100 миллиардов изображений появляются ежегодно.

Этому способствует 750 миллионов мобильных телефонов, приобретаемых нами, а также 100 миллионов цифровых фотоаппаратов, уходящих с прилавков ежегодно. В ближайшем будущем тот же Google планирует насчитывать в своем индексе 1 триллион изображений.

Компании улучшают текстовый поиск (Picsearch.com, Facesaerch.com). Другие работают с визуальными запросами (в качестве запроса — изображение, а не текст) или пытаются сочетать текст и картинку (Riya, Picollator.ru).

Читать дальше →

alizar 28 июл 2008 в 09:01

База Google достигла триллиона страниц

1 мин

1.2K

Поисковые технологии *

База Google достигла знакового рубежа в триллион URL и продолжает расти в геометрической прогрессии.

В этом триллионе учтены только уникальные веб-страницы, после удаления всех дубликатов. Хотя поисковый робот зарегистрировал их все, но фактически не все они реально проиндексированы для полнотекстового поиска, потому что многие слишком похожи друг на друга, а другие содержат только служебную информацию.

Поисковик начал работу в 1998 году с 28 млн страниц в индексе, а к 2000 году база достигла 1 миллиарда. За последние восемь лет индекс вырос ещё в тысячу раз. Как сообщается в официальном блоге, даже разработчики Google не могли предположить такого стремительного роста количества информации веба. В настоящее время интернет прирастает на несколько миллиардов страниц в день.

Чтобы обрабатывать такие массивы данных, Google в последние годы значительно нарастил мощность своих дата-центров. Если десять лет назад одна рабочая станция в серверной стойке способна рассчитать граф PageRank для всего веба (26 млн страниц) за пару часов, и потом неделю поисковик работал без переиндексации, то сегодня Google обновляет индекс гораздо чаще. Связи между триллионом веб-страниц пересчитываются несколько раз в сутки.

+19

alizar 17 июл 2008 в 10:51

В каких странах доля Google наиболее велика

1 мин

3.1K

Поисковые технологии *

По итогам июня 2008 года поисковая система Google увеличила свою долю в американском интернете до рекордных 69,17%. И без того подавляющее преимущество перед конкурентами стало ещё значительнее (+8 п.п. за год). У Yahoo осталось всего 19,62% рынка, у MSN и Ask.com — по 5,46% и 4,17%, соответственно. На долю остальных 42 поисковых систем, которые отслеживает Hitwise, приходится всего 1,7%.

Однако, есть страны, в которых Google занимает ещё более доминирующее положение, чем в США.

Читать дальше →

+18

111

neon 16 июл 2008 в 13:19

Поиск — это просто

3 мин

3.7K

Поисковые технологии *

Google, конечно, ищет хорошо, но корпоративные ресурсы вывешивать на открытый доступ нельзя, покупать google-mini с его ограничениями тоже не вариант. А поиск по базе внушительных размеров(4 гигабайта текстов, по которым и необходим поиск) надо. А если добаить к поиску по тексту еще и поиск по каким-то параметрам, то тут и google-mini не поможет и совсем страшно становится.

Но не стоит паниковать! На помощь нам приходит Sphinx — поисковый движок с открытым исходным кодом, который можно прикрутить практически к чему угодно не прилагая особых усилий

Читать дальше →

+87

124

nps 12 июл 2008 в 23:59

Searchme продолжает изобретать

2 мин

1.1K

Поисковые технологии *

Со времени последнего поста о визуальной поискововой системе Searchme у неё появились новые функции медиапоиска и подборок (Stacks). Поиск по видео — вещь не новая (хотя её продолжают изобретать), а вот возможность взмахом мыши создавать галереи интересна.

До этого особенности поисковика были только в визуальном представлении Cover Flow (кажется, добавили выделение рамкой слов запроса на скриншоте) и предположение категории, из-за нехватки которого в обычном поисковике надо вписывать исключения.
^{И да, AdBlock до сих пор блокирует Searchme, но только скриншоты сайтов, так что надо добавить исключение "@@searchme.com".}

Читать дальше →

alizar 30 июн 2008 в 09:03

Microsoft покупает семантический поисковик за $100 млн

1 мин

642

Поисковые технологии *

Один из самых перспективных разработчиков технологий семантического (смыслового) поиска, компания Powerset, переходит в собственность Microsoft. По неофициальной информации, сумма сделки может составлять около $100 млн. Это нормальная цена для стартапа, который называли потенциальным конкурентом Google.

Технологии семантического поиска подразумевают, что поисковик пытается анализировать истинный смысл каждого поискового запроса, что на порядок повышает качество выдачи. Как видно на скриншоте (это версия Powerset под iPhone), технология способна находить синонимы фраз (“pat’s rocket” = “Roast Beef”) и учитывать их при поиске.

Однако, многие эксперты оспаривают реальность воплощения в жизнь теории семантического поиска, и даже Google находит эту технологию лишь частично интересной. Наняв в штат нескольких специалистов по семантическому поиску, она всё-таки не применяет её в полной мере. На самом деле семантический поиск выглядит революционным только в теории, а на практике пока никто не смог его нормально реализовать.

Читать дальше →

+26

alizar 5 июн 2008 в 13:30

Microsoft создаёт плагин к IE7 для коллективной работы

1 мин

787

Поисковые технологии *

Исследовательское подразделение Microsoft Research анонсировало плагин SearchTogether к браузеру Internet Explorer 7. Этот плагин превращает поиск в интернете в коллективный процесс: с тематическими группами, чатом, системой рекомендаций, рейтингами. Всё это должно облегчить совместную работу в интернете. Плагин также сохраняет поисковые сессии и пометки пользователей.

Внешний вид браузера полностью меняется. Окно делится на несколько частей: крайняя слева колонка отведена личным пометкам, следующая колонка сочетает в себе рейтинги и комментарии других пользователей, а справа вверху добавляется колонка для обмена сообщениями с пользователями рабочей группы.

Демонстрацию работы программы можно посмотреть на видео.

Читать дальше →

apelsyn 2 июн 2008 в 16:47

Яндекс поддерживает Sitemap 0.9

1 мин

1.1K

Поисковые технологии *

Михаил Сенин и разработчики сервиса Я.Вебмастер сегодня сообщили о поддержке поисковиком Yandex формат Sitemap.

Вы можете сообщить Яндексу о наличии файла Sitemap для сайта двумя способами:

добавив URL файла Sitemap в раздел «Файлы Sitemap» сервиса Яндекс.Вебмастер;
добавив директиву Sitemap в файл robots.txt вашего сайта.

Робот ждёт ваших подсказок!

+35

eretik 20 мая 2008 в 13:31

Найди в сети друзей, у которых можно помыться

1 мин

658

Поисковые технологии *

Совершенно случайно обнаружилась приятная мелочь, от которой стало теплее на душе.

Набрал в Яндексе «горячая вода» и получил возможность узнать, когда отключают горячую воду.
На самом деле, у меня воды уже нет неделю, о чем мне и сообщили, предлагая сперва водонагреватели, потом бани и, в конце концов, пойти просто помыться:

Читать дальше →

+67

Tylerskald 13 мая 2008 в 07:58

Powerset: поиск по-новому?

1 мин

1.1K

Поисковые технологии *

Компания Powerset, о которой уже неоднократно упоминалось в течение последних пары лет как о перспективном стартапе, вчера таки «разродилась» одноименным поисковым сервисом. В отличие от «стандартных» поисковых машин, Powerset предлагает пользователю поиск фактов, расшифровку смысла значений и ответы на заданные вопросы. На данный момент в качестве базы данных поисковик использует ресурсы Wikipedia и Freebase.

«Поиграв» некоторое время с запросами и пролистывая списки выдачи, я не то чтобы пришел в восторг. Но эмоции в целом положительные. Для начала о минусах. Во-первых, заявленной Freebase в списках выдачи обнаружить не удалось. Поиск идет только по статьям Wikipedia. Во-вторых, поиск осуществляется только по ключевым словам на английском языке. Русский язык Powerset понимать отказывается. Ну да ладно, разработчики и не планировали изначально поддержку нескольких языков. Надеюсь, в будущем они этот «недочет» исправят. Также отмечу, что на все вопросы Wikipedia дать ответ не может. Соответственно, Powerset тоже.

Но то, что есть – подкупает. Удобством (мило, «юзабельно» и без лишних наворотов), простой и очень даже полной подборкой информации, найденной по той или иной фразе или вопросу. Так (обратимся к примерам на самом сайте поисковика), если ввести в поле поиска фразу «actors in pulp fiction», то Powerset не только выведет списочек актеров, снимавшихся в «Криминальном чтиве» (с фотографиями, если они есть), но и целый ворох дополнительной информации как об актерах, так и о самом фильме. Интересно и перспективно. Еще бы попробовать все это на русском…

via ITNews

Karlsson 8 мая 2008 в 19:02

Wandex или Девять вещей, которые вы не знали о поисковых системах

3 мин

6.5K

Поисковые технологии *

Перевод

На рисунке: Большая тройка. Или…?

Мы считаем поисковые системы чем-то само собой разумеющимся. Они существуют, потому что обязаны существовать. Без них поиск нужной нам и адекватной информации среди многих миллионов веб-страниц был бы почти неразрешимой задачей.

Вот девять, скорее всего, неизвестных вам фактов о поисковых системах.

Читать дальше →

+19

JustLuckyGuy 30 апр 2008 в 16:17

Что будет если…

1 мин

878

Поисковые технологии *

Особенно про леприкона прикольнуло :)

З.Ы. Перенес в юмор. Спасибо за карму.

Читать дальше →

+108

hedinthedark 22 апр 2008 в 16:49

Новый интернет-поисковик для детей

1 мин

1.1K

Поисковые технологии *

Дети ни в чём не хотят отставать от взрослых и начинают осваивать интернет с самого детства. Можно как угодно относиться к тому, что дети стали меньше времени проводить на свежем воздухе, заменив это просиживанием штанов за компьютером, но спрос рождает предложения…

Разрешите вам представить — AgaKids.ru, поиск в сети интернет для самых маленьких. Всё, начиная от весёленького дизайна, заканчивая жёсткой модерацией контента, индексируемого сервисом, указывает нам на целевую аудиторию, точнее на её возраст. Создатели AgaKids.ru утверждают, что их поисковая система «индексирует не все сайты подряд, а исключая те, контент которых не подходит для детского глаза и детской психики. Перед индексацией сайт проходит жесткую модераторскую проверку».

Ресурс не ограничивается поисковой строкой и являет собой портальную систему для детей со своими сервисами, бесплатной почтовой службой и даже облаком тегов. Порадовал способ организации поисковой выдачи: найденные страницы в виде небольших скриншотов располагаются одна за другой таким образом, что их можно листать, выбирая нужный. Очень наглядно, детям должно понравиться.

Сколько я не пытался смутить поисковик своими обширными знаниями в сфере обсценной лексики и табуированных выражений, он не подавал виду, что понимает о чём речь. Это является явным плюсом системы. Минусом же можно назвать относительно небогатое содержимое поисковой выдачи, однако, будем надеяться, что это дело времени.

via Se La Vie

krisstail 22 апр 2008 в 13:25

Нигма расшифрует сокращения

1 мин

2.5K

Поисковые технологии *

В связи с приближением школьных экзаменов и сессии команда разработчиков интеллектуальной поисковой системы Nigma.ru запустила систему расшифровки аббревиатур. Теперь система распознает практически любые русско- и англоязычные аббревиатуры. Пользователь вводит искомую аббревиатуру и помимо результатов поиска, с левой стороны, Nigma предложит один или несколько вариантов ее значения.

Читать дальше →

+30

alizar 18 апр 2008 в 13:34

Google менял алгоритм 450 раз в прошлом году

1 мин

933

Поисковые технологии *

Не секрет, что в компании Google работает специальная бригада, которая отслеживает качество поисковой выдачи и периодически меняет алгоритм ранжирования. Эти апдейты могут затрагивать большое количество сайтов или только малую их часть.

Но мало кто представлял, насколько рутинными стали апдейты алгоритмов ранжирования в Google, поэтому упоминание этого факта в последнем интервью Уди Манбера довольно любопытно.

Уди Манбер — поисковый гуру, который в данный момент занимает пост вице-президента Google и отвечает за качество поиска. За прошлый год специалисты его отдела изменяли алгоритм ражирования примерно 450 раз, то есть примерно два раза каждый рабочий день. Хотя вручную редактировать непосредственно поисковые результаты запрещено, но всегда можно найти такую настройку, чтобы результаты изменились нужным образом: например, чтобы сайт с позиции № 4 в результатах поиска переместился на позицию № 1, говорит Уди Манбер. Естественно, всё делается исколючительно ради повышения релевантности, а не исходя из каких-то корыстных побуждений.

Большая часть изменений алгоритма направлена на борьбу с так называемыми «поисковыми оптимизаторами», которые пытаются бесплатно повысить позицию своего сайта в поисковой выдаче, используя недокументированные спецификации алгоритма Google. Это нарушает нормальный порядок вещей, когда веб-сайты должны создаваться в первую очередь для людей, а не для поисковых систем, а коммерсанты должны платить за рекламу.

+30

1 2 ...

52 53

55 56 57 58 59

Поисковые технологии *

Google наконец-то сделает RSS для результатов поиска

Индексирование звука появилось на страничке Google Labs

Поиск картинок 2.0

Как квантовые физики PageRank считали

Инновационный механизм Google. Полемика

Что делать с триллионом фотографий в Интернет?

База Google достигла триллиона страниц

В каких странах доля Google наиболее велика

Поиск — это просто

Searchme продолжает изобретать

Microsoft покупает семантический поисковик за $100 млн

Microsoft создаёт плагин к IE7 для коллективной работы

Яндекс поддерживает Sitemap 0.9

Ближайшие события

Найди в сети друзей, у которых можно помыться

Powerset: поиск по-новому?

Wandex или Девять вещей, которые вы не знали о поисковых системах

Что будет если…

Новый интернет-поисковик для детей

Нигма расшифрует сокращения

Google менял алгоритм 450 раз в прошлом году

Вклад авторов