Обновить
25.8

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Google наконец-то сделает RSS для результатов поиска

Время на прочтение1 мин
Количество просмотров1.1K
Компания Google официально подтвердила, что в ближайшее время подключит RSS-фиды к результатам поиска, так что можно будет подписаться на канал по определённому ключевому слову и отслеживать все новые ссылки по этой теме.

Мониторинг поисковой выдачи в данный момент работает только через электронную почту, через рассылку Google Alerts, но это явно не удобно. До настоящего момента Google остаётся единственным из крупных поисковиков, у которого отсутствует подписка на RSS-фиды поисковой выдачи. Тем пользователям, которым был нужен данный функционал, приходилось пользоваться сторонними сервисами для мониторинга Google либо писать собственные скрипты.

По имеющейся информации, долгожданный сервис будет запущен в течение ближайшего месяца.

Индексирование звука появилось на страничке Google Labs

Время на прочтение1 мин
Количество просмотров989
На страничке перспективных разработок Google Labs появился новый проект: GAudi (Google Audio Indexing). Это технология распознавания и индексирования англоязычной речи, которая извлекается из мультимедийных файлов, в том числе из видео.

Последнюю разработку Google де-факто начали тестировать два месяца назад на небольшом количестве видеороликов с портала YouTube: см. новость «На YouTube появился полнотекстовый поиск по видео». Но это был своеобразный «чёрный ящик»: мы просто могли посмотреть, как работает новая фича, но не знали, что реально за ней стоит. Теперь же опубликован отдельный интерфейс для поиска по видеороликам (в этот индекс в будущем можно подгрузить любой видеоконтент из интернета), а также FAQ с информацией.

Из FAQ’а мы узнали, что движок распознавания речи создан с нуля специальной рабочей группой из сотрудников Google. Хотя в этой области идут изыскания уже десятки лет силами множества компаний, но GAudi — это полностью самостоятельная разработка Google.

В данный момент поддерживается только английский язык и система, конечно же, делает много ошибок. Например, в этом видеоролике слово «Czechoslovakia» неправильно распознано как «tech also but there», а слово «free» распознано как «forty», и подобных ошибок довольно много.
Читать дальше →

Поиск картинок 2.0

Время на прочтение2 мин
Количество просмотров5.9K
Недавно открылся интересный сайт: tineye.com, о котором уже как-то писал Mitesha, но тогда он был в стадии закрытого тестирования.



В двух словах принцип работы такой: сайт ведет поиск изображений, но не по ключевым словам, а по исходному изображению загруженному пользователем.

Например:

исходная картинка



найденные


Читать дальше →

Как квантовые физики PageRank считали

Время на прочтение1 мин
Количество просмотров997
А я всегда говорил, что есть связь между теорией алгоритмов и физикой. Вот, первые подтверждения от профессионалов. Группа учёных предложила смотреть на PageRank как на волновую функцию в потенциале, который определяется разностью входящих и исходящих ссылок на страницу. Учитывая это, и применяя простую алгебраическую магию над исходной формулой для PageRank, математики приходят к уравнению типа уравнения Шрёдингера, решением которого является функция PageRank. Человечеству это, кроме осознания удивительных взаимосвязей в природе, даёт ещё и возможность вычислять PageRank (не точно, похоже, а только приблизительно) в три раза быстрее, чем существующим итеративным методом.

Статья доступна здесь: arxiv.org/abs/0807.4325
Читать дальше →

Инновационный механизм Google. Полемика

Время на прочтение2 мин
Количество просмотров806
В июне Harvard Business Review опубликовал большую статью. Журналисты постарались со всех сторон посмотреть на гиганта и проанализировать историю успеха компании. Очевидно, что инновации предложенные и предлагаемые Googl'ом стали и продолжают быть одним из главных компонентов бурного развития компании. Но не только.
Можно было бы и не вспоминать об этой статье, ведь прошло больше месяца, и кто хотел, тот успел ее прочитать. Но на днях тот же Harvard продолжил историю и опубликовал комментарии троих деятелей Рунета:
Читать дальше →

Что делать с триллионом фотографий в Интернет?

Время на прочтение2 мин
Количество просмотров1.8K
Разработка новых подходов к поиску фотографий в Интернет становится сейчас более чем перспективным направлением:

Просто потому что 100 миллиардов изображений появляются ежегодно.

Этому способствует 750 миллионов мобильных телефонов, приобретаемых нами, а также 100 миллионов цифровых фотоаппаратов, уходящих с прилавков ежегодно. В ближайшем будущем тот же Google планирует насчитывать в своем индексе 1 триллион изображений.

Компании улучшают текстовый поиск (Picsearch.com, Facesaerch.com). Другие работают с визуальными запросами (в качестве запроса — изображение, а не текст) или пытаются сочетать текст и картинку (Riya, Picollator.ru).

Читать дальше →

База Google достигла триллиона страниц

Время на прочтение1 мин
Количество просмотров1.2K
База Google достигла знакового рубежа в триллион URL и продолжает расти в геометрической прогрессии.

В этом триллионе учтены только уникальные веб-страницы, после удаления всех дубликатов. Хотя поисковый робот зарегистрировал их все, но фактически не все они реально проиндексированы для полнотекстового поиска, потому что многие слишком похожи друг на друга, а другие содержат только служебную информацию.

Поисковик начал работу в 1998 году с 28 млн страниц в индексе, а к 2000 году база достигла 1 миллиарда. За последние восемь лет индекс вырос ещё в тысячу раз. Как сообщается в официальном блоге, даже разработчики Google не могли предположить такого стремительного роста количества информации веба. В настоящее время интернет прирастает на несколько миллиардов страниц в день.

Чтобы обрабатывать такие массивы данных, Google в последние годы значительно нарастил мощность своих дата-центров. Если десять лет назад одна рабочая станция в серверной стойке способна рассчитать граф PageRank для всего веба (26 млн страниц) за пару часов, и потом неделю поисковик работал без переиндексации, то сегодня Google обновляет индекс гораздо чаще. Связи между триллионом веб-страниц пересчитываются несколько раз в сутки.

В каких странах доля Google наиболее велика

Время на прочтение1 мин
Количество просмотров3.1K
По итогам июня 2008 года поисковая система Google увеличила свою долю в американском интернете до рекордных 69,17%. И без того подавляющее преимущество перед конкурентами стало ещё значительнее (+8 п.п. за год). У Yahoo осталось всего 19,62% рынка, у MSN и Ask.com — по 5,46% и 4,17%, соответственно. На долю остальных 42 поисковых систем, которые отслеживает Hitwise, приходится всего 1,7%.


Однако, есть страны, в которых Google занимает ещё более доминирующее положение, чем в США.
Читать дальше →

Поиск — это просто

Время на прочтение3 мин
Количество просмотров3.7K
Google, конечно, ищет хорошо, но корпоративные ресурсы вывешивать на открытый доступ нельзя, покупать google-mini с его ограничениями тоже не вариант. А поиск по базе внушительных размеров(4 гигабайта текстов, по которым и необходим поиск) надо. А если добаить к поиску по тексту еще и поиск по каким-то параметрам, то тут и google-mini не поможет и совсем страшно становится.

Но не стоит паниковать! На помощь нам приходит Sphinx — поисковый движок с открытым исходным кодом, который можно прикрутить практически к чему угодно не прилагая особых усилий

Читать дальше →

Searchme продолжает изобретать

Время на прочтение2 мин
Количество просмотров1.1K
Searchme StacksСо времени последнего поста о визуальной поискововой системе Searchme у неё появились новые функции медиапоиска и подборок (Stacks). Поиск по видео — вещь не новая (хотя её продолжают изобретать), а вот возможность взмахом мыши создавать галереи интересна.

До этого особенности поисковика были только в визуальном представлении Cover Flow (кажется, добавили выделение рамкой слов запроса на скриншоте) и предположение категории, из-за нехватки которого в обычном поисковике надо вписывать исключения.
И да, AdBlock до сих пор блокирует Searchme, но только скриншоты сайтов, так что надо добавить исключение "@@searchme.com".

Читать дальше →

Microsoft покупает семантический поисковик за $100 млн

Время на прочтение1 мин
Количество просмотров642
Один из самых перспективных разработчиков технологий семантического (смыслового) поиска, компания Powerset, переходит в собственность Microsoft. По неофициальной информации, сумма сделки может составлять около $100 млн. Это нормальная цена для стартапа, который называли потенциальным конкурентом Google.

Технологии семантического поиска подразумевают, что поисковик пытается анализировать истинный смысл каждого поискового запроса, что на порядок повышает качество выдачи. Как видно на скриншоте (это версия Powerset под iPhone), технология способна находить синонимы фраз (“pat’s rocket” = “Roast Beef”) и учитывать их при поиске.

Однако, многие эксперты оспаривают реальность воплощения в жизнь теории семантического поиска, и даже Google находит эту технологию лишь частично интересной. Наняв в штат нескольких специалистов по семантическому поиску, она всё-таки не применяет её в полной мере. На самом деле семантический поиск выглядит революционным только в теории, а на практике пока никто не смог его нормально реализовать.
Читать дальше →

Microsoft создаёт плагин к IE7 для коллективной работы

Время на прочтение1 мин
Количество просмотров787
Исследовательское подразделение Microsoft Research анонсировало плагин SearchTogether к браузеру Internet Explorer 7. Этот плагин превращает поиск в интернете в коллективный процесс: с тематическими группами, чатом, системой рекомендаций, рейтингами. Всё это должно облегчить совместную работу в интернете. Плагин также сохраняет поисковые сессии и пометки пользователей.



Внешний вид браузера полностью меняется. Окно делится на несколько частей: крайняя слева колонка отведена личным пометкам, следующая колонка сочетает в себе рейтинги и комментарии других пользователей, а справа вверху добавляется колонка для обмена сообщениями с пользователями рабочей группы.

Демонстрацию работы программы можно посмотреть на видео.
Читать дальше →

Яндекс поддерживает Sitemap 0.9

Время на прочтение1 мин
Количество просмотров1.1K
Михаил Сенин и разработчики сервиса Я.Вебмастер сегодня сообщили о поддержке поисковиком Yandex формат Sitemap.

Вы можете сообщить Яндексу о наличии файла Sitemap для сайта двумя способами:


Робот ждёт ваших подсказок!

Ближайшие события

Найди в сети друзей, у которых можно помыться

Время на прочтение1 мин
Количество просмотров658
Совершенно случайно обнаружилась приятная мелочь, от которой стало теплее на душе.

Набрал в Яндексе «горячая вода» и получил возможность узнать, когда отключают горячую воду.
На самом деле, у меня воды уже нет неделю, о чем мне и сообщили, предлагая сперва водонагреватели, потом бани и, в конце концов, пойти просто помыться:
Читать дальше →

Powerset: поиск по-новому?

Время на прочтение1 мин
Количество просмотров1.1K
Компания Powerset, о которой уже неоднократно упоминалось в течение последних пары лет как о перспективном стартапе, вчера таки «разродилась» одноименным поисковым сервисом. В отличие от «стандартных» поисковых машин, Powerset предлагает пользователю поиск фактов, расшифровку смысла значений и ответы на заданные вопросы. На данный момент в качестве базы данных поисковик использует ресурсы Wikipedia и Freebase.

«Поиграв» некоторое время с запросами и пролистывая списки выдачи, я не то чтобы пришел в восторг. Но эмоции в целом положительные. Для начала о минусах. Во-первых, заявленной Freebase в списках выдачи обнаружить не удалось. Поиск идет только по статьям Wikipedia. Во-вторых, поиск осуществляется только по ключевым словам на английском языке. Русский язык Powerset понимать отказывается. Ну да ладно, разработчики и не планировали изначально поддержку нескольких языков. Надеюсь, в будущем они этот «недочет» исправят. Также отмечу, что на все вопросы Wikipedia дать ответ не может. Соответственно, Powerset тоже.

Но то, что есть – подкупает. Удобством (мило, «юзабельно» и без лишних наворотов), простой и очень даже полной подборкой информации, найденной по той или иной фразе или вопросу. Так (обратимся к примерам на самом сайте поисковика), если ввести в поле поиска фразу «actors in pulp fiction», то Powerset не только выведет списочек актеров, снимавшихся в «Криминальном чтиве» (с фотографиями, если они есть), но и целый ворох дополнительной информации как об актерах, так и о самом фильме. Интересно и перспективно. Еще бы попробовать все это на русском…

via ITNews

Wandex или Девять вещей, которые вы не знали о поисковых системах

Время на прочтение3 мин
Количество просмотров6.5K

На рисунке: Большая тройка. Или…?

Мы считаем поисковые системы чем-то само собой разумеющимся. Они существуют, потому что обязаны существовать. Без них поиск нужной нам и адекватной информации среди многих миллионов веб-страниц был бы почти неразрешимой задачей.

Вот девять, скорее всего, неизвестных вам фактов о поисковых системах.
Читать дальше →

Новый интернет-поисковик для детей

Время на прочтение1 мин
Количество просмотров1.1K
Дети ни в чём не хотят отставать от взрослых и начинают осваивать интернет с самого детства. Можно как угодно относиться к тому, что дети стали меньше времени проводить на свежем воздухе, заменив это просиживанием штанов за компьютером, но спрос рождает предложения…

Разрешите вам представить — AgaKids.ru, поиск в сети интернет для самых маленьких. Всё, начиная от весёленького дизайна, заканчивая жёсткой модерацией контента, индексируемого сервисом, указывает нам на целевую аудиторию, точнее на её возраст. Создатели AgaKids.ru утверждают, что их поисковая система «индексирует не все сайты подряд, а исключая те, контент которых не подходит для детского глаза и детской психики. Перед индексацией сайт проходит жесткую модераторскую проверку».

Ресурс не ограничивается поисковой строкой и являет собой портальную систему для детей со своими сервисами, бесплатной почтовой службой и даже облаком тегов. Порадовал способ организации поисковой выдачи: найденные страницы в виде небольших скриншотов располагаются одна за другой таким образом, что их можно листать, выбирая нужный. Очень наглядно, детям должно понравиться.

Сколько я не пытался смутить поисковик своими обширными знаниями в сфере обсценной лексики и табуированных выражений, он не подавал виду, что понимает о чём речь. Это является явным плюсом системы. Минусом же можно назвать относительно небогатое содержимое поисковой выдачи, однако, будем надеяться, что это дело времени.

via Se La Vie

Нигма расшифрует сокращения

Время на прочтение1 мин
Количество просмотров2.5K
В связи с приближением школьных экзаменов и сессии команда разработчиков интеллектуальной поисковой системы Nigma.ru запустила систему расшифровки аббревиатур. Теперь система распознает практически любые русско- и англоязычные аббревиатуры. Пользователь вводит искомую аббревиатуру и помимо результатов поиска, с левой стороны, Nigma предложит один или несколько вариантов ее значения.
Читать дальше →

Google менял алгоритм 450 раз в прошлом году

Время на прочтение1 мин
Количество просмотров933
Не секрет, что в компании Google работает специальная бригада, которая отслеживает качество поисковой выдачи и периодически меняет алгоритм ранжирования. Эти апдейты могут затрагивать большое количество сайтов или только малую их часть.

Но мало кто представлял, насколько рутинными стали апдейты алгоритмов ранжирования в Google, поэтому упоминание этого факта в последнем интервью Уди Манбера довольно любопытно.

Уди Манбер — поисковый гуру, который в данный момент занимает пост вице-президента Google и отвечает за качество поиска. За прошлый год специалисты его отдела изменяли алгоритм ражирования примерно 450 раз, то есть примерно два раза каждый рабочий день. Хотя вручную редактировать непосредственно поисковые результаты запрещено, но всегда можно найти такую настройку, чтобы результаты изменились нужным образом: например, чтобы сайт с позиции № 4 в результатах поиска переместился на позицию № 1, говорит Уди Манбер. Естественно, всё делается исколючительно ради повышения релевантности, а не исходя из каких-то корыстных побуждений.

Большая часть изменений алгоритма направлена на борьбу с так называемыми «поисковыми оптимизаторами», которые пытаются бесплатно повысить позицию своего сайта в поисковой выдаче, используя недокументированные спецификации алгоритма Google. Это нарушает нормальный порядок вещей, когда веб-сайты должны создаваться в первую очередь для людей, а не для поисковых систем, а коммерсанты должны платить за рекламу.

Вклад авторов