• Убиенным операторам посвящается

      Для поисковой машины "Вершки Рунета" появилась возможность посмотреть, кто ссылается на страницу (из страниц, находящихся в базе поисковика), для этого на странице результатов поиска нужно нажать на ссылку “Кто ссылается” под выбраным результатом поиска. Будут показаны страницы, ссылающиеся на данную и соответствующие тому же поисковому запросу.

      Если в URL страницы, показывающей ссылающиеся страницы, обнулить CGI-переменную &q, то можно помотреть все страницы, ссылающиеся на данную.
    • AOL France отказывается от Exalead

        Сайт AOL France отличался до сих пор от других порталов группы AOL своим собственным поисковиком, основанным на технологии Exalead. Эта эпоха заканчивается, поскольку контракт, который связывал Exalead и AOL France, не будет продлён. Отныне, технологии поиска порталу будет поставлять Google.

        Во Франции не осталось ни одного сколько-нибудь значимого портала, использующего технологию Exalead (Netscape.fr также был потерян в своё время). Поисковику не остаётся ничего, кроме как наращивать аудиторию своего собственного сайта.

        В Голландии Exalead подписывает соглашение с IIse Media.

        //Référencement, Design et Cie
      • Лохси коэффициент

          Для проверки возможного влияния ТИЦ на ранжирование сайтов, для значений индекса популярности в поисковой машине «Вершки Рунета» введены поправочные коэффициенты, равные значениям ln(CY) соответствующих сайтов.

          Результаты оказались двоякими: с одной стороны, это на первый взгляд улучшило выдачу, дав больший вес известным сайтам Рунета, с другой стороны наблюдается эффект «выезда» крупных порталов по непрофильным запросам, например, по запросу «президент» поднялись сайты информационных агентств rian.ru и lenta.ru, как имеющие одни из высоких значений CY.

          Если бы значение CY было зафиксировано каким-нибудь интервалом, скажем от 0 до e^10, и расчитывалось внутри каждой темы независимо (т.е. все «самые главные» сайты внутри каждой темы имели бы одинаковый самый высокий рейтинг), то такой попровочный коэффициент был бы более полезен в ранжировании (по крайней мере для «Вершков Рунета» :).
        • И Exalead тоже ищет

            Возращаясь к тесту апдейтов поисковиков от «Ашманов и партнёры», проверим, а насколько хорош Exalead для поиска в Рунете.

            Замечу, что с момента моей первой соноты, тест Ашманова немного изменился, в него были добавлены новые запросы и проверочные сайты для них, другие же запросы были убраны. Я тестировал Exalead по запросам, входившим в тест качества на момент моей первой соноты.

            Всего 21 запрос. Exalead дал в ответах проверочные сайты на 12 из них. Для этих 12 запросов средняя позиция проверочных сайтов равна 1.5, что превосходит показатель Google (1.64), лидирующего в данный момент в этом тесте у «Ашманов и партнёры».

            Похоже у Exalead нет поддержки русской морфологии (или её тщательно скрывают), тем не менее, этот поисковик уже достаточно хорошо ищет по Рунету. Для справки, в базе Exalead на данный момент находится сыше 8 млрд. проиндексированых страниц.
          • Хабр-СРА?

              Было бы неплохо открыть на Хабре нечто вроде Сайто-Рейтингового Агентства и распространить идею кармы на сайты — т.е создать нечто воде Хабра каталога сайтов, где вести обсуждение этих сатов, оценивать все тонкости их дизайна, полезности и популярности, ну и выводить общую оценку, на подобие кармы, PR, CY и т.д. Главное вывести из-под подозрений в махинациях с ранжированием «правильных» сайтов, ну и сделать народный рейтинг, чтобы каждый мог внести свою лепту.

              Если рейтинг ещё и в свободный доступ отдавать (результаты для сайтов скачивать/получать для всех сацтов имелось в виду), то я с удовольствием его бы заюзал для своих нужд :)
            • Многокритериальный поиск

                Газета New York Times опубликовала заметку Google Answer to Filling Jobs Is an Algorithm (также доступную здесь), рассказывающую о том, как Google старается не потонуть в примерно 100000 резюме, подаваемых ежемесячно на вакантные позиции. Помимо расширения онлайновой формы заявления, теперь запрашивающей больше информации о кандидате, также сообщается о введении специальных алгоритмов, оценивающих каждое заявление на вакансию и присваивающих каждому такому заявлению некий коэффициент соответствия от 0 до 100.

                Сведя каждое заявление к абстрактному числу (своего рода ранжирующая функция), несложно подключить обычный поиск, который у Gogle уже есть. Тем самым Google несложно будет сделать отдельные поисковики по всем вакансиям в мире, а также по аналогичным сервисам: анкетам сайтов знакомств, покупки/продажи/аренды недвижимости и т.п., где требуется многокритериальный поиск… Возможно, нечно подобное и появится скоро, эти ниши явно денежные :)

                //3form (см. также упоминание о Google Online Assessments, — Google готовит нечто похожее на Brainbench?).
              • На 2007

                  Следуя моде давать прогнозы на грядущий год, выскажу предположение, что если не в следующем, то скоро появится новый стандарт сайта компании, где вместо уже привычной заглавной страницы с иерархическим меню самого различного покроя, появится google-like интерфейс — заглавная страница будет содержать “визитку” компании плюс строку ввода поисковика по всему объёму предоставлемой информации. Кстати, компания Google уже выпустила пакет Google Apps for Domain для содания своего “google.com”, оталось интегрировать это с Google Appliance или Google Mini, плюс желательно возродить Google Answers в локальном варианте (типа Google Answers Mini) и прототип CMS нового поколения будет готов.

                  Крупные компании уже давно могут предложить гораздо больше информации потенциальному клиенту о своих товарах и услугах, нежели можно удобно эти данные расположить в иерархических меню, да ещё так, чтобы пользователь разобрался со структурой с первого захода. А так будет всем “интуитивно понятный” интерфейс поисковой строки.

                  Конечно, строка поиска стандартно присутствует почти на каждом сайте, но зачатую на отшибе в правом вернем углу и зачастую чисто наминально, ибо возможности поиска, “зашитые” в некоторые CMS, весьма куцые. А будет наоборот — строка поиска будет в центре внимания и самым крупным объектом на странице, а меню станет вспомогательным инструментом и будет меняться в зависимости от того, что ищет пользователь, позволяя быстрее ориентироваться в полученых результатах или уточнять запросы в один/два клика.
                • Wikiasaria — комедия ошибок

                    Волна публикаций, второй день бродящая в инете, о готовящемся «убийце» поисковиков Google и Yahoo!, проекте Wikiasaria, созданом Джимми Уэльсом (Jimmy Wales) основателем Википедии, скорее всего похожа на комедию ошибок. Вот что пишем сам Джимми в девелоперском листе (открывшемся, кстати, всего пару дней назад):

                    The press coverage this weekend has been a comedy of errors. Wikiasari was not and is not the intended name of this project… the London Times picked that off an old wiki page from back in the day when I was working on the old codebase and we had a naming contest for it. Nice name, though, so we might as well use it for the codename of the software. :)

                    And then TechCrunch ran a screenshot of something completely unrelated, thus unfortunately perhaps leading people to believe that something is already built about about to be unveiled. No, the point of the project is to build something, not to unveil something which has already been built. :)


                    Иначе говоря, проект такого поисковика только-только стартовал, ещё не имеет собственного имени, даже еще не выбран движок поисковика, на базе которого будут строить (возможно это будут старые наработки Джимми, возможно Nutch + Lucene, возможно что-то еще, предлагаемое в девелоперсокм листе).
                  • Топ 256 слов Рунета

                      Топ256 слов Рунета — наиболее популярные слова, используемые на заглавных страницах сайтов Рунета. По данным поисковой машины Вершки Рунета. Для каждой проиндексированой страницы автоматически строится реферат, состоящий из трёх наиболее релевантных предложений, и учитываются только по одному вхождению каждого слова в такой реферат.
                    • Превьюшки в результатах поиска

                        Для поисковой машины «Вершки Рунета» добавлен показ превьюшек заглавных страниц сайтов, куда ведут ссылки со страницы результатов поиска. Чтобы увидеть превьюшку нужно навести мышиный курсор на соответствующую ссылку. Эта функция реализована с ипользованием сервиса Websnapr.com.

                        Ещё одной отличительной чертой этого поисковика является показ авторефератов найденых документов — трёх наиболее важных предложений данного документа (безотносительно слов запроса).

                        Хотелось бы услышать комментарии насколько удобен вывод результатов поиска в такой форме.
                      • Quaero =… + Quintura + Polar Rose +…

                          Согласно заметке в International Herald Tribune, в проекте Quaero, создания общеевропейского поисковика, также принимают участие компания Quintura, российского происхождения, предоставляющая графический интерфейс, позволяющий пользователям уточнять запрос, и шведская компания Polar Rose, рабатывающая поисковый движок, использующий технологии распознавания лиц.

                          По слухам, европейское отделение Accoona также может принять участие в проекте Quaero.
                        • Немного когнитивности

                            Цвет точки на карте Энзоль соответствует значению Popularity Rank страницы, а сами точки упорядочены слева направо и сверху вниз в порядке возрастания числа хопов (hops) соответствующих веб-страниц. Страницы, явно указанные в конфиге поисковика, получают значение hops равное 0, страницы, предлагаемые к индексированию через веб-форму или были найденые в одном из интерент-каталогов, получают значение hops равным 1. Все остальные страницы при первом попадании в базу поисковика получают значение hops на 1 больше, чем имела страница, где была обнаружена ссылка на эту страницу. В такой сортировке сглаженная карта выглядит так:
                            Читать дальше →
                          • Немцы выходят из Quaero

                              Хартмут Шауерте (Hartmut Schauerte), министр экономики Германии, на ИТ-саммите в Постдаме заявил о планах правительства Германии выйти из совместного с Францией проекта создания общеевропейского поисковика Quaero и создании национального проекта Theseus, направленого на создание немецкого поисковика.

                              Причиной разногласий отмечают стремление французской стороны к созданию классического поисковика, в то время как немецкая сторона не хотела бы вступать в прямую конкуренцию с Google и другими лидерами этого рынка, а желала сосредоточить усилия на развитии семантического интернета.

                              Впрочем, немецкое правительство не будет призывать покинуть проект Quaero других его участников из Германии.

                              //Multilingual Search
                            • Кластеризация результатов Google

                                Оказывается, если в Google (англоязычном портале Google.com, для русской версии это не работает) ввести запрос, состоящий из названия какого-нибудь лекарства, то поисковик предложит уточнить запрос, разделив документы на кластеры: