Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Лохси коэффициент

Поисковые технологии *
Для проверки возможного влияния ТИЦ на ранжирование сайтов, для значений индекса популярности в поисковой машине «Вершки Рунета» введены поправочные коэффициенты, равные значениям ln(CY) соответствующих сайтов.

Результаты оказались двоякими: с одной стороны, это на первый взгляд улучшило выдачу, дав больший вес известным сайтам Рунета, с другой стороны наблюдается эффект «выезда» крупных порталов по непрофильным запросам, например, по запросу «президент» поднялись сайты информационных агентств rian.ru и lenta.ru, как имеющие одни из высоких значений CY.

Если бы значение CY было зафиксировано каким-нибудь интервалом, скажем от 0 до e^10, и расчитывалось внутри каждой темы независимо (т.е. все «самые главные» сайты внутри каждой темы имели бы одинаковый самый высокий рейтинг), то такой попровочный коэффициент был бы более полезен в ранжировании (по крайней мере для «Вершков Рунета» :).
Всего голосов 8: ↑3 и ↓5 -2
Просмотры 534
Комментарии 7

«Вебальта» показывает «уровень доверия» каждого сайта в звездочках

Чулан
Новый российский поисковик «Вебальта» старается ни в чем не отставать от крупнейших поисковых систем. В частности, для ранжирования сайтов среди результатов поиска они используют специальный алгоритм «взвешивания» входящих ссылок. Аналогичные системы на Google и «Яндексе» называются PageRank и тИЦ (тематический индекс цитирования). В системе «Вебальта» это WebaltaRank (WR).

Кроме количества входящих ссылок и их рейтинга, при вычислении WR учитывается множество дополнительных факторов, в том числе время регистрации доменного имени и репутация хостинг-провайдера. Рейтинг WR обновляется несколько раз в месяц.

Отличительной особенностью WR является то, что каждый сайт может поместить у себя на странице особый значок, который будет показывать WR этого сайта по версии поисковой системы. Значок «Уровень доверия» демонстрирует определенное количество звездочек (от нуля до пяти) и численное значение WR. Например, сайт ya.ru заслужил четыре звездочки и WR 82, а yandex.ru — четыре с половиной звездочки и WR 98.
Рейтинг 0
Просмотры 249
Комментарии 4

Использование whois-информации для ранжирования результатов поиска

Чулан
Могут ли поисковые системы использовать данные whois для ранжирования страниц? Использует ли Google эту информацию? В свете последних событий эти вопросы становятся все более актуальными.

Интерес к данной проблеме возник после того, как были опубликованы заявки Go Daddy на получение нескольких патентов. Как известно, Go Daddy — один из крупнейших в интернете регистраторов доменных имен, который непосредственно занимается заполнением базы данных Whois.

Согласно тексту патентных заявок, компания Go Daddy предлагает добавлять в опубликованные данные Whois дополнительную информацию о репутации сайта. Данная информация будет доступна для сторонних сервисов, которые могут использовать ее в различных целях. Например, поисковые системы могут использовать ее для ранжирования результатов поиска.

Предложение Go Daddy похоже на то, что описывается в прошлогоднем патенте Google о получении информации на основе исторических данных. Правда, там напрямую не говорилось о базе данных Whois.

Вообще говоря, остается неясным, соответствует ли предлагаемое использование информации whois тем целям, ради которых составлялась эта база данных. Предназначение Whois изначально совсем не предполагало использование этого сервиса коммерческими поисковыми системами для улучшения качества своей работы.

Три заявки Go Daddy на патенты были поданы 20 октября 2004 г. и опубликованы сейчас под номерами (20060095404, 20060095459 и 20060095586).

Заявка Google была опубликована 31 марта 2005 г. Если проанализировать текст всех этих документов, то можно предположить несколько вариантов, как Google может прямо сейчас использовать информацию из базы whois.

* Дата регистрации домена может быть использована для определения «возраста документа».

* Дата окончания срока действия регистрации доменного имени — как фактор при определении авторитета документов.

* Изменения регистрационной информации и частота этих изменений, включая контактную информацию, хостера и т.д., может отрицательно влиять на рейтинг сайта при ранжировании.

* Информация о сервере имен и о других сайтах на этом сервере тоже может влиять на репутацию каждого конкретного веб-сайта.

Использует ли Google эту информацию? Имеются некоторые свидетельства того, что это вполне возможно. Например, недавно компания Google официально зарегистрировалась в качестве доменного регистратора.
Рейтинг 0
Просмотры 391
Комментарии 1

GoogleBrowser — карта интернета в виде графа

Чулан
Теперь в интернете можно посмотреть «карту Сети», она создается в прямом эфире на основе информации о «похожих сайтах», которую выдает Google. Достаточно указать любой URL — и на экране появляется бесконечная паутина узлов, связей и переплетений.

Указанный пользователем URL является отправной точкой для построения карты. Алгоритм работает просто: в поисковую систему Google отправляется запрос на получение информации о наиболее похожих сайтах. Затем — о сайтах, наиболее похожих на эти сайты, и так далее. Если между сайтами на втором, третьем или последующих этапах обнаруживаются взаимосвязи, то они тоже соединяются между собой. Таким образом, создается обширная карта интернета. По крайней мере, карта того участка Сети, в котором находится указанный сайт.

Карту интернета можно представить в виде графа, где веб-страницы отображаются в виде точек, а гиперссылки — в виде линий. Такую модель, между прочим, использует Google для ранжирования веб-страниц. Именно с помощью такой карты можно обнаружить «похожие» сайты — они будут располагаться на графе недалеко друг от друга. В системе GoogleBrowser используется обратный принцип — на основе информации о близких сайтах строится граф.

На этой карте каждый «узел» снабжен аннотацией. Если провести над ним курсор мыши, то появится информационное окошко. По двойному нажатию на узел посылается запрос на Google на получение информации о десяти URL-адресах, которые наиболее похожи на этот сайт.

С помощью такого инструмента можно обнаружить интересную информацию, например, «скрытые» связи между сайтами. Это напоминает теорему о «шести рукопожатиях», которые якобы связывают любых двух людей на нашей планете. Так же и в интернете можно обнаружить цепочку, которая связывает любые два веб-сайта. Кстати, есть специальная функция для такого расследования. К сожалению, GoogleBrowser не совсем корректно работает с кириллицей, что несколько осложняет восприятие информации.

Может быть, кому-то будет интересно, что GoogleBrowser — не единственный инструмент, созданный с помощью технологии построения графов TouchGraph. В интернете можно найти и другие любопытные разработки, например, Amazon Browser для построения карты взаимосвязи литературных произведений или PubMed Browser для медицинской литературы.
Рейтинг 0
Просмотры 549
Комментарии 2

Yahoo пытается запатентовать концепцию «интересности»

Чулан
Рейтинг интересности на сайте Flickr — это некие секретные алгоритмы, которые особым образом динамически вычисляют абсолютный рейтинг фотографий на сайте. Для расчета «интересности» фотографии учитываются различные параметры, количественные (число просмотров и комментариев) и качественные: откуда приходят пользователи, чтобы посмотреть фото, кто и когда комментирует фотографию, кто заносит ее в избранное, смысловые теги для данного снимка и многие другие параметры.
Читать дальше →
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 191
Комментарии 4

Анализ «социального» алгоритма ранжирования Google

Чулан
Применение нового алгоритма связано с тем, что компанию Google, очевидно, не устраивало качество поисковой выдачи по самым «горячим» запросам, которые связаны с недавно произошедшими событиями. Это известная проблема для многих поисковых систем, и решается она тем, что в основную поисковую выдачу включаются результаты с поиска по блогам и поиска по новостям. Примерно таким же образом ее решила и компания Google, но только она предпочитает не выделять графически «инородные» результаты, а оформляет их точно так же, как и обычные сайты.
Читать дальше →
Всего голосов 17: ↑12 и ↓5 +7
Просмотры 359
Комментарии 2

Новая версия движка визуализации связей от TouchGraph

Интерфейсы *
Вот уже два года дизайнеры интерфейсов из компании TouchGraph продолжают совершенствовать свой уникальный Java-браузер, который умеет визуализировать в виде графов связи между веб-сайтами и любыми другими объектами (например, его можно использовать для визуализации связей между юзерами в социальных сетях типа «Хабра»). Этот браузер значительно усовершенствован с того времени, как мы впервые о нём рассказывали год назад.

Программа представляет собой Java-апплет (не распознаёт кириллические кодировки) с множеством дополнительных настроек. Отдельные апплеты загружаются для обработки результатов Google и для обработки результатов Amazon. В первом случае демонстрируются сайты и связи между ними на основании информации Google о «похожих сайтах» (команда [related:]).


Читать дальше →
Всего голосов 22: ↑19 и ↓3 +16
Просмотры 1.4K
Комментарии 17

Подробности о работе отдела Search Quality

IT-компании
Газета NY Times опубликовала огромную статью о том, как, кто и почему в компании Google изменяет алгоритмы ранжирования. В статье приведено множество интересных фактов о том, как работает отдел поискового качества (Search Quality). Засланный журналист провёл там целый день.

Как известно, тонкая настройка выдачи происходит в поисковой системе почти каждый день. Отдел поискового качества Google вносит в алгоритмы ранжирования около шести крупных и мелких изменений в неделю. Руководит процессом 39-летний программист индийского происхождения Амит Сингал (Amit Singhal). Как и другим элитарным программистам, ему присвоена почётная должность Google Fellow.

После своего прихода в Google в 2000 году, м-р Сингал разработал сложную систему ранжирования документов, учитывающую более 200 факторов, которые на профессиональном сленге называют «сигналами». Рейтинг PageRank — только один из таких сигналов.
Читать дальше →
Всего голосов 29: ↑26 и ↓3 +23
Просмотры 253
Комментарии 31

Мэтт Каттс о социальном поиске: «Google не против ручного вмешательства»

Поисковые технологии *
Через несколько дней после презентации первого в мире социального поисковика Mahalo.com, который основан исключительно на ручной сортировке контента, руководители Google сказали, что они не против такого подхода.

«Люди думают о Google как о чистых алгоритмах, — сказал Мэтт Каттс, один из ведущих специалистов Google по поисковым алгоритмам, вчера на конференции Search Marketing Expo. — Мы только недавно начали сообщать тот факт, что мы не против некоторого ручного вмешательства».

Мэтт Каттс имеет в виду некоторые элементы социального поиска, когда результаты поиска по каждому поисковому запросу вручную подбираются миллионами трудолюбивых пользователей. Именно так работает поисковая система Mahalo.com, презентация которой состоялась на днях.
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 542
Комментарии 8

Ранжирование важности слов и фраз в интернет статьях сообществом пользователей

Я пиарюсь
Выкладываю одну из простейших идей, из которой можно будет вероятно при необходимости получать прибыль: ранжирование важности слов и фраз в интернет статьях и новостях сообществом пользователей — каждый пользователь может на странице которую читает выделить слово или фразу которую считает самой важной (не более слов, например 5), на которые стоит обратить внимание следующим читателям т.е. ключевые слова и отправить ее системе (например нажав ctrl+e или спецкнопку). Слова которые выделили больше всего читателей будут выделены красным, поменьше зеленым и т.п. (или будут иметь различные размеры) — можно использовать для автоматического определения тегов + можно будет использовать для поисковых систем которая будут искать именно по ним. При этом облако тегов будет более релевантным так как содержит только слова использованные в тексте (да и поисковики кажется к этому относятся лучше). Также это устранит необходимость набивать теги самостоятельно автору (если лень как часто бывает). Автор также сможет определить — правильно он донес свою мысль или нет.
Идея появилась после чтения рассылки «скорочтение память интеллект». Как я понимаю, человеку чтобы понять о чем идет речь, и стоит ли продолжать читать текст достаточно нескольких слов. Вот эти ключевые слова и предлагаю выделять. То есть прочитав описание например идею предлагаемого мною сервиса я выделю в нем 2-3 ключевые на мой взгляд фразы, второй человек выделит свои — следующему уже будет достаточно бегло просмотреть текст, остановившись на отмеченных фразах чтобы определить — интересно это ему или нет.
В условиях стремительного роста объема информации и новостей, эта технология должна существенно облегчить нагрузку на пользователей.

Для стимулирования интереса пользователей участвующих в определении важности слов — можно организовать своеобразную игру (требует регистрации) — под текстом или рядом с образованными таким образом тегами указывать какой пользователь наиболее точно первым определил наиболее занчимые слова (с которым согласились остальные).

+ ограничение не более 1 попытки с одного IP для предотвращения хулиганства.

Блог называется партнерство во имя реализации идеи — вот условия для партнеров тут а еще конкретнее тут. Посмотрим что из этого получится :)
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 565
Комментарии 10

Кармаграмма или диаграммный способ ранжирования в соц.сетях

Чулан
один из вариантов Цифровое ранжирование, или как я его называю — «линейное». С ним все хорошо знакомы — пять звездочек или две стрелки вверх и вниз, два знака + и -, два слова «нравится»/«не нравиться», в итоге каждый пользователь-топик-комент-етс обретает некий вес выраженный в виде числа. Линейное ранжирование на мой взгляд идеально подходит для устранения «плохишей» мешающих развитию сети. Так же оно формирует «эго» сети — харизму, «внутренний голос», узнаваемый вид.

примерный вид кармаграммыПредлагаю обсудить возможность принципиально другого способа ранжировать пользователей и контент, не основываясь на сведении всех качеств в одно и представлении их в виде числа, а наоборот — их выделения, перечисления всех присущих субъекту качеств, оценке каждого из них в отдельности, и удобного представления полученной многомерной картины.
Читать дальше →
Всего голосов 10: ↑7 и ↓3 +4
Просмотры 457
Комментарии 31

Страницы с popunder-баннерами могут ранжироваться ниже

IT-компании
YES YES YES!!!
Конечно, это не сильно изменит ситуацию, но первый шаг начат.
Не знаю, как вас, но меня просто жутко выводят из себя popunder со всякой порнухой и нечистью. Жуть просто. И вот наконец-то приняты хоть какие-то меры борьбы с этим. Яндекс будет занижать выдачу для сайтов с popunder рекламой. Просто супер! =)
Здесь официальное сообщение от Яндекса
Всего голосов 151: ↑141 и ↓10 +131
Просмотры 1.8K
Комментарии 130

Как устроено ранжирование

Блог компании «Sphinx Technologies Inc» Sphinx *
Со временем Sphinx оброс большой кучей режимов поиска и ранжирования. Регулярно возникают вопросы про разное (от «как вытащить документ на 1е место» до «как рисовать от 1 до 5 звездочек в зависимости от степени совпадения»), которые на самом деле суть вопросы про внутреннее устройство тех режимов. В этом посте расскажу все, что вспомню: как устроены режимы поиска и режимы ранжирования, какие есть факторы ранжирования, как в точности рассчитываются факторы, как финальный вес, все такое. И, конечно, про звездочки!
Читать дальше →
Всего голосов 52: ↑48 и ↓4 +44
Просмотры 23K
Комментарии 43

Скорость загрузки страниц повлияет на ранжирование

IT-компании
Вполне вероятно, что уже в следующем году Google модифицирует алгоритмы ранжирования таким образом, что будет учитывать не только релевантность контента и PR, но также и скорость загрузки каждой страницы, сказал один из ведущих программистов компании Мэтт Каттс (Matt Cutts) в интервью WebProNews.com.

Это будет очередной мерой, которые предпринимает Google для всеобщего «ускорения интернета», наряду с разработкой протокола SPDY и других инновационных технологий. Для веб-мастеров недавно открыт раздел Site Speed со списком справочных ресурсов и инструментов для оптимизации производительности сайта. Некоторые из этих инструментов (Page Speed и Closure) созданы самой компанией Google, а другие от сторонних разработчиков.
Читать дальше →
Всего голосов 92: ↑86 и ↓6 +80
Просмотры 1.3K
Комментарии 113

Как видео-SEO окончательно вылезти из пелёнок?

Чулан
Перевод
Это мой перевод статьи. Оригинальная статья от Shane Snow.

video SEO imageПубликация видео в сети была детской забавой на протяжении многих лет и видеоролики занимали высокие места в поисковых системах в лучшем случае каким-то загадочным образом, а в худшем просто терпели крах. Рост объёмов публикаций видео в сети ускоряется быстрее, чем когда-либо, и хотя видео-SEO, кажется, осталось позади всей отрасли, оно, наконец, начинает догонять, благодаря некоторым интересным технологиям, которые, мы надеемся, дадут дополнительные стимулы издателям создающим замечательный видео-контент.
Читать дальше →
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 574
Комментарии 3

Новый Яндекс.Сервер — поранжируем?

Блог компании Яндекс
Сегодня вышел новый Яндекс.Сервер — продукт для организации поиска по сайту или в корпоративной сети, использующий технологии большого поиска Яндекса.
В новой версии особое внимание мы уделили качеству поиска, добавив новые возможности по управлению ранжированием.

Теперь можно перемещать найденные документы на первую или последнюю позицию выдачи, указав запросы и ссылку на документ, который необходимо сделать первым или последним. Зачем это нужно? Корпоративные сайты, к примеру, могут по запросу имени сотрудника поставить на первое место страницу с его биографией. А интернет-магазины могут по запросу с упоминанием товара в качестве первой страницы указать карточку этого товара.

В новой версии Яндекс.Сервера реализовано ссылочное ранжирование, которое учитывает ссылки на документ при расчете его релевантности. Кроме того, расширился список поддерживаемых документов: MS Office 2007, Open Office и PDF-файлы версии 1.7.

Скачайте Яндекс.Сервер, находите больше и точнее.

Мария Липатова и команда Яндекс.Сервера
Всего голосов 65: ↑55 и ↓10 +45
Просмотры 10K
Комментарии 44

Самая таинственная выдача Google

Чулан
Один из разработчиков Beerby (программа для любителей пива) обратил внимание на странный факт: сайт получает необычно много поискового трафика по запросу [cake central]. Он проверил и ужаснулся: абсолютно левая страница занимает первое место в поисковой выдаче Google, опережая сайты cakecentral.com и прочее при том, что на этой страницы ни разу не упоминаются слова CAKE или CENTRAL.

Вопрос к оптимизаторам: как такое возможно и как этот глюк можно воспроизвести на другом запросе?
Читать дальше →
Всего голосов 36: ↑15 и ↓21 -6
Просмотры 168
Комментарии 15

Google может ввести индивидуальный блэклистинг доменов

IT-компании
Пару дней назад Мэтт Каттс рассказал об усилении борьбы с поисковым спамом и об изменениях в алгоритм ранжирования Google (обсуждение на Хабре).

В комментариях к этой новости на Hacker News развернулась дискуссия об эффективности различных способов фильтрации спама, в которой принял участие сам Мэтт Каттс. Один из участников спросил его, собирается ли Google внедрить давно ожидаемую фичу по полному удалению отдельных доменов из результатов поиска для зарегистрированных пользователей (чтобы домен удалялся навсегда для всех поисковых запросов). Мэтт Каттс подтвердил, что эта фича «определённо обсуждалась», но политика компании запрещает ему делать подобные анонсы.
Читать дальше →
Всего голосов 46: ↑39 и ↓7 +32
Просмотры 301
Комментарии 31

Тематические подписки в соцсетях

Социальные сети и сообщества
В современных соцсетях общего назначения, типа Фейсбук, имеем ситуацию, когда грубо говоря все пишут обо всём. Чтобы выделиться в таких условиях, вы должны 1) либо быть/стать фактически журналистом, умеющим находить наиболее востребованные темы и интересно писать о них, либо 2) привнести интерес к себе из реала, быть популярным или в чем-то успешным в традиционном социуме, либо 3) на чем-нибудь специализироваться и «бить в одну точку», постепенно формируя тематическое сообщество вокруг себя.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 784
Комментарии 19

Новая платформа поиска Яндекса с персональными результатами: «Калининград»

Блог компании Яндекс Поисковые технологии *Data Mining *
Сегодня мы объявляем о важных изменениях в поиске Яндекса. Теперь результаты поиска и поисковые подсказки будут персонализированными и могут отличаться для каждого пользователя, который задаёт запрос и получает на него ответ от Яндекса.

Специально для Хабрахабра мы взяли интервью у людей, которые занимались этим проектом, и спросили у них о том, для чего он нужен, как устроен, какие факторы мы учитываем, а также о том, как измеряем пользу от него.



Когда-то давно для того чтобы показать человеку результаты поиска, поисковым системам было достаточно пользовательского запроса и собственного индекса. Две эти сущности легко себе представить. Но со временем стало понятно, что есть ещё одна очень важная штука — контекст запроса. Кто, откуда и когда его задаёт.

Три года назад при формировании результатов поиска мы начали учитывать регион пользователя.

Читать дальше →
Всего голосов 69: ↑56 и ↓13 +43
Просмотры 40K
Комментарии 49