Pull to refresh

Facebook приоритизировала негатив: сайт считал негативный эмодзи за пять обычных лайков

Social networks and communities IT-companies

По информации Washington Post, полученной из слитых документов компании, Facebook использовала эмодзи-реакции пользователей для продвижения в новостных лентах тех или иных постов. С 2017 года алгоритмы ранжирования компании считали эмодзи в пять раз ценнее обычных лайков. Таким образом посты, получившие множество негативных реакций, активнее продвигались алгоритмами соцсети. Специалисты компании заметили это только в 2019 году.

Читать далее
Total votes 12: ↑11 and ↓1 +10
Views 2.2K
Comments 5

Лохси коэффициент

Search engines *
Для проверки возможного влияния ТИЦ на ранжирование сайтов, для значений индекса популярности в поисковой машине «Вершки Рунета» введены поправочные коэффициенты, равные значениям ln(CY) соответствующих сайтов.

Результаты оказались двоякими: с одной стороны, это на первый взгляд улучшило выдачу, дав больший вес известным сайтам Рунета, с другой стороны наблюдается эффект «выезда» крупных порталов по непрофильным запросам, например, по запросу «президент» поднялись сайты информационных агентств rian.ru и lenta.ru, как имеющие одни из высоких значений CY.

Если бы значение CY было зафиксировано каким-нибудь интервалом, скажем от 0 до e^10, и расчитывалось внутри каждой темы независимо (т.е. все «самые главные» сайты внутри каждой темы имели бы одинаковый самый высокий рейтинг), то такой попровочный коэффициент был бы более полезен в ранжировании (по крайней мере для «Вершков Рунета» :).
Total votes 8: ↑3 and ↓5 -2
Views 552
Comments 7

«Вебальта» показывает «уровень доверия» каждого сайта в звездочках

Lumber room
Новый российский поисковик «Вебальта» старается ни в чем не отставать от крупнейших поисковых систем. В частности, для ранжирования сайтов среди результатов поиска они используют специальный алгоритм «взвешивания» входящих ссылок. Аналогичные системы на Google и «Яндексе» называются PageRank и тИЦ (тематический индекс цитирования). В системе «Вебальта» это WebaltaRank (WR).

Кроме количества входящих ссылок и их рейтинга, при вычислении WR учитывается множество дополнительных факторов, в том числе время регистрации доменного имени и репутация хостинг-провайдера. Рейтинг WR обновляется несколько раз в месяц.

Отличительной особенностью WR является то, что каждый сайт может поместить у себя на странице особый значок, который будет показывать WR этого сайта по версии поисковой системы. Значок «Уровень доверия» демонстрирует определенное количество звездочек (от нуля до пяти) и численное значение WR. Например, сайт ya.ru заслужил четыре звездочки и WR 82, а yandex.ru — четыре с половиной звездочки и WR 98.
Rating 0
Views 276
Comments 4

Использование whois-информации для ранжирования результатов поиска

Lumber room
Могут ли поисковые системы использовать данные whois для ранжирования страниц? Использует ли Google эту информацию? В свете последних событий эти вопросы становятся все более актуальными.

Интерес к данной проблеме возник после того, как были опубликованы заявки Go Daddy на получение нескольких патентов. Как известно, Go Daddy — один из крупнейших в интернете регистраторов доменных имен, который непосредственно занимается заполнением базы данных Whois.

Согласно тексту патентных заявок, компания Go Daddy предлагает добавлять в опубликованные данные Whois дополнительную информацию о репутации сайта. Данная информация будет доступна для сторонних сервисов, которые могут использовать ее в различных целях. Например, поисковые системы могут использовать ее для ранжирования результатов поиска.

Предложение Go Daddy похоже на то, что описывается в прошлогоднем патенте Google о получении информации на основе исторических данных. Правда, там напрямую не говорилось о базе данных Whois.

Вообще говоря, остается неясным, соответствует ли предлагаемое использование информации whois тем целям, ради которых составлялась эта база данных. Предназначение Whois изначально совсем не предполагало использование этого сервиса коммерческими поисковыми системами для улучшения качества своей работы.

Три заявки Go Daddy на патенты были поданы 20 октября 2004 г. и опубликованы сейчас под номерами (20060095404, 20060095459 и 20060095586).

Заявка Google была опубликована 31 марта 2005 г. Если проанализировать текст всех этих документов, то можно предположить несколько вариантов, как Google может прямо сейчас использовать информацию из базы whois.

* Дата регистрации домена может быть использована для определения «возраста документа».

* Дата окончания срока действия регистрации доменного имени — как фактор при определении авторитета документов.

* Изменения регистрационной информации и частота этих изменений, включая контактную информацию, хостера и т.д., может отрицательно влиять на рейтинг сайта при ранжировании.

* Информация о сервере имен и о других сайтах на этом сервере тоже может влиять на репутацию каждого конкретного веб-сайта.

Использует ли Google эту информацию? Имеются некоторые свидетельства того, что это вполне возможно. Например, недавно компания Google официально зарегистрировалась в качестве доменного регистратора.
Rating 0
Views 434
Comments 1

GoogleBrowser — карта интернета в виде графа

Lumber room
Теперь в интернете можно посмотреть «карту Сети», она создается в прямом эфире на основе информации о «похожих сайтах», которую выдает Google. Достаточно указать любой URL — и на экране появляется бесконечная паутина узлов, связей и переплетений.

Указанный пользователем URL является отправной точкой для построения карты. Алгоритм работает просто: в поисковую систему Google отправляется запрос на получение информации о наиболее похожих сайтах. Затем — о сайтах, наиболее похожих на эти сайты, и так далее. Если между сайтами на втором, третьем или последующих этапах обнаруживаются взаимосвязи, то они тоже соединяются между собой. Таким образом, создается обширная карта интернета. По крайней мере, карта того участка Сети, в котором находится указанный сайт.

Карту интернета можно представить в виде графа, где веб-страницы отображаются в виде точек, а гиперссылки — в виде линий. Такую модель, между прочим, использует Google для ранжирования веб-страниц. Именно с помощью такой карты можно обнаружить «похожие» сайты — они будут располагаться на графе недалеко друг от друга. В системе GoogleBrowser используется обратный принцип — на основе информации о близких сайтах строится граф.

На этой карте каждый «узел» снабжен аннотацией. Если провести над ним курсор мыши, то появится информационное окошко. По двойному нажатию на узел посылается запрос на Google на получение информации о десяти URL-адресах, которые наиболее похожи на этот сайт.

С помощью такого инструмента можно обнаружить интересную информацию, например, «скрытые» связи между сайтами. Это напоминает теорему о «шести рукопожатиях», которые якобы связывают любых двух людей на нашей планете. Так же и в интернете можно обнаружить цепочку, которая связывает любые два веб-сайта. Кстати, есть специальная функция для такого расследования. К сожалению, GoogleBrowser не совсем корректно работает с кириллицей, что несколько осложняет восприятие информации.

Может быть, кому-то будет интересно, что GoogleBrowser — не единственный инструмент, созданный с помощью технологии построения графов TouchGraph. В интернете можно найти и другие любопытные разработки, например, Amazon Browser для построения карты взаимосвязи литературных произведений или PubMed Browser для медицинской литературы.
Rating 0
Views 663
Comments 2

Yahoo пытается запатентовать концепцию «интересности»

Lumber room
Рейтинг интересности на сайте Flickr — это некие секретные алгоритмы, которые особым образом динамически вычисляют абсолютный рейтинг фотографий на сайте. Для расчета «интересности» фотографии учитываются различные параметры, количественные (число просмотров и комментариев) и качественные: откуда приходят пользователи, чтобы посмотреть фото, кто и когда комментирует фотографию, кто заносит ее в избранное, смысловые теги для данного снимка и многие другие параметры.
Читать дальше →
Total votes 1: ↑0 and ↓1 -1
Views 226
Comments 4

Анализ «социального» алгоритма ранжирования Google

Lumber room
Применение нового алгоритма связано с тем, что компанию Google, очевидно, не устраивало качество поисковой выдачи по самым «горячим» запросам, которые связаны с недавно произошедшими событиями. Это известная проблема для многих поисковых систем, и решается она тем, что в основную поисковую выдачу включаются результаты с поиска по блогам и поиска по новостям. Примерно таким же образом ее решила и компания Google, но только она предпочитает не выделять графически «инородные» результаты, а оформляет их точно так же, как и обычные сайты.
Читать дальше →
Total votes 17: ↑12 and ↓5 +7
Views 359
Comments 2

Новая версия движка визуализации связей от TouchGraph

Interfaces *
Вот уже два года дизайнеры интерфейсов из компании TouchGraph продолжают совершенствовать свой уникальный Java-браузер, который умеет визуализировать в виде графов связи между веб-сайтами и любыми другими объектами (например, его можно использовать для визуализации связей между юзерами в социальных сетях типа «Хабра»). Этот браузер значительно усовершенствован с того времени, как мы впервые о нём рассказывали год назад.

Программа представляет собой Java-апплет (не распознаёт кириллические кодировки) с множеством дополнительных настроек. Отдельные апплеты загружаются для обработки результатов Google и для обработки результатов Amazon. В первом случае демонстрируются сайты и связи между ними на основании информации Google о «похожих сайтах» (команда [related:]).


Читать дальше →
Total votes 22: ↑19 and ↓3 +16
Views 1.5K
Comments 17

Подробности о работе отдела Search Quality

IT-companies
Газета NY Times опубликовала огромную статью о том, как, кто и почему в компании Google изменяет алгоритмы ранжирования. В статье приведено множество интересных фактов о том, как работает отдел поискового качества (Search Quality). Засланный журналист провёл там целый день.

Как известно, тонкая настройка выдачи происходит в поисковой системе почти каждый день. Отдел поискового качества Google вносит в алгоритмы ранжирования около шести крупных и мелких изменений в неделю. Руководит процессом 39-летний программист индийского происхождения Амит Сингал (Amit Singhal). Как и другим элитарным программистам, ему присвоена почётная должность Google Fellow.

После своего прихода в Google в 2000 году, м-р Сингал разработал сложную систему ранжирования документов, учитывающую более 200 факторов, которые на профессиональном сленге называют «сигналами». Рейтинг PageRank — только один из таких сигналов.
Читать дальше →
Total votes 29: ↑26 and ↓3 +23
Views 257
Comments 31

Мэтт Каттс о социальном поиске: «Google не против ручного вмешательства»

Search engines *
Через несколько дней после презентации первого в мире социального поисковика Mahalo.com, который основан исключительно на ручной сортировке контента, руководители Google сказали, что они не против такого подхода.

«Люди думают о Google как о чистых алгоритмах, — сказал Мэтт Каттс, один из ведущих специалистов Google по поисковым алгоритмам, вчера на конференции Search Marketing Expo. — Мы только недавно начали сообщать тот факт, что мы не против некоторого ручного вмешательства».

Мэтт Каттс имеет в виду некоторые элементы социального поиска, когда результаты поиска по каждому поисковому запросу вручную подбираются миллионами трудолюбивых пользователей. Именно так работает поисковая система Mahalo.com, презентация которой состоялась на днях.
Читать дальше →
Total votes 13: ↑12 and ↓1 +11
Views 574
Comments 8

Ранжирование важности слов и фраз в интернет статьях сообществом пользователей

Self Promo
Выкладываю одну из простейших идей, из которой можно будет вероятно при необходимости получать прибыль: ранжирование важности слов и фраз в интернет статьях и новостях сообществом пользователей — каждый пользователь может на странице которую читает выделить слово или фразу которую считает самой важной (не более слов, например 5), на которые стоит обратить внимание следующим читателям т.е. ключевые слова и отправить ее системе (например нажав ctrl+e или спецкнопку). Слова которые выделили больше всего читателей будут выделены красным, поменьше зеленым и т.п. (или будут иметь различные размеры) — можно использовать для автоматического определения тегов + можно будет использовать для поисковых систем которая будут искать именно по ним. При этом облако тегов будет более релевантным так как содержит только слова использованные в тексте (да и поисковики кажется к этому относятся лучше). Также это устранит необходимость набивать теги самостоятельно автору (если лень как часто бывает). Автор также сможет определить — правильно он донес свою мысль или нет.
Идея появилась после чтения рассылки «скорочтение память интеллект». Как я понимаю, человеку чтобы понять о чем идет речь, и стоит ли продолжать читать текст достаточно нескольких слов. Вот эти ключевые слова и предлагаю выделять. То есть прочитав описание например идею предлагаемого мною сервиса я выделю в нем 2-3 ключевые на мой взгляд фразы, второй человек выделит свои — следующему уже будет достаточно бегло просмотреть текст, остановившись на отмеченных фразах чтобы определить — интересно это ему или нет.
В условиях стремительного роста объема информации и новостей, эта технология должна существенно облегчить нагрузку на пользователей.

Для стимулирования интереса пользователей участвующих в определении важности слов — можно организовать своеобразную игру (требует регистрации) — под текстом или рядом с образованными таким образом тегами указывать какой пользователь наиболее точно первым определил наиболее занчимые слова (с которым согласились остальные).

+ ограничение не более 1 попытки с одного IP для предотвращения хулиганства.

Блог называется партнерство во имя реализации идеи — вот условия для партнеров тут а еще конкретнее тут. Посмотрим что из этого получится :)
Total votes 3: ↑3 and ↓0 +3
Views 604
Comments 10

Кармаграмма или диаграммный способ ранжирования в соц.сетях

Lumber room
один из вариантов Цифровое ранжирование, или как я его называю — «линейное». С ним все хорошо знакомы — пять звездочек или две стрелки вверх и вниз, два знака + и -, два слова «нравится»/«не нравиться», в итоге каждый пользователь-топик-комент-етс обретает некий вес выраженный в виде числа. Линейное ранжирование на мой взгляд идеально подходит для устранения «плохишей» мешающих развитию сети. Так же оно формирует «эго» сети — харизму, «внутренний голос», узнаваемый вид.

примерный вид кармаграммыПредлагаю обсудить возможность принципиально другого способа ранжировать пользователей и контент, не основываясь на сведении всех качеств в одно и представлении их в виде числа, а наоборот — их выделения, перечисления всех присущих субъекту качеств, оценке каждого из них в отдельности, и удобного представления полученной многомерной картины.
Читать дальше →
Total votes 10: ↑7 and ↓3 +4
Views 457
Comments 31

Страницы с popunder-баннерами могут ранжироваться ниже

IT-companies
YES YES YES!!!
Конечно, это не сильно изменит ситуацию, но первый шаг начат.
Не знаю, как вас, но меня просто жутко выводят из себя popunder со всякой порнухой и нечистью. Жуть просто. И вот наконец-то приняты хоть какие-то меры борьбы с этим. Яндекс будет занижать выдачу для сайтов с popunder рекламой. Просто супер! =)
Здесь официальное сообщение от Яндекса
Total votes 151: ↑141 and ↓10 +131
Views 1.8K
Comments 130

Как устроено ранжирование

«Sphinx Technologies Inc» corporate blog Sphinx *
Со временем Sphinx оброс большой кучей режимов поиска и ранжирования. Регулярно возникают вопросы про разное (от «как вытащить документ на 1е место» до «как рисовать от 1 до 5 звездочек в зависимости от степени совпадения»), которые на самом деле суть вопросы про внутреннее устройство тех режимов. В этом посте расскажу все, что вспомню: как устроены режимы поиска и режимы ранжирования, какие есть факторы ранжирования, как в точности рассчитываются факторы, как финальный вес, все такое. И, конечно, про звездочки!
Читать дальше →
Total votes 52: ↑48 and ↓4 +44
Views 24K
Comments 43

Скорость загрузки страниц повлияет на ранжирование

IT-companies
Вполне вероятно, что уже в следующем году Google модифицирует алгоритмы ранжирования таким образом, что будет учитывать не только релевантность контента и PR, но также и скорость загрузки каждой страницы, сказал один из ведущих программистов компании Мэтт Каттс (Matt Cutts) в интервью WebProNews.com.

Это будет очередной мерой, которые предпринимает Google для всеобщего «ускорения интернета», наряду с разработкой протокола SPDY и других инновационных технологий. Для веб-мастеров недавно открыт раздел Site Speed со списком справочных ресурсов и инструментов для оптимизации производительности сайта. Некоторые из этих инструментов (Page Speed и Closure) созданы самой компанией Google, а другие от сторонних разработчиков.
Читать дальше →
Total votes 92: ↑86 and ↓6 +80
Views 1.3K
Comments 113

Как видео-SEO окончательно вылезти из пелёнок?

Lumber room
Translation
Это мой перевод статьи. Оригинальная статья от Shane Snow.

video SEO imageПубликация видео в сети была детской забавой на протяжении многих лет и видеоролики занимали высокие места в поисковых системах в лучшем случае каким-то загадочным образом, а в худшем просто терпели крах. Рост объёмов публикаций видео в сети ускоряется быстрее, чем когда-либо, и хотя видео-SEO, кажется, осталось позади всей отрасли, оно, наконец, начинает догонять, благодаря некоторым интересным технологиям, которые, мы надеемся, дадут дополнительные стимулы издателям создающим замечательный видео-контент.
Читать дальше →
Total votes 10: ↑6 and ↓4 +2
Views 594
Comments 3

Новый Яндекс.Сервер — поранжируем?

Яндекс corporate blog
Сегодня вышел новый Яндекс.Сервер — продукт для организации поиска по сайту или в корпоративной сети, использующий технологии большого поиска Яндекса.
В новой версии особое внимание мы уделили качеству поиска, добавив новые возможности по управлению ранжированием.

Теперь можно перемещать найденные документы на первую или последнюю позицию выдачи, указав запросы и ссылку на документ, который необходимо сделать первым или последним. Зачем это нужно? Корпоративные сайты, к примеру, могут по запросу имени сотрудника поставить на первое место страницу с его биографией. А интернет-магазины могут по запросу с упоминанием товара в качестве первой страницы указать карточку этого товара.

В новой версии Яндекс.Сервера реализовано ссылочное ранжирование, которое учитывает ссылки на документ при расчете его релевантности. Кроме того, расширился список поддерживаемых документов: MS Office 2007, Open Office и PDF-файлы версии 1.7.

Скачайте Яндекс.Сервер, находите больше и точнее.

Мария Липатова и команда Яндекс.Сервера
Total votes 65: ↑55 and ↓10 +45
Views 10K
Comments 44

Самая таинственная выдача Google

Lumber room
Один из разработчиков Beerby (программа для любителей пива) обратил внимание на странный факт: сайт получает необычно много поискового трафика по запросу [cake central]. Он проверил и ужаснулся: абсолютно левая страница занимает первое место в поисковой выдаче Google, опережая сайты cakecentral.com и прочее при том, что на этой страницы ни разу не упоминаются слова CAKE или CENTRAL.

Вопрос к оптимизаторам: как такое возможно и как этот глюк можно воспроизвести на другом запросе?
Читать дальше →
Total votes 36: ↑15 and ↓21 -6
Views 174
Comments 15

Google может ввести индивидуальный блэклистинг доменов

IT-companies
Пару дней назад Мэтт Каттс рассказал об усилении борьбы с поисковым спамом и об изменениях в алгоритм ранжирования Google (обсуждение на Хабре).

В комментариях к этой новости на Hacker News развернулась дискуссия об эффективности различных способов фильтрации спама, в которой принял участие сам Мэтт Каттс. Один из участников спросил его, собирается ли Google внедрить давно ожидаемую фичу по полному удалению отдельных доменов из результатов поиска для зарегистрированных пользователей (чтобы домен удалялся навсегда для всех поисковых запросов). Мэтт Каттс подтвердил, что эта фича «определённо обсуждалась», но политика компании запрещает ему делать подобные анонсы.
Читать дальше →
Total votes 46: ↑39 and ↓7 +32
Views 301
Comments 31

Тематические подписки в соцсетях

Social networks and communities
В современных соцсетях общего назначения, типа Фейсбук, имеем ситуацию, когда грубо говоря все пишут обо всём. Чтобы выделиться в таких условиях, вы должны 1) либо быть/стать фактически журналистом, умеющим находить наиболее востребованные темы и интересно писать о них, либо 2) привнести интерес к себе из реала, быть популярным или в чем-то успешным в традиционном социуме, либо 3) на чем-нибудь специализироваться и «бить в одну точку», постепенно формируя тематическое сообщество вокруг себя.
Читать дальше →
Total votes 2: ↑2 and ↓0 +2
Views 784
Comments 19