Выявление алгоритмов ранжирования поисковых систем

Пища для ума


Когда какое-то время работаешь в сфере SEO, рано или поздно невольно посещают мысли о том, какие же формулы используют поисковики, чтобы поставить сайт в поисковой выдаче выше или ниже. Всем известно, что это все хранится в глубочайшей секретности, а мы, оптимизаторы, знаем только то, что написано в рекомендациях для вебмастеров, и на каких-то ресурсах посвященных продвижению сайтов. А теперь задумайтесь на секунду: что если бы у вас был бы инструмент, который достоверно, с точностью в 80-95% показывал бы, что именно нужно сделать на странице вашего сайта, или на сайте в целом, для того, чтобы по определенному запросу ваш сайт был на первой позиции в выдаче, или на пятой, или просто на первой странице. Мало того, если бы этот инструмент мог бы с такой же точностью определить, на какую позицию выдачи попадете, если выполните те или иные действия. А как только поисковик вводил бы изменения в свою формулу, менял бы важность того или иного фактора, то можно было бы сразу видеть, что конкретно в формуле было изменено. И это только малая доля той информации, которую вы могли бы получить из такого инструмента.

Итак, это не реклама очередного сервиса по продвижению, и это не предоставление конкретной формулы ранжирования сайтов поисковыми системами. Я хочу поделиться своей теорией, на реализацию которой у меня нет ни средств, ни времени, ни достаточных знаний программирования и математики. Но я точно знаю, что даже у тех, у кого все это есть, на реализацию этого может уйти даже не 1 месяц, возможно, 1-1,5 года.

Теория


Итак, теория состоит в том, чтобы методом тыка пальцем в небо выяснить, какой фактор влияет на позиции больше или меньше другого фактора. На пальцах это все рассказать очень сложно, поэтому мне пришлось сделать таблицу, которая более менее отобразит то, что я хочу донести.

image

Посмотрели на таблицу? Теперь к делу. Берем любую ключевую фразу, не важно какую, вводим в поисковик и из выдачи берем первых 10 сайтов, это и будут наши подопытные. Теперь нам нужно сделать следующее: написать код, который будет методом тыка менять значимость у факторов (ЗФ в таблице) ранжирования до тех пор, пока наша программка не расположит сайты таким образом, что бы они точно совпадали с выдачей поисковой системы. То есть мы должны методом тыка повторить алгоритм ранжирования поисковика. Значимость самих факторов мы можем определить только как положительную нейтральную или отрицательную.

Теперь по порядку о таблице и факторах. Условно каждому фактору присваиваем значение от 1 до 800 (примерно). Так как достоверно известно, что у Яндекса, например, факторов ранжирования где-то близко к этому числу. Грубо говоря, у нас максимальное число будет таким, сколько факторов ранжирования нам точно известно. У двух факторов не может быть одинакового числа, то есть у каждого фактора значение уникальное. В таблице для каждого фактора отдельная колоночка, и их очень много, физически мне не удастся на одной картинке все разместить.

Теперь вопрос, как вычислить ранг страницы? Очень просто: для начала простая математика, если фактор положительно влияет, мы к рангу страницы прибавляем ранг фактора, если отрицательно, то прибавляем 0. Можно усложнить, сделать 3 варианта и добавить, например, вычитание ранга фактора от ранга страницы, если этот фактор критический, например, грубый спам ключевой фразы.

У нас получается примерно такой алгоритм вычисления ранга страницы. Возьмем его за (PR), а фактор возьмем как (F) и тогда:

PR = Берем первый фактор Если F1 положительный, то делать PR + F1, если F1 отрицательный то делать PR — F1, если F1 нейтральный, то не делать ничего, после этого проверяем так же F2, F3, F4 и так далее, пока факторы не кончатся.
А подбор производить таким образом, что бы у каждого фактора попробовать каждое значение ранга. То есть чтобы каждый фактор испробовать в каждом значении.

Вся сложность состоит в том, чтобы учесть все влияющие факторы, вплоть до количества текста на странице и ТИЦа сайта, на котором расположена ссылка на нашу подопытную страницу, и сложность даже не в учете этой информации, а в ее сборе. Потому что вручную собирать всю эту информацию нереально, нужно писать всевозможные парсеры, чтобы наша программка собирала все эти данные автоматически.

Работа очень большая и сложная и требует определенного уровня знаний, но только представьте, какие возможности она откроет после реализации. Я не буду вдаваться во все тонкости вычислений и влияния факторов, не люблю много писанины, мне проще объяснить человеку напрямую.

Сейчас некоторые скажут, что совпадений будет очень много в разных вариациях. Да, будет, но если взять не первую страницу, а, к примеру, первые 50 страниц? Во сколько раз тогда сократится вероятность промаха?

Еще есть сложность в том, что некоторые факторы нам просто негде будет взять, например, мы ни как не сможем учесть поведенческие факторы. Даже если все сайты из выдачи будут под нашим контролем, мы не сможем этого сделать, потому как скорей всего учитываются именно то, как пользователь ведет себя на выдаче, отсюда появляется вторая неизвестная в нашем уравнении, помимо самой позиции.

Что нам даст такой софт после реализации? Нет, точную формулу поисковика он не даст, но точно покажет, какой из факторов влияет на ранжирование сильней, а какой вообще не значительный. А при продвижении мы сможем в эту формулу подставить страницу своего сайта, со своими параметрами, и еще до того, как начать ее продвижение, увидим, на какой позиции будет страница по определенному запросу после того, как поисковик учтет все изменения.

В общем, это очень сложная тема, и очень полезная информация для ума, потому как заставляет подумать, хватит, например, мощности одного компьютера на такие вычисления? А если и хватит, то сколько это займет времени к примеру? Если не удовлетворит результат, то формулу как-то можно усложнять, менять, пока не будет 100% точного результата на 100 страницах выдачи. Более того, можно для чистоты эксперимента подключить около 100 различных сайтов и внедрить на них несуществующую ключевую фразу, а потом по этой же ключевой фразе и отследить алгоритм. Вариантов масса. Нужно работать.

Similar posts

AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 17

    +6
    Если бы такой инструмент существовал, то в поисковике бы найти было бы ничего нельзя — вернулись бы во времена, когда в подвале вываливали тонну ключевых слов белым по белому. Нет, спасибо, не надо.
      0
      В те времена когда можно было спамить ключами в подвале, такие инструмены были не нужны. Но когда факторов ранжирования более 800, как минимум как идея, такой инструмент имеет права на существование.
      +4
      Это не реально.
      Примерно как решать систему линейных уравнений из 10 уравнений с 50 неизвестными.
      Во-первых невозможно вытащить все показатели, которыми пользуются поисковые системы.
      Есть неучтенные показатели, влияние которого вы будете принимать за влияние других факторов.
      Во-вторых есть показатели, которые вам недоступны и они тоже влияют на выдачу. Данные с метрики, данные о переходах, процент кликов по данной позиции, поведенческие факторы и тд.
      Итого вы будете иметь 30+% факторов которые не знаете, или знаете, но не имеете доступа к их значениям и которые значительно влияют на позиции в выдаче.
        +1
        Я же написал, что можно создать несуществующий запрос на сотне сайтов, и отслеживать как его отранжируют, подобными вещами занимаются аналитики, что бы выявить влияние определенных факторов. Таким образом остаются только те факторы которы находятся именно в ввыдаче ПС (на какой сайт кликнули первым, после какого сайта поисковик был закрыт и так далее) таких факторов менее 10%. Остальное более менее доподлинно известно, и основная часть описана в рекомендациях для вебмастеров у поисковых систем.
          0
          Теоретически можно сделать с несуществующим запросом, но дальше теории это не пойдет.
          Я не думаю, что используются простые веса. Скорее всего есть еще какие-то условия, например при наличии ссылок на странице больше 5 и нахождении сайта в группе новостные не вводить санкции за количество ссылок на странице.
          Вы можете теоретически отловить влияние показателей, при этом они должны быть линейны (ну максимум стремиться к какой-то цифре сверху и снизу), но как вы учтете такое условие:
          Если текста на странице до 5000 символов — применяем правила для страниц с малым количеством символов (список весов каждого показателя)
          Если текста 5-10 — для сайтов (новый список весов)
          Если текста 10+, то для статей (и еще один список).
          И таких выкрутасов может быть десятки или сотни. Сделать сотню идентичных сайтов под КАЖДЫЙ показатель не получится — уникальность, да и где гарантия, что сделав второй сайт вы не зацепили какой-нибудь другой показатель? Это как идти по минному полю с завязанными глазами в свинцовых ботинках.
            0
            Самая главная суть не в том что бы определить какой конкретно фактор и какое его значение и как влияет на выдачу. Задача выявить именно важность факторов по отношению друг к другу. Какой из факторов важнее чем другой.
              0
              В том-то и прикол, что в зависимости от сайта может меняться вес факторов. Скажем для странички на 1000 символов довольно глупо давать большой вес на уникальность текста. А на 10 тысяч символов уникальность может набирать вес, а вес количества вхождений ключей падать.
                0
                Это все выясняется опытным путем, и можно описать в формуле инструмента.
                  0
                  А как же время и изменения? Ведь в поисковую выдачу нужно попасть. Кто-то за неделю попадает в индекс, кто-то за пол года. Это ещё до определения релевантности. А дальше, поисковики не стоят на месте и изменяют алгоритм.
                  В итоге пока ведётся эксперимент и ожидается результат, поисковики несколько раз успели изменить алгоритмы. :-)
        0
        Мда. Наверное, большая часть SEO-шников еще мечтает а таком чудесном алгоритме, который бы создавал тексты на 99% уникальными. Скрестить бы с вашей этой потогонкой Андерсона — от клиентов отбоя не будет.
          0
          Я и не мечтаю, я реалист, и прекрасно понимаю что задачка нереальная. Хотя бы потому что ни один компьютер не способен обрабатывать такое количество информации.
            0
            Тогда попробуйте объяснить сказанную вами фразу, а то мне кажется, что вы теряетесь в своих доводах.

            >> Хотя бы потому что ни один компьютер не способен обрабатывать такое количество информации.
            >>«Я же написал, что можно создать несуществующий запрос на сотне сайтов, и отслеживать как его отранжируют»

            Просто смысл вашей статье сводится к повышению активности на пустом месте — по сути, предлагаете заниматься алхимией.
              0
              На обработку и подстроку факторов только одной позиции необходимо 800 операций возведенное в степень 800. Это число операций с 200+ нулями. Какой компьютер современный с этим справится?
          +3
          То что вы описали в статье — этими вещами занимается машинное обучение. Конкретнее — выделением факторов и их значимости. Известно, что для ранжирования поисковые системы тоже используют машинное обучение. Создать нейросеть, которая изучает свойства другой нейросети — звучит безумно, но по-моему очень интересно
            0
            Проверял эту же идею пару лет назад. На ИНС. Даже тогда не получилось. Сейчас — тем более. Проблема в том, что обучающая выборка ВСЕГДА будет неполна. Те факторы, что есть в открытом доступе не позволяют обучить ИНС с последующими корректными результатами на валидационной выборке (т.е. неизвестной до обучения). Это говорит о том, что выборка для обучения неполна и/или противоречива.

            Иными словами — весь бизнес Google и Яндекса базируется на том, что они скрывают не только и не столько алгоритм ранжирования, сколько состав и реальные значения факторов ранжирования. Это поведенческие, данные с рекламы, социалка, офлайн, цитируемость бренда, возрасты страниц и т.д. и т.п. Чтобы собрать такую же базу данных нужно быть хотя бы Яндексом, а лучше Гуглом. Со своим браузером. Плюс не забывайте про «руки» на значимых коммерческих запросах типа «Окна в Москве», «Купить авто в кредит», «Ноутбук года» и т. д.

            Короче. Нереально это.
            0
            Для того, чтобы создать такой алгоритм, придется создать свой Гугл. Как считать, например, такой важный фактор как «Цитируемость»? Для этого весь интернет надо проиндексировать.
              0
              Нет, весь интернет нам не нужно индексировать, тот же гугл уже это сделал, и все проиндексируемы ссылающиеся страницы можно взять у него. И нужны нам они будут только для конкретной страницы, а не для всего интернета.

            Only users with full accounts can post comments. Log in, please.