Как стать автором
Обновить

Комментарии 55

У нас эта подобная вещь реализована с помощью xml.yandex.ru/. Тот же запрос, только не надо подделываться под браузер, не надо ломать капчи и ответ приходит в удобном XML, из которого проще вытащить позицию нужного сайта по данному запросу. Единственный минус данного подхода — ограничение количества запросов в сутки до 1000, то есть мониторить большое количество запросов и сайтов не получится с одного IP-адреса.
Вот только проблема в том что XML выдача частенько отличается от обычной выдачи.
Да, есть такой момент. Но в целом, если можно пренебречь парой пунктов, то вполне подходящий вариант. Ну и по нашей статистике, все таки, в большинстве позиции схожи.
а также нередкое различие между выдачей реальной и xml.yandex.ru
а также невозможность сделать региональный поиск/парсинг
Региональный возможно передачей соответствующего параметра.
Недостатков у xml.yandex.ru много.
Во первых, нужен статичный IP, а у большинства провайдеров динамические внешние IP.
Во вторых, ограничения по количеству, 1000 в сутки — это вообще ничто, для того-го формирования вайт-листа под ссылочное нужно под миниллион запросов сделать на средний проект.
В третьих, для регистрации и получения xml-ки нужно затратить больше усилий и написать больше кода.

Про первые два пункта с Вами согласен, про третий совсем нет. Зарегистрировать яндекс-аккаунт и подтвердить номер телефона дело 10 минут, и кода для работы через api пишется прилично меньше, чем для эмуляции браузера, разбора html, который к слову может внезапно измениться в отличии от xml, и для распознавания каптч.
По третьему пункту я описал исключительно свое мнение.
Вполне возможно, что кому-то проще с подтверждением заморачиваться, чем 10-20 строк скопипастить.

Понимаете в чем проблема, html-выдача может внезапно измениться, каптча может внезапно измениться, могут появиться другие способы защиты от роботов, которые Вы не предполагали при написании кода. Т.е. вся система сбора позиций может взять и рухнуть, а Вы в этот момент можете находиться в отпуске, на выходных, спать и так далее. Т.е. все это требует неусыпного контроля. API же предназначен для работы с ним роботами, написав скрипт сбора один раз, его можно повесить в какой-нибудь cron и наслаждаться жизнью. О любых изменениях в правилах выдачи XML Вас предупредят заранее и Вы сможете спокойно внести необходимые изменения, хотя к слову, ни одного такого изменения в XML я не припомню.
Про спать спокойно согласен.

Но исключительно для поддержания дискуссию поспорю =)
Пару аргументов:
1 «Спать спокойно» и «поддержка инструмента» — взаимоисключающие понятия.
2 Раз в 3 месяца изменить 2 строчки проще, чем регистрировать 100 IP и покупать 100 симок.
3 О любых изменениях верстки меня предупредит письмо от скрипта, а простой в пару дней из-за смены верстки — это нормально.
1. А если инструментов будет 100? Вы вообще спать перестаните?:) Нет, я считаю, что код должен быть написан так, что бы до минимума сократить возможные внеурочные часы работы над ним

2. Я немного не пойму, зачем Вам 100 IP? У нас висит порядка 30 сайтов в среднем на каждом по 50 запросов мониторим, с учетом того, что поисковые запросы у некоторых сайтов пересекаются, мы можем узнать позицию сразу нескольких сайтов, делаю всего один запрос к яндексу. Таким образом мы спокойно умещаемся в 1000 положенных запросов к яндексу в день.

3. Для нас простой в два дня очень критичен, статистика должна собираться каждый день. От этого зависит сколько клиенты нам заплатят.
Отвечу по пунктам:
1. Есть мои инструменты и инструменты на заказ. Все свои инструменты у меня через 1 интерфейс работают, то-есть сколько-бы не было у меня инструментов, все равно они будут спрашивать список сайтов с одного и того-же локального сокета. Для чужих инструментов, чем больше внимания клиенту, тем ему приятнее, если-б яндекс каждый день менял выдачу, я бы только порадовался.

2. К сожалению, у меня не получается в 1 IP уложиться. Есть проекты и 10 000 запросов. А при 30 запросах я-бы и руками мог собрать статистику =)

3. Статистика обычно нужна только при апах. Но, не зная вашей бизнес-модели, не буду лезть с советами.
1. Внимание клиенту и сбой в работе инструментов это все таки немного разные понятия. Я бы лучше улучшал функционал инструмента за это время, чем подстраивал его под разные выдачи.

2. 50 запросов на 30 сайтов… ~1500 позиций отследить руками, ИМХО, не реально каждый день.

3. У нас люди платят за конкретные позиции каждый день. Да и если вдруг позиции резко упадут или поднимутся, будет сразу видно и можно будет предпринять необходимые действия.
1. Если что-то описано в ТЗ как нюанс поведения и согласованно с заказчиком, то называть это сбоем в принципе нельзя.
Прежде чем выбирать способ анализа какой-то информации, я всегда считаю все за и против, и согласовываю с заказчиком. И всегда выбираю самый удобный и простой под конкретную задачу способ, я-же не враг себе. Если клиент говорит, что ему проще 100 ip и симок купить, так я-же только рад буду. Но обычно все клиенты хотят поменьше сложностей для себя, и пару дней простоя в год для них не критично.

2. А веть есть конторы, где до сих пор руками собирают

3. Тут не могу вам ничего посоветовать
Ну что могу сказать, есть разные задачи с разными условиями. Для нас важна стабильность работы инструмента, по этому мы выбираем xml. Вам важнее кол-во запросов и Вы можете пренебречь стабильностью, выбираете парсинг html. Каждой задаче — свое решение
К тому-же, я описал всего-лишь один из возможных способов.
И я не утверждал что он лучше. =)

Для каждого конкретного случая лучше свой конкретный способ. Способ с xml тоже в каком-то случае будет самым лучшим.
Конечно, Ваш способ имеет право на жизнь, это бесспорно. Для каждой задачи должен быть свой инструмент.
Увеличение клиентов — это здорово, главное не перестераться, а то клиенты лопаться начнут!
Начнете лопаться, присылайте лишних мне.
А почему бы не использовать готовый белый и пушистый API от яндекса?
api.yandex.ru/webmaster/features.xml

Конкурентов мониторите?
Где возможно, там используем готовое, но к сожалению не везде возможно.
И конкурентов тоже мониторим.

а есть в api метод который покажет позиции сайта по конкретному региону и по конкретному запросу?
Спасибо
конечно продолжайте!!!
Спасибо
Как решили вопрос с куками яши? Или капчу ломаете?

Есть _готовый_ сервис, описанный вами, только парсинг выдачи регекспами (каюсь)
На джанге. Поддерживает работу с базой проксей и тор.
Если интересно, могу его на гитхаб положить, ибо сам его совсем забросил.
Даже на домене красивом висит :)
С кукисами по разному решаю, в зависимости от задачи.
От простого копирования ручками из броузера в curl, до автоматического, с авторизацией в яндексе и разбора капчи.
Вместо связки голых pycurl и lxml рекомендую использовать Grab: grablib.org — это по сути и есть связки pycurl и lxml с приятным интерфейсом.
По мне, так удобнее напрямую работать.
Лучше разбираться с одной библиотекой, чем сразу с двумя, вашей и основной.

У вас, если не ошибаюсь, дополнительного функционала особо и нету, только оболочка над существующим?

Но вполне допускаю, что кому-то проще с вашей библиотекой разобраться, чем lxml, и пользоваться только вашей оболочкой.

В любом случае, чем больше выбор инструментов, тем лучше =)
Не, чтобы с моей библиотекой разобраться, желательно знать lxml, иначе будут некоторые вещи непонятны. Я вообще придерживаюсь мнения, что фреймворки лучше начинать использовать после освоения вещей, лежащих в их основе.

> У вас, если не ошибаюсь, дополнительного функционала особо и нету, только оболочка над существующим?

Дополнительного функционала достаточно много, вплоть до работы с антикапча-сервисами.

Вы там пишите

>Обернем все что получилось в функцию, в итоге у нас получилось

Потом вам захочется прикрутить прокси, задавать рефереры и юзерагенты с помощью аргумента, смотреть куки. Вот так и получился Grab :o)
Свой велосипед ближе к телу =)
А мне Граб понравился.
Удобный, чего уж там.
Но как сажусь писать — тут же беру curl. Оттчего так — неясно.
Привык наверное.
Видимо, вам некомфортно от того, что граб делает что-то там сам, а когда вы видите голый curl, то это даёт вам ощущение контроля.
Там, на самом деле много багов. По мере их появления, устраняю. Сейчас ещё на каждый баг тест пишу.
Ну скорее всего почти так.
Каждый раз — задача разная, и когда скрипт пишешь фактически под определенный тип запроса — то в curl, уверен на 100%. Осознаешь, что это твои ошибки, а вот когда обертка — то такая уверенность пропадает, и начинаешь дергаться туда-сюда. Был у меня один сервер такой с тройной авторизацией. Еле отловил в firebug все хапросы которые отправлялись не пойми куда(
Но был твердо уверен, что это я не все до конца понял, а не curl виноват.
В итоге пишешь на курле, и в голове откладывается — «Задача решена на curl»
Пользуемся API от яндекса. Метод, описанный Вами, конечно хорош, но правда как обходите капчу? Экстенсивным(за счёт увеличения интервалов парсинга, «рабочей силы», задержек) или интенсивным (китайцы капчу разгадывают, собственный модуль распознавания)?
Самый простой способ — использование множества прокси-серверов.
Методов на самом деле множество.
Например, самые очевидные:
— использовать прокси и всяческие анонимайзеры
— обрабатывать капчу
— парсить выдачу с партнеров яндекса
и т.д.
Я говорил именно про самый простой способ. Практика показала, что прокси лист из пары сотен серверов позволяет без проблем парсить некоторое количество запросов.

Анонимайзеры неудобны тем, что надо менять логику работы программы (формировать URL анонимайзера, отслеживать ошибки анонимайзеров, анонимайзеры часто глючат или сами находятся в бане у поисковой системы)

Обработка капчи это деньги. Пробовал разгадывать капчу от гугля, после некоторого количества запросов (с разгадыванием появлюящихся капчей) он начинает показывать капчу на каждый запрос :)

Партнёров не пробовал, тоже думаю не всё там гладко может быть, как минимум, точно также могут банить. Вы пробовали партнёров парсить? Какие объёмы парсили?

Парсинг поисковой системы через прокси удобен своей простой и понятной моделью. Работаем напрямую с поисковой системой без посредников. При увеличении объёмов запросов увеличиваем объём прокси серверов.

> и т.д.
Что ещё?
Анонимайзеры разные бывают, например с tor и i2p вполне удобно работать.

Капчи в лоб — пустая трата денег. Если нужно долго и много, то нужно умнее делать. Например гугл очень любит, когда ему статистику «пользователя отдают» и зареганному пользователю гораздо реже капчу выпадает. Если на практике, то полезно под каждую проксю сделать и хранить отдельную куку, юзерагента, можно акк зарегать.

Парнеры qip, tut.by, livejournal.ru. Объемы можно любые, но опять-же по умного нужно делать, а не в лоб.

Прокси очень хороший способ, но не единственный.

Спасибо, приму к сведению.
Напишите пожалста, интересна ли данная тема и нужно-ли продолжать?

Мне интересно, продолжайте — может нового что узнаем.
Могу на какую-то конкретную тему написать
Прямо ностальгия взяла, в свое время запускал проект ЯндексТОПология:
image
топик на сёрче
вебархив:
Апдейты Яндекса
Среднестатистическая тряска выдачи Яндекса
Поисковые запросы в Yandex
Что такое «тряска выдачи Яндекса»
Что может сервис
Для кого и зачем

Вы меня прямо побудили к реанимации идеи (особенно возможность освоения нового инструмента) :)
Жалко домен упустил и его перехватили и на парковку поставили домейнеры

Продолжайте «графоманить» дальше, у Вас хорошо получается, все темы в конце топика очень интересны
Спасибо.

Продолжу, рад что интересно =)
Спасибо.

Продолжу, рад что интересно =)
промахнулся
То же сделал с помощью xml.yandex.ru, правда на PHP, но все отлично работает. Такая стата имеет смысл, когда исследуешь сезонность спроса например. И вообще анализ.
Для этого был сделан список ключевых слов, по которым выдается позиция сайта, а потом заносится в БД. Советую так же занести в БД следующие параметры:
титл — то что выдает Яндекс, как ссылку на ваш сайт
саму ссылку — на какую страницу сайта ссылается Яндекс
серп — описание ссылки
Ставим проверку по дням, и заносим результаты в БД.
Аналогичную операцию проводим с Гуглом, но там уже нужно парсить сам код странички, хотя ничего сложного.
Зато через пару месяцев, вы уже будете видеть детальную инфу (или выполнить анализ) по следующим параметрам:
1. На каком месте по определенному ключевому слову находится сайт в разных ПС
2. Соответствует ли выдача ПИ ключевому слову. Т.е. не ссылается ли ПИ на другой раздел сайта?
3. Можно придумать еще что-то)
4. Самое главное — это ДИНАМИКА изменений. Очень позновательно сделать анализ, например за год, а есди есть выборка больше — вообще замечательно.
5. Очень полезно использовать тем людям и компаниям, кто следит за продвижением сайта. Видно все, очень наглядно и изменяемо для своих нужд.
6. Никто не мешает так отслеживать сайты конкурентов и смотреть как идут дела у них по, тем же ключевым словам. Очень весомый аргумент в споре с заказчиком/исполнителем/руководством.
7. Вдобавок для анализа конкурента можно прикрутить парсинг LiveInternet примерно вот по такому запросу:
http://counter.yadro.ru/values?site='.$site_url.'
Тоогда информации для анализа себя, конкурентов, и вашей позиции в выдаче и в посещениях будет достатчно для начального уровня.

Далее все хозяйство либо выгружать в эксель для аналитики, либо писать web-based для построения графиков.
Полностью с вами согласен.

Можно рассматривать ваш пост, как план для написания следующих статей?

В этой статье написал всего-лишь пару функций, маленький кусочек из возможного функционала.
Экхм… Признателен конечно, очень, но я на хабре зареген второй день и ни разу не программист-разработчик. Только хобби. Думаю, более опытные товарищи, еще скорректируют путь развития. А так — конечно же рассматривайте, работы в этой области много.
Блин) Забыл упомянуть одну из главных фич, до которой руки не добрались.
Когда потом делаешь анализ не всегда ясно отчего «курс акций» пошел вверх или вниз. У меня была идея, когда есть еще интерфейс, по типу дневника, в который заносятся все события, которые относятся к SEO. Они привязываются к дате внесения изменения и потом наносятся на график или просто выгружаются/отображаются.
Таким образом будет легче проконтролировать свои вмешательства в сайт.
НУ как пример — красная пунктирная линия на графике «курса» выдачи в поисковой ситеме. На линии указано к примеру «Произведено то-то и то...» Ну это, так… К примеру о реализации. Но вещь очень полезная получится.
Хорошо бы в конце поста выложить ссылку на весь код.
Хорошо, сделаю веб-интерфес, выложу все вместе на гитхабе.
На предыдущем месте работы, я один делал подобную штуковину, только она полностью автоматически собирала позиции. Это занимало достаточно много времени (в виду количества сайтов, которые надо проверить и упрямости яндекса). И все работало прекрасно, даже отчетики и акты клиентов в пдф рендерились.

Но сейчас в раскрутке вообще смысла крайне мало. Поисковики (яндекс с недавних пор) делают поисковую выдачу более персонализированной. Это значит, что вам на запрос «дерево» выдаст информацию про красно-черные деревья, а садовод получит информацию по саженцам. К тому же, очень давно уже запросы варьируются в зависимости от вашего региона (кстати эту возможность мой скрипт тоже предусматривал :-))
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации