Pull to refresh
21
0
Антон @Assargin

Python-разработчик

Send message
Ээээм… Я писал с точки зрения решения задачи определения позиций определенного сайта в поисковиках по определенным словам и фразам ))
Да нет, если соблюдать временной промежуток, я ставлю рандомно — от 2 до 4 секунд, но опыт мне говорит, что надо поболее, все равно, каюсь, капча вываливается иногда…

Вообще это часть небольшого внутреннего проекта моей компании. Проект небольшой и функция его — анализировать позиции по ключевикам определенного сайта в поисковиках, поскольку все эти семониторы платные + демо версия семонитора отказалась работать после вчерашнего апа яндекса)) а я просто поправил регулярки)).

Как правило, анализируют сразу в нескольких поисковиках, потому можно все сделать таким образом, что не добить сначала яндекс, потом гугл и пр., а поочередно)) Тогда многократно падает вероятность показа капчи (что со стороны яндекса, что со стороны гугла), да и промежуток временный в 2-4 секунды уже будет не актуален вообще, либо для порядку, чтобы нагрузки не было, сократится максимум до 1 с… и не будет бесполезной утечкой времени))

Подход, состоящий в парсинге пользовательской выдачи, конечно, посложнее, чем YaXML, но зато я точно знаю, что результаты аналогичны тому, что видят пользователи, и я не ограничен в количестве запросов))
Блин, хабр похерил символы из регулярок, если что — пишите в личку, скину…
YaXML — какой-то не такой, там 1000 запросов мона с определенного АйПи в сутки… Да и слухи ходили и рядах seo-спецов, что выдача YaXML отличается бывает от выдачи, что обычным пользователям показывается.

ИМХО намного лучше юзать обычную пользовательскую выдачу, как я делаю, ничего сложного нету:
— запрос GET, юзабельные параметры: text — текст запроса, p — номер страницы выдачи (0, 1, ...) да и numdoc — число рез-тов на страницу (10, 20, 50 вроде помню допустимы, ессессно, для уменьшения нагрузки используйте максимум)))
— полученную страницу прогоняете через регулярное выражение, вот мой вариант, кстати, исправленный сегодня в учетом вчерашнего апа: #.*]*tabindex[^>]*href=«([^»]+)«[^>]*>(.+).*#Ui

На выходе получаете массив (numdoc элементов в нем) массивов (3 эл-та в подмассиве: html с одним результатом выдачи, url найденной страницы выдачи, ее заголовок)

ну и опять же, с учетом вчерашнего апа, теперь кликнув на результат выдачи, вы пойдете на что-то вроде clck.yandex.ru/redir/dtype=iweb/path=80.22.82/vars=84=86… reqid=1219118886-18378/*http://www.vinzavod.ru/
Поэтому теперь еще надо дополнительно, чтобы извлечь url найденной страницы, нужно прогнать написанное выше через выражение: /[\*](http:.*)$/Ui, и получите на выходе: www.vinzavod.ru/

Я класс на PHP написал, пользуюсь, не жалуюсь))
Единственное что надо соблюдать, так это паузы между запросами, секунды 3 и более бывает вроде как достаточно, чтобы яндекс нас за робота не посчитал…

P.S: Мог бы в блоги писать, оформил бы по этому статью
Ни в коем разе, встреча обязательно должна состояться! Просто время покажет, стоящее ли это дело для коммерциализации… но миллионы долларов тут я пока не вижу как можно сделать))
У меня есть одно желание — чтобы такие встречи не подмял под себя какой-нить хитрозадый индивид и не оформил это все аналогично phpconf за многотясыч русских денег… Хотя, наверно к этому все и придет((
Да, Dell и у меня издавна ассоциируется с качественным дизайном и исполнением
Без творческого беспорядка в нашем деле никуда))
IT изначально подразумевает прозрачность процессов, быструю передачу информации и быстрое принятие решение, автоматическое или полуавтоматическое. Так что вопрос лишь в том, как скоро и в полном ли объеме IT войдет в сферы, кишащие коррупцией.
И понятия вроде "невалидная бумага" будут уже архаизмами))
Успехов тебе, верь, и все должно получиться:)
Мда... Помню, когда еще коментов к статье не было, у тебя Kremen была положительная карма.. Весьма положительная
Зарегился, создал сайт, anton.v-teme.com (вот те на какой домен отхватить успел))
Хм) там можно выбрать шаблон дизайна)) Ёма, narod.ru))

Полазил.. если честно, не понял основной идеи Вашего стартапа.. Ну сайты.. ну видео.. фотки опять же... это социальная сеть? блоговый сервис?
Я вообще не в теме, сам ищу систему для поиска. В описании Xapian понравился внушительный список типов индексируемых документов, инкрементный индекс ну и API с моим любимым PHP))
По крайней мере, эта "единая система передачи координат с мобильника на мобильник" должна быть опциональной и при необходимости отключаемой, как и сам телефон))
Неплохо!) Я, как любитель таких вот универсальных штуковин давно хотел придумать себе что-то подобное для обработки ошибок и исключений. Теперь отталкиваться буду от Вашего метода.
Согласен, но не стоит, впрочем, всегда уповать не железо. Все равно программисты, умеющие заменить "for(x=0; x<1000000..." на что-то более красивое (решая тем самым задачу в духе олимпиад по программированию) цениться будут всегда!
Неплохая реализация, сейчас попробую!
ИМХО, гораздо проще сразу после соединения с БД выполнять SET NAMES CP1251 или SET CHARACTER SET CP1251
А я вот, только на 45% Male))
Пост ни о чем!

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity