Pull to refresh

Comments 96

Помню один знакомый парсил скриптом сайт чемпионата мира по футболу на предмет свободных мест которые ему подходили и присылал уведомления себе на почту о том что билет найден.
Я сайт РЖД так парсил когда то на предмет появления билетов. Обычная практика для программистов, видимо )
похоже на то.
заявление в ЗАГС подавал через электронную очередь, так чтобы на нужную дата/время попасть, просто URL подобрал и напрямую прошёл. А то без пяти полночь сайт напрочь зависал минут на 15, а до нужной ссылки надо было несколько шагов делать и пока дошёл бы, то уже всё занято было бы.
Я так же парсил себе работу
А я когда-то писал бота на резервирование собеседования на визу :)
А я запись на приём в финское консульство мониторил.
Там еще можно написать скрипт для «бронирования» мест для желающих ехать одному в купе, благодаря багу (или наоборот фиче) на сайте )
И где вы берёте такие идеальные сайты? В моём городе на «самом главном сайте по недвижимости» одна и та же квартира может быть выставлена раз 6, при этом в разных вариантах будут указаны разные цены, разные площади, этажи, и т.д. О реальных параметрах квартиры становится известно только уже по приходу, а на вопрос «какого черта?» риэлторы отвечают «та перепутали\так вышло\больше объявлений — больше шансов продать». Ну, что ты тут пропарсишь?
Тут сложно, да. Нужно какую-то эвристику прикручивать, чтобы находить дубликаты квартир… А риэлторы дормоеды, как по мне, и играют нечестно, бывает.
А они вообще честно играют?
Я лично знаком с ровно одним кристально честным риэлтером. Причем я и покупал через нее квартиру, и продавал, и сдавал. Жильцов она мне, к тому же, нашла идеальных — они сами ремонт косметический сделали, еле уговорил взять деньги за обои :)
А в каком городе? Контактами не поделитесь?
Город у меня написан в хабрацентре. Если вы серьезно, то подробности — в личку.
UFO just landed and posted this here
Да, интересно было бы источник увидеть и город узнать.
По питеру по продающимся квартирам более или менее ситуация нормальная, порядка 90% вариантов в принципе реальные.
Однако по сдающимся квартирам реальных вариантов около 3%, остальные рекламные и примерные или же устаревшие.
Отчасти это объясняется тем, что продающиеся квартиры обычно висят несколько месяцев до продажи, а арендованные уходят за пару дней — поэтому реальные варианты зачастую и выставлять смысла нет.
Но тем не менее факт есть факт, базы реальных арендных квартир в питере просто нет.
Повеселили, только русский программист способен на такое!
UFO just landed and posted this here
Почему «только»? Предполается, что ушлый датчанин или изралитянин такого делать не будет?
Не, мы ленивые, мы обычно пользуемся дармовым трудом русских программистов :-)
P.S. Судя по карточке пользователя, автор статьи из Беларуси.
Какой же это ад, наверное, для программистов когда заказчик не просто тп, но и ленивое жпп(жалкое подобие программиста), которое думает что тоже знает как надо делать(
Я сейчас вам сломаю всю вселенную: я делал подобное, я программист и я не русский.
Россия многонациональная страна! Быть русским — не значит иметь в паспорте надпись и бегать с имперским флагом. Понятие русский намного шире, чем Вы, дорогие «ушлый датчанин или изралитянин», которые при этом пишут на русском, можете себе представить!
Рад за Россию, но я там не живу и жить не планирую. Как вообще связаны между собой язык, генетические особенности, национальность и подданство? На Хабре вообще-то принято писать по-русски. Даже в правилах так написано:

Мы любим русский язык и не любим тех, кто его коверкает.


Но все ли, кто говорит по-русски — автоматически становятся русскими? А если я тремя языками владею свободно, я сразу трёхнациональным становлюсь? А если кто-то относит себя к одной национальности, живёт в другой стране, а гражданство имеет третьей, то как быть? В общем, русские — это такой восточнославянский этнос. Многочисленный, но не единственный на планете, и ровно такой же уникальный, как и любой другой. И быть русским — это обладать заметной частью признаков этого этноса и идентифицировать себя с ним. А учитывая, что автор статьи из Республики Беларусь, то с большой вероятностью он относится к другому восточнославянскому этносу — к белорусам (не единственному на планете, и ровно такому же уникальному, как любой другой). Думаю, вам бы вряд ли было приятно, если бы вас так безапелляционно записали в удмурты или тутси. Почему вы себе такое позволяете для меня загадка.
Для саморазвития можете посмотреть выступления Задорнова М.Н. Он, к слову, родился в Латвии.
"… генетические особенности, национальность и подданство..." — Вы настолько сноб, что готовы придраться к любой фразе, которая на Ваш взгляд неверно употреблена, а надо, всего лишь, посмотреть под другим углом.

Да, и ещё, умение трактовать правила хабра в своих интересах это ужасно! Данная фраза написана не в ущерб иноязычным статьям/постам и т.п., а тем, кто употребляет сенг, сокрашения, смайлики, жаргон и прочую нечисть.
> Для саморазвития можете посмотреть выступления Задорнова М.Н.

Плюсую. Например, вы знали, что английское слово «intransigent» произлошло от русских слов «бог» и «ложка»?
А вы знали, что абсолютно все «открытия» господина Задорнова в словообразовании — антинаучная туфта? Честно-честно. Почитайте, что ли, что думают о его идеях лингвисты…
Или я уже шуток не понимаю… в таком случае, простите. Просто безмерно раздражает он меня — гадит людям в уши…
Это была шутка, конечно. Сложно найти кого-то, кто несёт большую чушь, чем он. Начиная от происхождения слов и заканчивая рассказами о том, как американские студенты не могли понять, как варить картошку.
Знаете, над некоторыми вещами лучше не шутить. И не потому, что «святое», а потому, что больное. Я лично знаю людей (и вполне адекватных, причем репродуктивного возраста), которые некоторые заявления этого господина вполне себе принимают на веру.
Вы меня напугали слегка своим тонким троллингом :)
Для саморазвития можете посмотреть выступления Задорнова М.Н.
Ой, всё…
Вот именно. Русский — давно уже перестало является только обозначением этнической группы.
Моим предыдущим комментарием я пытался в сдержанно комической форме выразить удивление от того, что кому-то предлагают (не всерьёз, надеюсь :)) использовать выступления Задорнова М.Н. для саморазвития
Знатный у вас оксюморон получился. Я готов мириться с ярмом сноба, но не готов для саморазвития смотреть выступления Задорнова М. Н., родись он хоть на Луне. Саморазвитие в том направлении, которое задаёт этот конкретный человек, в моей системе моральных координат равнозначно даже не движению назад — движению в направлении, перпендикулярном здравому смыслу.

Вашу точку зрения я понял, надеюсь вы понимаете мою. Судя по большой разнице во взглядах на жизнь, стоит ли продолжать дискуссию, тем более, что от тематики данного ресурса она бесконечно далека?
Простите великодушно, а для вас русский язык является родным?
Спрашиваю исключительно из интереса — восхищен, как вы им владеете :)
Да какая разнится — русский или нет? просто когда нечем гордиться, то и цвет кожи ьывает сгодится.
Я помню историю, как один товарищ парсил сайт знакомств. Дело в том, что сайт выдавал только некоторую часть информации по каждому объекту. Поэтому товарищ автоматически регил несколько клонов до тех пор, пока не получал всю информацию. Ну, потом все это в базу данных и сортировка по нужному компаратору. Насколько я помню, он нашел что искал.
Да, а еще можно ботом просто ходить по «правильным» анкетам. А потом владельцы этих анкет будут заходить к тебе в гости в ответ. И смотреть твой профиль. И тут уже можно поиметь кусочек профита.
И нет, жену себе я не так искал :)
Мы не расскажем вашей жене про то, как вы сейчас пропалили любовницу.
из текста, таки не следует, что два субъекта — «жена» и «не жена», были одновременно.
Так и не следует что не занимается поиском жён на добровольных/бизнеса началах. А ещё не следует что он не занимался поиском не для себя не жены… Странное занятие О_-
А кому ещё кроме себя искал?)
Мне кажется давно пора всяким сайм по недвижимости помимо формы давать еще «поиск для профессионалов» где писать прям sql (назовем это RQL realty query language)
уже запилили, давно, кстати, не знаю, взлетел ли.
на тему «найти мужа программиста», кажется
только надо определить там свои жёсткие стандарты, а то ведь и там начнётся кто в лес, кто по дрова
Сразу API нужно к любым каталогам прикручивать.
Вы бы ещё коммунизм предложили построить и фейсбуку социальный граф весь в открытый доступ без лимитов выложить со стриммингом изменений… Ага
Для парсинга можно прикупить пачку прокси. Но не вежливо беспощадно долбить сервер, лучше сразу разумную паузу выставлять, в зависимости от посещаемости и скорости работы сайта.
Уже с десяток форков репы сделали, так что версия скрипта с поддержкой прокси может появиться уже скоро.
не вежливо долбить сервер и не смотреть рекламу.
Наш офис на этом сайте тоже беспощадно забанен на их стороне, видимо кто-то из наших этим поиском тоже не был удовлетворён.
Когда мне надо было кошку купить, я сделал сайт про куплю-продажу животных. И ничего парсить не пришлось.
Интересно, а сколько часов ушло на написание парсера?
UFO just landed and posted this here
Ну, таким парсингом еще можно машинку стресс-тестить, например. Ну, или не машинку а сервер — кто там знает, чем программист занимается в чёрной консоли.
UFO just landed and posted this here
А ещё можно за ночь на 300тр слить трафика для компании, тестово выкрутив параметр перед уходом домой. Странно вообще по офисному каналу что либо лить для парсинга, дешевле и спокойнее ту же vds брать для кача и извлечения полезной нагрузки с последующим сжатием и передачей куда надо. например, с террабайта траффика получаем 30гб структурированных данных -> сжимаем в 3-5 гб и льём -> профит в 1000/5 == 200 раз)
> 2015 год
> на 300 тр слить трафика
Это до сих пор не очень сложно. Всё зависит от координат.
1. 300 тысяч рублей
2. Это было пару лет, раз уж было, хотя это ничего не меняет, т.к. п. 1 =)
1. Юрики — сразу ценник отдельный.
2. Есть такие места, типа Таймыра, Камчатки, где трафик до сих пор помегабайтно (сам за ночь сливал на 2500, всего 8 лет назад, а я ведь в Европейской части).
Ну уж искать расстояние между двумя точками в пределах одного города, исходя из сферичности земли — то ещё приближение. Искривление рельефа большую погрешность внесёт, да и вообще в пределах города (и в столь локальных, как 2км до метро) правильней использовать даже не евклидову, а манхэттенскую метрику.
Манхэттенскую метрику использовать не получится — разные районы города могут быть по-разному «повернуты». Но евклидова как приближение сойдет.
Да, про поворот не подумал, значение в полтора раза может отличаться от действительного.
К слову, последний этаж тоже имеет свои недостатки. У многих домов бывают проблемы с крышей, и если она течет — страдать будут в первую очередь владельцы квартир на последнем этаже.
Да, согласен. Поэтому из всех последне-этажных квартир, знакомый выбрал самую нетекущую.
Когда-то давно тоже понадобилось писать скрейпер с нескольких тематических сайтов. Но понимание что забанят было сразу. Поэтому мы нашли места где публикуют адреса анонимных прокси-серверов. С утреца приходишь, берёшь свежую пачку прокси и суёшь в проверялку — она по быстрому проверяет что прокси адекватные, т.е. не искажают респонз своим кодом. После этого адекватных суёшь в качалку — и начинается ддос. Но там тоже было без фанатизма, запросы размазаны по времени. Со временем прокси прокисают — банятся или просто перестают работать — заменяешь свежими.
А с выбором города не приходилось возиться? Тот же поиск квартир на разных сайтах потребует выбор необходимого города постоянно, что может сильно усложнить ситуацию. Автор, я так понимаю, не возился с этим, так как просто использовал локальный IP для своего города.
Нет, дело не в IP. В скрипте используется захардкоженный URL, который ищет квартиры в нужном городе.
Увы, не везде это прокатит. Выбор города может совершенно разными способами происходить. Кукой, например, или даже в сессии храниться. Приходиться глубоко копать на некоторых сайтах.
Именно поэтому был выбрал сайт, агрегирующий все квартиры от агентств и собственников.
Странно, что не прицепили скраперы для списков проксей… не? Тем более в комплексе Вашей задачи)
В режиме глубокого парсинга скрипт мог сильно нагружать сервер, долбя его просьбами на отдачу тысяч страниц.

за такой парсинг надо отрывать все выступающие части тела.

Уж не знаю, почему это произошло. Возможно, «какая-то вирусная программа слала много запросов на сервер» или сразу несколько десятков сотрудников компании решили поискать себе жилье. Но, как бы то ни было, нас забанили.

ну конечно. виноваты сотрудники и вирусы. ха-ха!
Не они что ли? Ну ок, ещё пару выходных узлов тора держат админы на серверах с 1с, норм)
Я на best-proxies списки прокси покупал. Наверное их можно и бесплатно найти, но за те копейки и удобную выдачу, почему нет.
Насчет Москвы не знаю, в городах типа 500К квартиры лучше вручную искать, на рынке не так много предложений, а на поиск жилья, в котором будешь жить не менее года, лучше потратить время.
А теперь осталось только написать парсер (агаа), который парой (сотен) несложных телефонных звонков выкинет квартиры с обременением, вбросы агентов по оценке стоимости, собственников которые внезапно решают передумать продавать, квартиры, где ванна на кухне, кухня в коридоре, коридор в пристройке, нежилой фонд, продаваемый под видом жилого, мансарды и цоколи, выдаваемые за последний и первые этажи, дома в аварийном состоянии, незакрытые встречки, под видом прямых продаж, долевую собственность в виде отдельных квартир, ведомственную собственность, и, ой, а останется ли вообще чего?
Жестко там у вас в Питере, судя по всему…
С арендой ещё хуже. Почти везде — агенты, полно фейков. Это было бы не так плохо, если бы агенты не брали себе 100% стоимости месяца аренды в качестве комиссии.
А чего Вы так скептически? Берёте симбанк, надиктовываете вопросы, цепляете гугловую голосознавалку и проверяете)
Наверняка у каждого была подобная история)) Мы как-то писали парсер для кимсуфи — нужно было арендовать сервер, а их ну уж очень быстро расхватывали.
Я так машину себе покупал.
Написал парсер, который отслеживал цены по интересным мне моделям и маркам с учётом курса доллара.
На пике цены USD/RUR взял себе отличную Subaru Tribeca, верно прослужившую мне годы.
Интересно, квартира получается была куплена без риэлтора? Мне просто кажется нет, а значит рояльти уже было заложено в стоимость и можно было просто пойти сразу в агенство недвижимости. У меня мама риэлтор если что :)
Да, квартира была куплена через агентство. И да, агенты получили свои деньги. Но поход в агентство мог не сработать в случае моего знакомого. Ведь он сознательно ограничил бы себе выбор, пойдя в какое-то конкретное агентство. Почему? Потому что агентство X продает квартиры Nx, а агентство Y — квартиры Ny. В общем случае множества Nx и Ny не должны пересекаться. Уж лучше выбирать из всего множества квартир, ведь целевой сайт для парсинга — агрегатор всех квартир из агентств и собственников.
Я Вас сейчас удивлю, но часто бывает когда 2-3 риэлтора участвуют в цепочке продажи квартиры. Потому что у А, не было квартиры, но зато она была у Б, который знал что есть у В риэлтора. Там очень хитрые связи, говорю же я не с проста знаю ;)
Проблема современного мира в том, что расплодилось слишком много сервисов, в то время как исчезли базы данных в удобоваримом виде. Когда вы последний раз сливали базу телефонных номеров, например, Москвы? А базу IP-геолокаций? Выходных нод TOR-а? Да и просто банальный справочник организаций в каком нить CSV формате.

Зато вебдванольных сайтов-сервисов с jquery и кнопочками like…

Ну и в копилку еще базы данных каталогов товаров в интернет-магазинах. Каждый таким же способом высасывает данные у соседа
Стращаете, сударь… Список выходных узлов тора — 1 запрос, база геолокаций — тоже самое, базу телефонных номеров — наверное, сложнее будет-прилется в цикл кач воткнуть. И получится что-то типа: curl $enodes_url >tor.exits; curl $geoip_url > geo; for i in {1..$PNUM}; do update_exit_node tor.exits geo; curl --proxy socks5://localhost:9050 $phones_url"$i"|grep -Eo "$phone_re\|$other_info_re"; done
По-моему, у каждого из нас есть подобная история =)

Я лично парсил объявления из платного раздела, не приобретая никаких подписок (мне повезло, лазейку найти все-таки смог). После слива всей базы, отписался в поддержку, где эту лазейку смогли закрыть только через недели 2-3.
Даже «спасибо» не сказали. Сижу и думаю: может и не стоило играть в доброго героя?
Для web-crawling'a существует довольно приятный инструмент Scrapy, а с ним теперь и splash для рендеринга js.
А все было бы проще и всем было бы проще, если бы:
1) на сайте был продвинутый функционал;
2) на сайте было бы API для доступа к сырым данным;
ну вообщем вы меня поняли, как вы к людям — так и они к вам…
не смог пройти мимо. вставлю и свои пять копеек. у меня был простой парсер на Python, который выдавал мне список статей в топе хабра с урлом (на старом дизайне ещё).
Лакмусовый пост парсерами померяться)))
Sign up to leave a comment.

Articles