MaxElc Feb 10 2009 at 19:02

Покорим Ruby вместе! Капля двенадцатая

4 min

18K

Programming*

+31

Comments 31

AlexeyK Feb 10 2009 at 21:58

Ты мега-маньяк :)
Про php curl можно забывать, я понял :)

UFO just landed and posted this here

MaxElc Feb 10 2009 at 22:27

Ага, я так, для разнообразия… А синтаксис у nokogiri похожий?

UFO just landed and posted this here

ptiss Feb 11 2009 at 11:14

обратносовместимый, если ничего не путаю. Не только мерб, но и сам mechanize теперь использует nokogiri — буквально недавно ставил для своей задачи. У них один общий автор, так что эта интеграция радует, но не удивляет.

pahanix Feb 11 2009 at 00:49

Hpricot слабо справляется с невалидным HTML'ем (на Мультитране или на Яндекс словарях точно не справляется), как у nokogiri с невалидностью? В любом случае, сам попробую =)

UFO just landed and posted this here

imagick Feb 10 2009 at 22:47

А мне кажется, не этично публиковать статьи о том, как «выдирать нужную вам информацию из web-страниц». Можно было подобрать куда более удачные примеры работы с регулярными выражениями и получения данных из неких веб-ресурсов.

-6

MaxElc Feb 10 2009 at 22:49

Чем «получение данных из неких веб-ресурсов» отличается от «выдирать нужную вам информацию из web-страниц»? :) Разве что агрессивностью подачи ;)

thevery Feb 10 2009 at 22:53

возможно, товарищу показалось, что habr — не самый сложный сайт для парсинга.
напишите парсер для imbd ;)

MaxElc Feb 10 2009 at 22:56

Это не этично, т.к. является нарушением соглашения IMDB :)

Nakilon Feb 11 2009 at 03:53

Что-то у вас палевно как-то последние две буквы из 4-буквенной аббревиатуры получились ..)))

UFO just landed and posted this here

Nakilon Feb 11 2009 at 04:18

Mechanize — вот это находка! Спасибо.

chiaroscuro Feb 11 2009 at 07:06

Зачем «заворачивать» все в ООП (по Вашим же словам), когда яснее будет просто написать одну функцию? У Вас, уважаемый, ООП головного мозга.

MaxElc Feb 11 2009 at 07:53

Может быть, может быть… Мы же только учимся — так веселей ;) Кстати, а что такое функция в Руби?

UFO just landed and posted this here

vooD Feb 11 2009 at 13:18

жесть! столько возился с парсерами на php и C#! есть ли аналоги для этих языков?

vooD Feb 11 2009 at 13:20

да, и кстати в случае с большим количеством текста в том же пхп лучше использовать strpos и substr. Намного быстрее. Как обстоят дела с этим в руби?

MaxElc Feb 11 2009 at 13:23

Парсит текст в случае hpricot, nokogiri отдельное приложение, написанное на Си, так что проблемы с производительностью тут минимальны

AlexeyK Feb 11 2009 at 13:24

Памоиму быстрее pcre-regexps в php ничего в этом плане нет, сколько раз натыкался на тесты, в которых strpos/substr проигрывали на голову регекспам :)

vooD Feb 11 2009 at 13:29

de.php.net/manual/ru/function.preg-match.php
Не используйте функцию preg_match(), если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr(), поскольку они выполнят эту задачу гораздо быстрее.

vooD Feb 11 2009 at 13:30

Это ответ для AlexeyK

ZEGO Feb 11 2009 at 15:51

Большинство приложений на руби начинаются со строки

require 'rubygems'

У вас в примерах так же. Поясните плиз ее назначение? Это для того чтобы поддерживались зависимости при подключении других библиотек? Или сама Рубигемс содержит какие-то столь полезные и частоприменяемые методы (просто таковых не вижу тексте программ, но мало ли)?

Не подскажете, как установить на хостинг и потом использовать Sinatru (или что-то подобное, использующее другие библиотеки не входящие в стандартную комплектацию Руби) при условии что к хостингу есть доступ только по фтп, но там уже установлен Руби (в чистом виде) и мод_руби соответственно. Простенькие библиотеки использую пока элементарным скачиванием в папку их исходников и добавление пути к этим исходника в $LOAD_PATH в коде программы где необхадимо использовать эти библиотеки.

MaxElc Feb 11 2009 at 16:17

Начет Sinatra. Насколько я понимаю, тут даже мод_руби не нужен — веб-сервер встроен в фрэймворк — достаточно запустить .rb скрипт

Насчет require 'rubygems'. Это один из камней RubyGems. Необходимость в предзагрузке RubyGems — одна из больших проблем, которую команда пытается сделать как можно менее обременительной.

ZEGO Feb 12 2009 at 16:13

Извините за навязчивость, но можно попадробнее про «необходимость предзагрузки»? Просто я слабоведущ по данной тематике, а хочется разобратся.

Косательно Синатры, проблема не в веб сервире, а в том чтобы установить и настроить необходимые библиотеки имея лишь фтп доступ.

UFO just landed and posted this here

blackstone Feb 11 2009 at 17:20

Отличный урок. Давно хотел на ruby разобраться с этой темой.
У меня вопрос может не совсем по теме, но давно интересует: Если написать скрипт для парсинга поисковиков, чтобы определить позицию сайта по нужному слову, т.е. переходить по страницам результатов поиска, пока не будет найдено нужное, то как отреагирует поисковик на это?
Забанит по ip? Если да, то что-же нельзя будет яндексом пользоваться всей конторе?
Кто-нибудь уже пробовал такое?
В инете есть сервисы подобные, но они слишком далеко не уходят по страницам.

AlexeyK Feb 11 2009 at 17:38

Пробовали конечно, гугл определяет через 2-3 хопа (перехода) как однообразный запрос.
Если использовать прокси — тоже возможно, тут 2 варианта — или предложат капчу, или сразу забанят.

hazg Jan 22 2011 at 19:16

VPN типа hidemyass, парсер, и много много напильников )))

Show the best of all time