MaxElc10 фев 2009 в 16:02

Покорим Ruby вместе! Капля двенадцатая

4 мин

18K

Программирование *

+31

Комментарии 31

AlexeyK 10 фев 2009 в 18:58

Ты мега-маньяк :)
Про php curl можно забывать, я понял :)

НЛО прилетело и опубликовало эту надпись здесь

MaxElc 10 фев 2009 в 19:27

Ага, я так, для разнообразия… А синтаксис у nokogiri похожий?

НЛО прилетело и опубликовало эту надпись здесь

ptiss 11 фев 2009 в 08:14

обратносовместимый, если ничего не путаю. Не только мерб, но и сам mechanize теперь использует nokogiri — буквально недавно ставил для своей задачи. У них один общий автор, так что эта интеграция радует, но не удивляет.

pahanix 10 фев 2009 в 21:49

Hpricot слабо справляется с невалидным HTML'ем (на Мультитране или на Яндекс словарях точно не справляется), как у nokogiri с невалидностью? В любом случае, сам попробую =)

НЛО прилетело и опубликовало эту надпись здесь

imagick 10 фев 2009 в 19:47

А мне кажется, не этично публиковать статьи о том, как «выдирать нужную вам информацию из web-страниц». Можно было подобрать куда более удачные примеры работы с регулярными выражениями и получения данных из неких веб-ресурсов.

MaxElc 10 фев 2009 в 19:49

Чем «получение данных из неких веб-ресурсов» отличается от «выдирать нужную вам информацию из web-страниц»? :) Разве что агрессивностью подачи ;)

thevery 10 фев 2009 в 19:53

возможно, товарищу показалось, что habr — не самый сложный сайт для парсинга.
напишите парсер для imbd ;)

MaxElc 10 фев 2009 в 19:56

Это не этично, т.к. является нарушением соглашения IMDB :)

Nakilon 11 фев 2009 в 00:53

Что-то у вас палевно как-то последние две буквы из 4-буквенной аббревиатуры получились ..)))

НЛО прилетело и опубликовало эту надпись здесь

Nakilon 11 фев 2009 в 01:18

Mechanize — вот это находка! Спасибо.

chiaroscuro 11 фев 2009 в 04:06

Зачем «заворачивать» все в ООП (по Вашим же словам), когда яснее будет просто написать одну функцию? У Вас, уважаемый, ООП головного мозга.

MaxElc 11 фев 2009 в 04:53

Может быть, может быть… Мы же только учимся — так веселей ;) Кстати, а что такое функция в Руби?

НЛО прилетело и опубликовало эту надпись здесь

vooD 11 фев 2009 в 10:18

жесть! столько возился с парсерами на php и C#! есть ли аналоги для этих языков?

vooD 11 фев 2009 в 10:20

да, и кстати в случае с большим количеством текста в том же пхп лучше использовать strpos и substr. Намного быстрее. Как обстоят дела с этим в руби?

MaxElc 11 фев 2009 в 10:23

Парсит текст в случае hpricot, nokogiri отдельное приложение, написанное на Си, так что проблемы с производительностью тут минимальны

AlexeyK 11 фев 2009 в 10:24

Памоиму быстрее pcre-regexps в php ничего в этом плане нет, сколько раз натыкался на тесты, в которых strpos/substr проигрывали на голову регекспам :)

vooD 11 фев 2009 в 10:29

de.php.net/manual/ru/function.preg-match.php
Не используйте функцию preg_match(), если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr(), поскольку они выполнят эту задачу гораздо быстрее.

vooD 11 фев 2009 в 10:30

Это ответ для AlexeyK

ZEGO 11 фев 2009 в 12:51

Большинство приложений на руби начинаются со строки

require 'rubygems'

У вас в примерах так же. Поясните плиз ее назначение? Это для того чтобы поддерживались зависимости при подключении других библиотек? Или сама Рубигемс содержит какие-то столь полезные и частоприменяемые методы (просто таковых не вижу тексте программ, но мало ли)?

Не подскажете, как установить на хостинг и потом использовать Sinatru (или что-то подобное, использующее другие библиотеки не входящие в стандартную комплектацию Руби) при условии что к хостингу есть доступ только по фтп, но там уже установлен Руби (в чистом виде) и мод_руби соответственно. Простенькие библиотеки использую пока элементарным скачиванием в папку их исходников и добавление пути к этим исходника в $LOAD_PATH в коде программы где необхадимо использовать эти библиотеки.

MaxElc 11 фев 2009 в 13:17

Начет Sinatra. Насколько я понимаю, тут даже мод_руби не нужен — веб-сервер встроен в фрэймворк — достаточно запустить .rb скрипт

Насчет require 'rubygems'. Это один из камней RubyGems. Необходимость в предзагрузке RubyGems — одна из больших проблем, которую команда пытается сделать как можно менее обременительной.

ZEGO 12 фев 2009 в 13:13

Извините за навязчивость, но можно попадробнее про «необходимость предзагрузки»? Просто я слабоведущ по данной тематике, а хочется разобратся.

Косательно Синатры, проблема не в веб сервире, а в том чтобы установить и настроить необходимые библиотеки имея лишь фтп доступ.

НЛО прилетело и опубликовало эту надпись здесь

blackstone 11 фев 2009 в 14:20

Отличный урок. Давно хотел на ruby разобраться с этой темой.
У меня вопрос может не совсем по теме, но давно интересует: Если написать скрипт для парсинга поисковиков, чтобы определить позицию сайта по нужному слову, т.е. переходить по страницам результатов поиска, пока не будет найдено нужное, то как отреагирует поисковик на это?
Забанит по ip? Если да, то что-же нельзя будет яндексом пользоваться всей конторе?
Кто-нибудь уже пробовал такое?
В инете есть сервисы подобные, но они слишком далеко не уходят по страницам.

AlexeyK 11 фев 2009 в 14:38

Пробовали конечно, гугл определяет через 2-3 хопа (перехода) как однообразный запрос.
Если использовать прокси — тоже возможно, тут 2 варианта — или предложат капчу, или сразу забанят.

hazg 22 янв 2011 в 16:16

VPN типа hidemyass, парсер, и много много напильников )))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий