Как стать автором
Обновить

Комментарии 31

Ты мега-маньяк :)
Про php curl можно забывать, я понял :)
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Ага, я так, для разнообразия… А синтаксис у nokogiri похожий?
НЛО прилетело и опубликовало эту надпись здесь
обратносовместимый, если ничего не путаю. Не только мерб, но и сам mechanize теперь использует nokogiri — буквально недавно ставил для своей задачи. У них один общий автор, так что эта интеграция радует, но не удивляет.
Hpricot слабо справляется с невалидным HTML'ем (на Мультитране или на Яндекс словарях точно не справляется), как у nokogiri с невалидностью? В любом случае, сам попробую =)
НЛО прилетело и опубликовало эту надпись здесь
А мне кажется, не этично публиковать статьи о том, как «выдирать нужную вам информацию из web-страниц». Можно было подобрать куда более удачные примеры работы с регулярными выражениями и получения данных из неких веб-ресурсов.
Чем «получение данных из неких веб-ресурсов» отличается от «выдирать нужную вам информацию из web-страниц»? :) Разве что агрессивностью подачи ;)
возможно, товарищу показалось, что habr — не самый сложный сайт для парсинга.
напишите парсер для imbd ;)
Это не этично, т.к. является нарушением соглашения IMDB :)
Что-то у вас палевно как-то последние две буквы из 4-буквенной аббревиатуры получились ..)))
НЛО прилетело и опубликовало эту надпись здесь
Mechanize — вот это находка! Спасибо.
Зачем «заворачивать» все в ООП (по Вашим же словам), когда яснее будет просто написать одну функцию? У Вас, уважаемый, ООП головного мозга.
Может быть, может быть… Мы же только учимся — так веселей ;) Кстати, а что такое функция в Руби?
НЛО прилетело и опубликовало эту надпись здесь
жесть! столько возился с парсерами на php и C#! есть ли аналоги для этих языков?
да, и кстати в случае с большим количеством текста в том же пхп лучше использовать strpos и substr. Намного быстрее. Как обстоят дела с этим в руби?
Парсит текст в случае hpricot, nokogiri отдельное приложение, написанное на Си, так что проблемы с производительностью тут минимальны
Памоиму быстрее pcre-regexps в php ничего в этом плане нет, сколько раз натыкался на тесты, в которых strpos/substr проигрывали на голову регекспам :)
de.php.net/manual/ru/function.preg-match.php
Не используйте функцию preg_match(), если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr(), поскольку они выполнят эту задачу гораздо быстрее.
Это ответ для AlexeyK
Большинство приложений на руби начинаются со строки

require 'rubygems'

У вас в примерах так же. Поясните плиз ее назначение? Это для того чтобы поддерживались зависимости при подключении других библиотек? Или сама Рубигемс содержит какие-то столь полезные и частоприменяемые методы (просто таковых не вижу тексте программ, но мало ли)?

Не подскажете, как установить на хостинг и потом использовать Sinatru (или что-то подобное, использующее другие библиотеки не входящие в стандартную комплектацию Руби) при условии что к хостингу есть доступ только по фтп, но там уже установлен Руби (в чистом виде) и мод_руби соответственно. Простенькие библиотеки использую пока элементарным скачиванием в папку их исходников и добавление пути к этим исходника в $LOAD_PATH в коде программы где необхадимо использовать эти библиотеки.
Начет Sinatra. Насколько я понимаю, тут даже мод_руби не нужен — веб-сервер встроен в фрэймворк — достаточно запустить .rb скрипт

Насчет require 'rubygems'. Это один из камней RubyGems. Необходимость в предзагрузке RubyGems — одна из больших проблем, которую команда пытается сделать как можно менее обременительной.
Извините за навязчивость, но можно попадробнее про «необходимость предзагрузки»? Просто я слабоведущ по данной тематике, а хочется разобратся.

Косательно Синатры, проблема не в веб сервире, а в том чтобы установить и настроить необходимые библиотеки имея лишь фтп доступ.
НЛО прилетело и опубликовало эту надпись здесь
Отличный урок. Давно хотел на ruby разобраться с этой темой.
У меня вопрос может не совсем по теме, но давно интересует: Если написать скрипт для парсинга поисковиков, чтобы определить позицию сайта по нужному слову, т.е. переходить по страницам результатов поиска, пока не будет найдено нужное, то как отреагирует поисковик на это?
Забанит по ip? Если да, то что-же нельзя будет яндексом пользоваться всей конторе?
Кто-нибудь уже пробовал такое?
В инете есть сервисы подобные, но они слишком далеко не уходят по страницам.
Пробовали конечно, гугл определяет через 2-3 хопа (перехода) как однообразный запрос.
Если использовать прокси — тоже возможно, тут 2 варианта — или предложат капчу, или сразу забанят.
VPN типа hidemyass, парсер, и много много напильников )))
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории