Pull to refresh

Comments 31

Ты мега-маньяк :)
Про php curl можно забывать, я понял :)
UFO just landed and posted this here
UFO just landed and posted this here
Ага, я так, для разнообразия… А синтаксис у nokogiri похожий?
UFO just landed and posted this here
обратносовместимый, если ничего не путаю. Не только мерб, но и сам mechanize теперь использует nokogiri — буквально недавно ставил для своей задачи. У них один общий автор, так что эта интеграция радует, но не удивляет.
Hpricot слабо справляется с невалидным HTML'ем (на Мультитране или на Яндекс словарях точно не справляется), как у nokogiri с невалидностью? В любом случае, сам попробую =)
UFO just landed and posted this here
А мне кажется, не этично публиковать статьи о том, как «выдирать нужную вам информацию из web-страниц». Можно было подобрать куда более удачные примеры работы с регулярными выражениями и получения данных из неких веб-ресурсов.
Чем «получение данных из неких веб-ресурсов» отличается от «выдирать нужную вам информацию из web-страниц»? :) Разве что агрессивностью подачи ;)
возможно, товарищу показалось, что habr — не самый сложный сайт для парсинга.
напишите парсер для imbd ;)
Это не этично, т.к. является нарушением соглашения IMDB :)
Что-то у вас палевно как-то последние две буквы из 4-буквенной аббревиатуры получились ..)))
UFO just landed and posted this here
Зачем «заворачивать» все в ООП (по Вашим же словам), когда яснее будет просто написать одну функцию? У Вас, уважаемый, ООП головного мозга.
Может быть, может быть… Мы же только учимся — так веселей ;) Кстати, а что такое функция в Руби?
UFO just landed and posted this here
жесть! столько возился с парсерами на php и C#! есть ли аналоги для этих языков?
да, и кстати в случае с большим количеством текста в том же пхп лучше использовать strpos и substr. Намного быстрее. Как обстоят дела с этим в руби?
Парсит текст в случае hpricot, nokogiri отдельное приложение, написанное на Си, так что проблемы с производительностью тут минимальны
Памоиму быстрее pcre-regexps в php ничего в этом плане нет, сколько раз натыкался на тесты, в которых strpos/substr проигрывали на голову регекспам :)
de.php.net/manual/ru/function.preg-match.php
Не используйте функцию preg_match(), если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr(), поскольку они выполнят эту задачу гораздо быстрее.
Это ответ для AlexeyK
Большинство приложений на руби начинаются со строки

require 'rubygems'

У вас в примерах так же. Поясните плиз ее назначение? Это для того чтобы поддерживались зависимости при подключении других библиотек? Или сама Рубигемс содержит какие-то столь полезные и частоприменяемые методы (просто таковых не вижу тексте программ, но мало ли)?

Не подскажете, как установить на хостинг и потом использовать Sinatru (или что-то подобное, использующее другие библиотеки не входящие в стандартную комплектацию Руби) при условии что к хостингу есть доступ только по фтп, но там уже установлен Руби (в чистом виде) и мод_руби соответственно. Простенькие библиотеки использую пока элементарным скачиванием в папку их исходников и добавление пути к этим исходника в $LOAD_PATH в коде программы где необхадимо использовать эти библиотеки.
Начет Sinatra. Насколько я понимаю, тут даже мод_руби не нужен — веб-сервер встроен в фрэймворк — достаточно запустить .rb скрипт

Насчет require 'rubygems'. Это один из камней RubyGems. Необходимость в предзагрузке RubyGems — одна из больших проблем, которую команда пытается сделать как можно менее обременительной.
Извините за навязчивость, но можно попадробнее про «необходимость предзагрузки»? Просто я слабоведущ по данной тематике, а хочется разобратся.

Косательно Синатры, проблема не в веб сервире, а в том чтобы установить и настроить необходимые библиотеки имея лишь фтп доступ.
UFO just landed and posted this here
Отличный урок. Давно хотел на ruby разобраться с этой темой.
У меня вопрос может не совсем по теме, но давно интересует: Если написать скрипт для парсинга поисковиков, чтобы определить позицию сайта по нужному слову, т.е. переходить по страницам результатов поиска, пока не будет найдено нужное, то как отреагирует поисковик на это?
Забанит по ip? Если да, то что-же нельзя будет яндексом пользоваться всей конторе?
Кто-нибудь уже пробовал такое?
В инете есть сервисы подобные, но они слишком далеко не уходят по страницам.
Пробовали конечно, гугл определяет через 2-3 хопа (перехода) как однообразный запрос.
Если использовать прокси — тоже возможно, тут 2 варианта — или предложат капчу, или сразу забанят.
VPN типа hidemyass, парсер, и много много напильников )))
Sign up to leave a comment.

Articles