Pull to refresh

Comments 4

Ради читаемости стоит вынести текст запросов в отдельные строковые переменные, но заказчику читаемость не важна.
Лучше использовать ORM.

p.s. и что это за слово такое «скрейпинг»? Я понимаю, если бы без перевода оставили… Да и в любом случае, это, по сути, синоним extracts в данном случае, так что можно просто сказать «извлекать» или просто «получать».
Лучше использовать ORM.

Ну, это уже будет не только ради читаемости :)


Тут можно использовать ORM, да. Но "лучше" — это немного субъективно. Я стараюсь держаться подальше от холивара "ORM vs. raw SQL".


и что это за слово такое «скрейпинг»?

Это слово, которым скрейперы иногда называют скрейпинг :)


Хочется сказать, что "так исторически сложилось", но, на самом деле общепринятого устоявшегося русскоязычного термина для этого понятия пока нет, и скрейпинг иногда как только не называют. Это точно не просто "получение" или "извлекание", а вполне конкретная разновидность получения или извлекания. Термин "scraping" в английском изначально был жаргонным, но прижился (он означает выскребание данных из источников, явно для этого не предназначенных). Может и "скрейпинг" в русском приживётся, но не факт. Пока в сети большая часть общения о скрейпинге идёт на английском, так что проще использовать английский устоявшийся термин (как в случае с "браузером"), а не тратить время на внедрение "правильного" русскоязычного термина.


Если руки дойдут — сделаю статью по терминологии в этой области.

А как насчёт парсить и парсинг? На любой русскоязычной фриланс бирже встретите.

Встречу. Но это не одно и то же.


Парсинг — это преобразование строки в удобные для программы данные, а веб-скрейпинг — это вытаскивание данных со страниц. Ну, это если грубо.


В первой статье цикла я вроде бы показал как соотносятся парсинг со скрейпингом.


На импортных биржах "parsing" — это когда, например, есть здоровенный файл (или куча файлов) в экзотическом формате и надо из него надёргать данные. А "scraping" там — это когда есть сайт, с которого надо вытащить данные, тем или иным способом, хоть скриптом, хоть копипейстом.


Короче, я понял, проблема есть. Постараюсь сделать статью с терминологией по всей этой области.

Sign up to leave a comment.

Articles