Pull to refresh

Pastebin изменил правила поиска и скрапинга. Исследователи безопасности недовольны

Information Security *Search engines *Open source *Programming *
image

По информации Vice, исследователей безопасности разочаровало решение разработчиков Pastebin изменить поиск и правила скрапинга. Теперь они не могут использовать для этих действий API, за доступ к которому отдали до $50 (за пожизненную подписку).
Total votes 12: ↑11 and ↓1 +10
Views 9.4K
Comments 7

Скрапинг бесконечно прокручивающейся страницы

Python *Programming *
Translation

Скрапинг бесконечно прокручивающейся страницы


Добро пожаловать в советы по Scrapy от профессионалов! В этом месяце мы поделимся несколькими уловками, чтобы помочь ускорить вашу работу связанную с веб-скрапингом. Как ведущие мэйнтейнеры Scrapy мы сталкиваемся с каждыми препятствием, которое вы можете себе представить. Так что не волнуйтесь — вы в надёжных руках. Не стесняйтесь контактировать с нами в твиттере или фейсбуке с любыми предложениями для будущих статей.



В эру одностраничных приложений и тонн AJAX-запросов на одной странице множество веб-сайтов заменили кнопку навигации "вперёд/назад" на причудливый механизм бесконечной прокрутки страницы. Веб-сайты использующие этот механизм загружают новую сущность каждый раз, когда пользователь достигает конца страницы при вертикальной прокрутке(вспомните Twitter, Facebook, Google Images). Даже несмотря на то, что UX-эксперты утверждают что механизм бесконечной прокрутки предоставляет чрезмерное количество данных для пользователей, мы видим увеличивающееся количество веб-страниц прибегающих к предоставлению бесконечного списка результатов.

Читать дальше →
Total votes 14: ↑9 and ↓5 +4
Views 20K
Comments 2

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Programming *.NET *C# *
Иногда возникает необходимость получить данные c веб-страниц и сохранить их в структурированном виде.

Инструменты веб-скрапинга (web scraping) разрабатываются для извлечения данных с веб-сайтов. Эти инструменты бывают полезны тем, кто пытается получить данные из Интернета. Веб-скрапинг — это технология, позволяющая получать данные без необходимости открывать множество страниц и заниматься копипастом. Эти инструменты позволяют вручную или автоматически извлекать новые или обновленные данные и сохранять их для последующего использования. Например, с помощью инструментов веб-скрапинга можно извлекать информацию о товарах и ценах из интернет-магазинов.
Читать дальше →
Total votes 32: ↑27 and ↓5 +22
Views 45K
Comments 41

Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта

Open source *Data Mining *Machine learning *
Translation

Облако слов для кликбейта

TL;DR: Я добился точности распознавания кликбейта 99,2% на тестовых данных по особенностям заголовка и контента. Код доступен в репозитории GitHub.

Когда-то в прошлом я написал статью о выявлении кликбейта. Та статья получила хорошие отклики, а также много критики. Некоторые сказали, что нужно учитывать содержимое сайта, другие просили больше примеров из разных источников, а некоторые предложили попробовать методы глубинного обучения.

В этой статье я постараюсь решить эти вопросы и вывести выявление кликбейта на новый уровень.
Читать дальше →
Total votes 33: ↑24 and ↓9 +15
Views 8.6K
Comments 10

Не защищайте сайт от скрапинга: сопротивление бесполезно

Website development *Payment systems *Product Management *Finance in IT
Translation
За последнее десятилетие я реализовал много проектов, связанных с агрегацией и анализом контента. Часто агрегация включает в себя снятие данных со сторонних сайтов, то есть скрапинг. Хотя я стараюсь избегать этого термина. Он превратился в некий ярлык, с которым связано много заблуждений. Основное заблуждение в том, что веб-скрапинг можно заблокировать с помощью X, Y, Z.

tl; dr; Нельзя.

С точки зрения бизнеса


На прошлой неделе я встретился с высокопоставленным руководителем из отрасли, в которой развиваю свой бизнес GO2CINEMA. Без сомнения, это один из самых умных и знающих людей в киноиндустрии.

Бизнес-модель GO2CINEMA основана на агрегировании из разных источников информации о расписании сеансов, свободных местах и стоимости билетов, а также выполнении запросов на покупку билетов на этих веб-сайтах от имени пользователя.

Я посоветовался с этим человеком насчёт поиска инвестиций. Он предложил свою помощь и попросил подготовить анализ всех способов блокировки моего текущего бизнеса, включая скрапинг контента (с технической и юридической точек зрения). Я подготовил необходимые документы и поделился с ним перед нашей встречей. Его реакция была примерно такой:

Да, тщательное исследование. Но всё-таки есть способы, чтобы тебя заблокировать. *ухмыляется*

Нет, парень, нет таких способов.
Читать дальше →
Total votes 39: ↑36 and ↓3 +33
Views 34K
Comments 206

Суд США полностью легализовал скрапинг сайтов и запретил ему технически препятствовать

GlobalSign corporate blog Information Security *Website development *Server Administration *Copyright
Вчера Апелляционный суд 9-го округа США принял решение (pdf), что скрапинг публичных сайтов не противоречит закону CFAA (Computer Fraud and Abuse Act).

Это действительно важное решение. Суд не только легализовал эту практику, но запретил мешать конкурентам снимать информацию с вашего сайта в автоматическом режиме, если сайт является общедоступным. Суд подтвердил понятную логику, что заход бота-скрапера юридически не отличается от захода браузера. В обоих случаях «пользователь» запрашивает открытые данные — и что-то делает с ними на своей стороне.

Сейчас многие владельцы сайтов пытаются поставить технические препоны конкурентам, которые полностью копируют их информацию, не защищённую копирайтом. Например, цены на билеты, товарные лоты, открытые профили пользователей и т. д. Некоторые сайты считают эту информацию «своей», а скрапинг расценивают как «воровство». Юридически это не так, что теперь закреплено официально в США.
Читать дальше →
Total votes 70: ↑69 and ↓1 +68
Views 69K
Comments 403

Ранжирование округов Москвы по стоимости аренды с Python

Abnormal programming *Python *
Sandbox
Сейчас программирование все глубже и глубже проникает во все сферы жизни. А возможно это стало благодаря очень популярному сейчас python’у. Если еще лет 5 назад для анализа данных приходилось использовать целый пакет различных инструментов: C# для выгрузки (или ручки), Excel, MatLab, SQL, и постоянно “прыгать” туда сюда вычищая, сверяя и выверяя данные. То сейчас python, благодаря огромному количеству прекрасных библиотек и модулей, в первом приближении благополучно заменяет все эти инструменты, а в связке с SQL так вообще “горы свернуть можно”.

Итак, к чему я. Увлеклась я изучением такого популярного python’а. А лучший способ изучить что-либо, как вы знаете, — практика. А еще я интересуюсь недвижимостью. И попалась мне на глаза интересная задачка о недвижимости в Москве: проранжировать округа Москвы по усредненной стоимости аренды средней однушки? Батюшки, я подумала, да тут вам и геолокация, и выгрузка с сайта, и анализ данных — прекрасная практическая задача.

Воодушевившись замечательными статьями тут на Хабре (в конце статьи добавлю ссылки), приступим!
Читать дальше
Total votes 11: ↑11 and ↓0 +11
Views 5.4K
Comments 2

Скрапинг современных веб-сайтов без headless-браузеров

VDSina.ru corporate blog Python *API *Browsers Web analytics *
Translation


Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

На традиционных веб-страницах наша задача заключается в парсинге HTML и извлечении нужной информации. На современных веб-сайтах фронтэнд скорее всего не будет содержать особо много HTML, потому что данные получаются асинхронно после первого запроса. Поэтому большинство людей использует безголовые браузеры — они способны выполнять JavaScript, делать дальнейшие запросы, после чего можно распарсить всю страницу целиком.

Но существует и другой способ, которым можно довольно часто пользоваться.
Читать дальше →
Total votes 48: ↑38 and ↓10 +28
Views 19K
Comments 31

Киберпреступность: последствия для бизнеса

Information Security *
Translation

В постковидную эпоху, отягощенную цифровыми атаками и накаленными отношениями между сторонниками различных партий и взглядов, точная, проверенная информация ценится на вес золота. Без нее невозможно противостоять злоумышленникам, непрерывно совершенствующим свой арсенал средств. В мире, в котором все зависит от коммуникаций, специалистам по защите сетей необходимо хорошо понимать мотивы мошенников и разбираться в их тактиках и методиках, чтобы своевременно отражать угрозы.

Первый шаг к этой цели — понимание картины угроз, точнее, того, почему именно ваша организация может стать мишенью. Организованные сообщества и злоумышленники высокого уровня применяют разнообразные средства и технологии для совершения коммерческих и финансовых преступлений. Как правило, их основная задача — похищение конфиденциальных корпоративных данных, в том числе информации, составляющей коммерческую тайну, сведений о сотрудниках, результатов испытаний и т. д. Подобные действия нарушают базовые гражданские права, представляют угрозу для мировой экономики и создают предпосылки для роста безработицы. Например, по оценкам Европейского центра международной политической экономии (ECIPE), в результате кибершпионажа страны ЕС понесли ущерб в размере 55 миллиардов евро, а также 289 000 человек столкнулись с перспективой потери работы.

Читать далее
Total votes 2: ↑2 and ↓0 +2
Views 1.1K
Comments 1

Создаём личный «Архив интернета»

FirstVDS corporate blog Hosting Search engines *Software Data storaging


Как показала история, сеть из миллиардов связанных между собой документов — очень хрупкая и эфемерная система. Странички живут недолго. Если нашли интересную страницу, сайт или видео — нельзя просто сделать закладку и надеяться, что контент по ссылке останется доступен в будущем. Не останется. Информация исчезнет, ссылки изменятся, домены сменят владельцев, статьи на Хабре спрячут в черновики. У каждой страницы свой срок жизни. Ничто не вечно под луной, и ничего с этим не поделать.

К счастью, у нас есть инструменты, чтобы сохранить информацию на десятилетия. Свой персональный архив, полностью под контролем, со всеми сайтами и актуальными страницами. Отсюда никто ничего не удалит без вашего ведома, никогда.
Читать дальше →
Total votes 41: ↑40 and ↓1 +39
Views 14K
Comments 41

DIY-фермы из смартфонов Android снова в строю

М.Видео-Эльдорадо corporate blog Information Security *Gadgets Smartphones Cellular communication


Многие задают вопрос, как использовать старые смартфоны. В самом деле, не выбрасывать же на свалку устройство с двумя-четырьмя CPU, гигабайтами оперативки, рабочими чипами NAND, модемом 4G и другой полезной электроникой. И действительно, старые гаджеты вполне могут ещё поработать и принести пользу. Например, на домашней ферме для автоматического тестирования приложений, скрапинга публично доступной информации и др.
Читать дальше →
Total votes 70: ↑67 and ↓3 +64
Views 28K
Comments 32

Возвращаем RSS к жизни

ITSumma corporate blog INFOLUST *IT Standards *Software Social networks and communities

RSS-агрегатор NetNewsWire

Мы уже обсуждали, насколько важен и удобен RSS для профессиональной работы с источниками в интернете. Это единственный способ собрать огромный массив данных с тысяч сайтов, соцсетей, блогов, твиттер-аккаунтов, торрент-трекеров и др.

Вся информация накапливается в личном агрегаторе, доступна в удобное время, в том числе офлайн. Никогда ничего не теряется. Это особенно актуально сейчас, в условиях информационной блокады, периодических отключений интернета и угрозы полного шатдауна.
Читать дальше →
Total votes 77: ↑76 and ↓1 +75
Views 17K
Comments 73