Search
Write a publication
Pull to refresh
4
0
xRay @xRay

Пользователь

Send message

Web2Text: глубокое структурированное извлечение содержимого web-страницы

Reading time17 min
Views5K

Привет, Хабр! Представляю вашему вниманию перевод статьи "Web2Text: Deep Structured Boilerplate Removal" коллектива авторов Thijs Vogels, Octavian-Eugen Ganea и Carsten Eickhof.


Веб-страницы являются ценным источником информации для многих задач обработки естественного языка и поиска информации. Эффективное извлечение основного содержимого из этих документов имеет важное значение для производительности производных приложений. Чтобы решить эту проблему, мы представляем новую модель, которая выполняет классификацию и маркировку текстовых блоков на странице HTML как шаблонных блоков, или блоков содержащих основной контент. Наш метод использует Скрытую Марковскую модель поверх потенциалов, полученных из признаков объектной модели HTML-документа (Document Object Model, DOM) с использованием сверточных нейронных сетей (Convolutional Neural Network, CNN). Предложенный метод качественно повышает производительность для извлечения текстовых данных из веб-страниц.

Читать дальше →

Используем Zap Baseline Scan для непрерывного сканирования сайта на уязвимости

Reading time11 min
Views6.4K
image

Некоторое время назад возникло желание реинкарнировать свой Wordpress-блог. Параллельно возникло желание упорядочить и систематизировать накопленные знания для сдачи экзамена ECSA. Все это привело меня к развертыванию блога на отдельно стоящем сервере. Через некоторый промежуток времени ожидаемо возникли вопросы безопасности сайта, использующего один из самых популярных (потому и вечно уязвимых) движков.

В результате изысканий появилось это руководство по организации непрерывного сканирования сайта на уязвимости, которым и спешу поделиться с вами, дорогие читатели.

Большую часть материала можно использовать в том числе и для внедрения в CI/CD пайплайны.

Читать дальше →

Искусственное лето: дальний ультрафиолет против коронавируса

Reading time9 min
Views24K
Авторы: Алексей Турчин, Роко Мижич

Роко Мижич – автор идеи Роко Василиск, Алексей Турчин – футуролог, автор книги «Структура глобальной катастрофы» и «Футурология. 21 век: бессмертие или глобальная катастрофа» (вместе с мной). Исходник

Статус: здесь много разных неопределенностей, но у идеи есть определенные доказательства и высокая потенциальная отдача. Но вот предлагаем её обсудить.

Tl; dr: Мы должны срочно изучить вопрос о размещении специальных безопасных для человека ламп Far-UVC по всей нашей искусственной среде, чтобы «убивать» вирусы, пока они находятся в воздухе, тем самым значительно сокращая распространение ковид-19.

По мотивам: www.nature.com/articles/s41598-018-21058-w
Читать дальше →

Почему Cisco AnyConnect — это не просто VPN-клиент

Reading time8 min
Views146K
На прошлой неделе вышла у меня дискуссия на тему удаленного доступа и различных VPN-клиентов, которые можно поставить на рабочее место сотрудника, отправляемого работать домой. Один коллега отстаивал «патриотическую» позицию, что надо использовать «абонентские пункты» к отечественным шифраторам. Другой настаивал на применении клиентов от зарубежных VPN-решений. Я же придерживался третьей позиции, которая заключается в том, что такое решение не должно быть придатком периметрового шифратора и даже не клиентской частью VPN-шлюза. Даже на производительном компьютере не совсем правильно ставить несколько защитных клиентов, которые будут решать разные задачи — VPN, идентификация/аутентификация, защищенный доступ, оценка соответствия и т.п. Идеально, когда все эти функции, а также иные, объединены в рамках единого клиента, что снижает нагрузку на систему, а также вероятность несовместимости между различным защитным ПО. Одним из таких клиентов является Cisco AnyConnect, о возможностях которого я бы и хотел вкратце рассказать.

image
Читать дальше →

PHP-Дайджест № 176 (11 – 23 марта 2020)

Reading time4 min
Views14K

Свежая подборка со ссылками на новости и материалы. В выпуске: обновления PHP и Composer 1.10, переносы конференций, 3 новых RFC предложения из PHP Internals, порция полезных инструментов, видео, подкасты и многое другое.

Приятного чтения!


Читать дальше →

CSS: полное руководство по функции calc()

Reading time11 min
Views111K
В CSS есть особая функция calc(), применяемая для выполнения простых вычислений. Вот пример её использования:

.main-content {
  /* Вычесть 80px из 100vh */
  height: calc(100vh - 80px);
}

Здесь с CSS-кодом, в котором используется calc(), можно поэкспериментировать.



Автор статьи, перевод которой мы сегодня публикуем, хочет рассказать обо всём, что стоит знать об этой весьма полезной функции.
Читать дальше →

Определяем COVID-19 на рентгеновских снимках с помощью Keras, TensorFlow и глубокого обучения

Reading time16 min
Views25K

С помощью этого руководства мы с помощью Keras, TensorFlow и глубокого обучения научимся на собранном вручную датасете из рентгеновских снимков автоматически определять COVID-19.

Как и многие другие, я искренне беспокоюсь относительно COVID-19. Я заметил, что постоянно анализирую своё состояние и гадаю, подхвачу ли болезнь и когда это произойдёт. И чем больше я об этом беспокоюсь, тем больше это превращается в болезненную игру разума, в которой симптоматика сочетается с ипохондрией:

  • Я проснулся утром, чувствуя некоторую болезненность и слабость.
  • Когда я выполз из кровати, то обнаружил у себя насморк (хотя уже известно, что насморк не является симптомом COVID-19).
  • К тому времени, как я добрёл до ванной, чтобы взять бумажный платок, я уже кашлял.

Сначала я не обращал на это особого внимания — у меня аллергия на пыльцу, а из-за тёплой погоды на восточном побережье США весна в этом году выдалась ранняя. Скорее всего, это аллергические симптомы. Но в течение дня моё состояние не улучшалось. Я сижу и пишу это руководство с градусником во рту. Смотрю вниз и вижу 37,4 °С. Моя нормальная температура тела чуть ниже, чем у других, на уровне 36,3 °С. Всё, что выше 37,2 °С, для меня уже небольшой жар.

Кашель и небольшой жар? Это может быть COVID-19… или просто моя аллергия. Выяснить без тестирования невозможно, и именно это «незнание» делает ситуацию столь пугающей на человеческом уровне.
Для человека нет ничего страшнее неведения.

Автономная охранная система на Arduino + GSM

Reading time4 min
Views55K

Друзья, разрешите представить проектик GSM сигнализации на Arduino. В сети довольно много проектов по типу «Arduino + модем + датчики», однако я часто вижу в них некоторую незаконченность (в особенности, с программной точки зрения): отсутствие гибкости в настройках и конфигурировании. В представленном решении я попытался сделать устройство максимально готовое к «боевым» условиям, предусмотрев все, что может понадобится среднестатистическому пользователю (на мой взгляд).



TL; DR программно и аппаратно задуманное реализовано, тест в реальных условиях запущен, исходники и бинарники опубликованы, корпус не осилил.

Читать дальше →

Как выучить английский самостоятельно, если нет времени

Reading time5 min
Views44K

Привет, читатель! Предлагаю тебе хотя бы на 5 минут ни на что не отвлекаясь прочитать начало статьи дабы полностью ощутить главное правило, которое поможет тебе достичь любого уровня в английском.



Когда-то задумывался над тем почему у тебя не хватает времени и сил на то чтобы уделить время чему-то новому (изучению языка, как в нашем случае). Нужно постараться, чтобы разглядеть истинную причину за всеми этими фразами: "я слишком занят", "у меня полно других дел", "я и так не высыпаюсь, где мне найти еще время?". Приготовься, потому что как только ты усвоишь главное правило изучения чего угодно, ты не только найдешь время, но и начнешь правильно использовать те инструменты, о которых мы поговорим позже. Так что отнесись к этому со всей серьезностью.

Читать дальше →

Большая подборка материалов для изучения Google Tag Manager

Level of difficultyEasy
Reading time4 min
Views31K
Материалы статьи провалидированы и обновлены автором 26.05.2023


Привет, Хабр!

Меня зовут Артём Сайгин, я веду телеграм-канал «Growth Lab», в котором делюсь опытом роста IT-продуктов.

Cделал для вас большую подборку материалов для самостоятельного изучения Google Tag Manager. В статье вы найдете всю необходимую информацию по работе GTM — от самых базовых вещей (что такое GTM, какие бывают типы триггеров) до работы с dataLayer и CSS-селекторами.

Добавляйте в закладки, чтобы не потерять.

image

Если я не добавил стоящий материал, свяжитесь со мной, добавлю.

Приступим!
Читать дальше →

RBK.money выпустила первый в мире open-source платежный процессинг — творим будущее вместе

Reading time15 min
Views42K


Привет!


Если вы читали наши предыдущие посты (читали же?), то точно помните, что мы в RBK.money очень сильно за опенсорс. Настолько, что выложили в открытый доступ наш антифрод в виде открытых исходников под лицензией Apache 2.0.


Как вы понимаете, нам понравилось. Одного антифрода нам показалось мало, поэтому мы взяли и выложили в опенсорс всю нашу платежную платформу. Вообще всю. От самого первого микросервиса до навороченных систем аналитики, маршрутизации платежей, системы обработки и хранения карточных данных и десятков других микросервисов и пользовательских интерфейсов. Это именно тот код, на котором сейчас, в этот момент работает наш процессинг.


Зачем мы это сделали? Как это работает внутри? Как теперь жить дальше? Читайте под катом. Я гарантирую, что такого вы еще не встречали — еще никто в мире не опенсорсил платежную систему такого уровня.


История меняется прямо сейчас на ваших глазах!

Читать дальше →

Советы и хитрости IntelliJ IDEA: 4. Синхронизация и обмен настройками

Reading time5 min
Views14K

Знаете ли вы, что IDEA предлагает два способа синхронизации ваших настроек между несколькими экземплярами вашей IDE? Вы можете использовать его при работе на нескольких компьютерах или для совместного использования унифицированных настроек в вашей команде.



Этот перевод продолжает серию об IntelliJ IDEA:


Читать дальше →

CSS Grid: Верстаем адаптивный журнальный макет в 20 строк

Reading time12 min
Views64K

Недавно я работал над современной реализацией блогролла (перечня внешних полезных/интересных блогов). Замысел был в том, чтобы предоставить читателям подборку из последних постов в этих блогах, упакованную в журнальную вёрстку, а не сухой список ссылок в сайдбаре.

Самая простая часть задачи — получение списка постов и их эксцерптов (эксцерпт — вступительный текст до ката) с наших любимых RSS–фидов. Для этого мы воспользовались WordPress-плагином Feedzy lite, который умеет агрегировать несколько фидов в один список, отсортированный по времени — идеальное решение в нашем случае. Трудная же часть в том, чтобы сделать всё красиво.
Читать дальше →

Сервисы, которые стали бесплатными на время карантина: курсы, радио, книги, кино и сериалы

Reading time5 min
Views387K
image

Кажется, на ближайший месяц почти все мы более или менее на карантине — сидим дома в самоизоляции. Грустно, конечно, но есть и плюсы. Не нужно тратить время на дорогу в офис и обратно, а сэкономленное время можно потратить на обучение, например. Ну или сериал посмотреть, который давно хотелось. Хорошие ребята вроде bang bang и GeekBrains на месяц открывают бесплатный доступ к своим материалам. А мы будем собирать здесь ссылки на такие аттракционы неслыханной щедрости.
Читать дальше →

Структурируем информацию по Android-боксам и разбираем, что должна уметь нормальная приставка

Reading time10 min
Views137K
Всем привет, у меня есть небольшой блог, где я иногда рассматриваю интересную мне технику, в том числе Android-приставки. В этом году я третий раз практически полностью переписал этот раздел, потому что китайские фирмы — а именно они основные производители Android-смарт-боксов — мрут как мухи и производители второго эшелона внезапно становятся лидерами. Просто потому, что предыдущий лидер отправился на покой (да-да, речь о вас, Minix и Zidoo). Текст, как мне кажется, получился достаточно структурированным, и, после некоторой доработки, я перенес его сюда.

Учитывая, сейчас многие уходят на удаленку или карантин, я решил что самое время поговорить про современные Android-приставки. Дело в том, что правильный андроид бокс «уделывает» по функциональности любой смарт ТВ. Это становится особенно актуальным в свете того, что производители научились блокировать функции своих умных телевизоров в зависимости от собственных представлений о правильном и легальном, и не факт что они не станут «закручивать гайки» еще дальше дальше. Слава Богу, качественная смарт ТВ приставка на голову выше любого смарта, ее легко настроить и сменить на более производительную в дальнейшем.



Под катом мы поговорим о том, что должна уметь современная приставка, на что обращать внимание и какую модель выбрать — там крайне простой выбор, ограничивающийся на начало 2020 года всего тремя моделями. Ну и развитие ситуации с короновирсом подсказывает, что сейчас самое время озаботится приставкой, потому что нас могут ждать долгие-предолгие вечера перед телевизором.
Читать дальше →

Проверяем на уязвимости любой сайт с помощью Nikto

Reading time13 min
Views78K
Всем привет! В марте OTUS запускает новый курс «Практикум по Kali Linux». В преддверии старта курса подготовили для вас перевод полезного материала. Также хотим пригласить всех желающих на бесплатный урок по теме: «Denial of Service атаки и защита от них».





Перед тем как атаковать любой сайт, хакер или пентестер сначала составляет список целей. После того, как он проведет хорошую разведку и найдет слабые места для «наведения прицела», ему понадобится инструмент сканирования веб-сервера, такой как Nikto, который поможет найти уязвимости – потенциальные вектора атаки.

Nikto – это простой открытый сканер веб-серверов, который проверяет веб-сайт и сообщает о найденных уязвимостях, которые могут быть использованы для эксплойта или взлома. Кроме того, это один из наиболее широко используемых инструментов сканирования веб-сайтов на уязвимости во всей отрасли, а во многих кругах он считается отраслевым стандартом.
Читать дальше →

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

Reading time9 min
Views55K

В этой статье я расскажу как за 30 минут настроить среду для машинного обучения, создать нейронную сеть для распознавания изображений a потом запустить ту же сеть на графическом процессоре (GPU).

Для начала определим что такое нейронная сеть.

В нашем случае это математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

С точки зрения машинного обучения, нейронная сеть представляет собой частный случай методов распознавания образов, дискриминантного анализа, методов кластеризации и прочих методов.

Оборудование


Сначала разберемся с оборудованием. Нам необходим сервер с установленной на нем операционной системой Linux. Оборудование для работы систем машинного обучения требуется достаточно мощное и как следствие дорогое. Тем, у кого нет под рукой хорошей машины, рекомендую обратить внимание на предложение облачных провайдеров. Необходимый сервер можно получить в аренду быстро и платить только за время использования.
Читать дальше →

Советы и хитрости IntelliJ IDEA: 2. Анализ зависимостей

Reading time7 min
Views26K

Как анализировать зависимости в IDEA с помощью Dependency Structure Matrix и других инструментов.



Этот перевод продолжает серию об IntelliJ IDEA:


Читать дальше →

HTTP-заголовок Feature-Policy и контроль поведения веб-страниц в браузерах

Reading time9 min
Views11K
Существует одна совершенно бесподобная методика, позволяющая держать производительность веб-проекта под контролем. Она заключается во внедрении в процесс разработки механизмов, результаты работы которых хорошо заметны. Эти механизмы нацелены на то, чтобы всегда напоминать программисту о важности производительности. В этом контексте есть кое-что, что мне очень нравится. Это — HTTP-заголовок Feature-Policy.



Этот заголовок — сравнительно новая возможность, которая позволяет разработчику сделать так, чтобы во время просмотра его сайта включались и отключались некоторые возможности браузера.

Например, можно сообщить браузеру о том, что он не должен позволять использовать API Geolocation, передав ему следующий заголовок:

Feature-Policy: geolocation 'none'

У использования заголовка Feature-Policy есть, с точки зрения безопасности и производительности, множество плюсов. Но мне сейчас особенно нравится то, как Feature-Policy можно использовать для того, чтобы сделать более заметными проблемы производительности сайтов, которые обычно легко проглядеть. Это можно сравнить с чем-то вроде «линтинга производительности». В частности, речь идёт о выявлении проблем с изображениями, используемыми в веб-проектах.
Читать дальше →

Information

Rating
Does not participate
Registered
Activity