Pull to refresh
0
0
К. Переменов @trueClearThinker

Front-end developer

Send message

Web2Text: глубокое структурированное извлечение содержимого web-страницы

Reading time 17 min
Views 4.6K

Привет, Хабр! Представляю вашему вниманию перевод статьи "Web2Text: Deep Structured Boilerplate Removal" коллектива авторов Thijs Vogels, Octavian-Eugen Ganea и Carsten Eickhof.


Веб-страницы являются ценным источником информации для многих задач обработки естественного языка и поиска информации. Эффективное извлечение основного содержимого из этих документов имеет важное значение для производительности производных приложений. Чтобы решить эту проблему, мы представляем новую модель, которая выполняет классификацию и маркировку текстовых блоков на странице HTML как шаблонных блоков, или блоков содержащих основной контент. Наш метод использует Скрытую Марковскую модель поверх потенциалов, полученных из признаков объектной модели HTML-документа (Document Object Model, DOM) с использованием сверточных нейронных сетей (Convolutional Neural Network, CNN). Предложенный метод качественно повышает производительность для извлечения текстовых данных из веб-страниц.

Читать дальше →
Total votes 11: ↑11 and ↓0 +11
Comments 2

FLIF — свободный формат сжатия изображений

Reading time 2 min
Views 40K
FLIF (Free Lossless Image Format) — это новый свободный формат сжатия без потери качества, который превосходит PNG, lossless WebP, lossless BPG, lossless JPEG2000 и lossless JPEG XR по степени сжатия.

Как показало сравнительное тестирование (результаты), файлы FLIF в среднем:

  • на 14% меньше, чем lossless WebP,
  • на 22% меньше, чем lossless BPG,
  • на 33% меньше, чем PNG с брутфорсом через ZopfliPNG,
  • на 43% меньше типичного PNG,
  • на 46% меньше PNG, оптимизированного алгоритмом образования чересстрочного изображения Adam7,
  • на 53% меньше lossless JPEG2000,
  • на 74% меньше lossless JPEG XR.
Читать дальше →
Total votes 60: ↑51 and ↓9 +42
Comments 62

OpenHAB и домашний контроллер — делаем железо

Reading time 4 min
Views 42K
Удачно состыковав простое Modbus устройство с платформой OpenHAB, мне тут же захотелось сделать что-то полезное для дома. В ближайшем интернет магазине были закуплены проводки, макетка, модули и датчики для Arduino, и моток синей изоленты.

Вот так я обеспечил себе увлекательное занятие на предстоящие выходные. Поначалу было весело, но скоро путаница проводов стала напрягать, а надежда испытать это чудо в боевых условиях таяла с каждой минутой. Казалось, что проводки пытаются уползти сами собой, а конструкция разбегается от каждого неосторожного движения. А в это время в голове уже рождались новые гениальные мысли…

Решено, нужно спроектировать плату, к которой легко будет подключить все эти датчики и напихать в неё всё, что нужно для автоматизации. А если по той же шине навесить на OpenHAB другие устройства, то получится отличная система умного дома:


Читать дальше →
Total votes 17: ↑16 and ↓1 +15
Comments 15

Когда облака мало: Высокопроизводительные устройства хранения

Reading time 3 min
Views 21K


/ фото Pete Birkinshaw CC

Не так давно мы спрашивали представителей российских ИТ-компаний о том, какие данные они считают возможным доверить облачным сервисам. В результате некоторые из них пошли чуть дальше и рассказали об устройствах для бэкапа данных (например, Time Capsule). Мы решили продолжить тему и поговорить об интересных высокопроизводительных и емких устройствах хранения.
Читать дальше →
Total votes 17: ↑13 and ↓4 +9
Comments 11

Как мы делали аркадный автомат

Reading time 3 min
Views 38K
Почти два года назад мой друг ellanorsh написал статью «Жизнь самодельного аркадного автомата». И я хотел бы рассказать продолжение нашей истории.

Ведь рассказать есть о чем. Мы побывали на ряде мероприятий, попробовали собрать денег на постройку автомата через краудфандинг и, наконец, договорились с авторами игры Shovel Knight и сделали собственный аркадный автомат с нашим дизайном.

image
Читать дальше →
Total votes 29: ↑29 and ↓0 +29
Comments 19

Ghostlab: использование инструментов разработчка Chrome для отладки в любом браузере

Reading time 3 min
Views 31K

Практически все современные браузеры обладают инструментами для веб разработчика позволяющими редактировать DOM, CSS и отлаживать JavaScript.

Но лично для меня, наверное навсегда, останется зубной болью большой неприятностью, то что в каждом браузере инструменты разработчика выглядят, а самое главное, что они работают, по своему.

Второй, не менее страшной проблемой является то, что отладка под не встроенные мобильные браузеры просто невозможна.

Решение которое я нашел для себя, позволяющее проводить отладку сразу в нескольких браузерах и на нескольких устройствах, я хочу описать под катом.
Читать дальше →
Total votes 12: ↑9 and ↓3 +6
Comments 8

Переходим на HTTPS на Nginx: шпаргалка

Reading time 3 min
Views 149K
Уже второй раз сталкиваюсь с задачей «поставь https на наш сервер» от моего босса, поэтому решил сделать для самого себя шпаргалку, а заодно и для всех остальных. Итак, ситуация следующая: к нам пришел босс и заявил, что ему нужен https. Под катом я напишу 5 простых шагов, как все сделать буквально за час. Приступим.
Читать дальше →
Total votes 66: ↑43 and ↓23 +20
Comments 60

300 потрясающих бесплатных сервисов

Reading time 11 min
Views 1.6M


Автор оригинальной статьи Ali Mese добавил ещё 100 новых бесплатных сервисов. Все 400 потрясающих сервисов доступны здесь. И еще подборку +500 инструментов от 10 марта 2017 г. смотрите здесь.



A. Бесплатные Веб-Сайты + Логотипы + Хостинг + Выставление Счета

  • HTML5 UP: Адаптивные шаблоны HTML5 и CSS3.
  • Bootswatch: Бесплатные темы для Bootstrap.
  • Templated: Коллекция 845 бесплатных шаблонов CSS и HTML5.
  • Wordpress.org | Wordpress.com: Бесплатное создание веб-сайта.
  • Strikingly.com Domain: Конструктор веб-сайтов.
  • Logaster: Онлайн генератор логотипов и элементов фирменного стиля (new).
  • Withoomph: Мгновенное создание логотипов (англ.).
  • Hipster Logo Generator: Генератор хипстерских логотипов.
  • Squarespace Free Logo: Можно скачать бесплатную версию в маленьком разрешении.
  • Invoice to me: Бесплатный генератор счета.
  • Free Invoice Generator: Альтернативный бесплатный генератор счета.
  • Slimvoice: Невероятно простой счет.

Читать дальше →
Total votes 341: ↑325 and ↓16 +309
Comments 107

PeerVPN – пиринговый VPN с открытым кодом

Reading time 2 min
Views 26K
Перевод анонса и небольшой документации проекта PeerVPN, который показался мне интересным.

PeerVPN


Это программа, создающая виртуальную локалку из нескольких удалённых компьютеров. Такие сети могут быть полезны для непосредственного общения приложений, например совместного использования файлов или игр. Часто обычными способами наладить такое взаимодействие невозможно из-за фаерволов или NAT.

Традиционные VPN работают по схеме клиент-сервер, когда много узлов соединяются с одним сервером. У такой звёздной топологии есть недостатки. Центральный сервер должен обладать большой пропускной способностью, чтобы обрабатывать весь трафик сети. Если сервер падает, сеть падает следом.

PeerVPN работает по распределённой технологии, когда все узлы общаются друг с другом без необходимости в центральном сервере. Если один узел отключается, на сеть это не влияет.
Читать дальше →
Total votes 33: ↑29 and ↓4 +25
Comments 23

Самые популярные торрент-сайты: рейтинг на начало 2015 года

Reading time 2 min
Views 52K
В начале 2015 года KickassTorrents вырвался на первое место по трафику, а следом за ним идёт Torrentz. «Икона» файл-шаринга The Pirate Bay пока ещё не работает, но его суммарные клоны, копии и последователи участвуют в рейтинге совместно.

Остальные пункты списка заняты уже известными сайтами. С прошлого года произошла лишь одна замена – место выбывшего Bitsnoop.com занял Limetorrents.cc. Один из старейших сайтов, Demonoid, вернувшийся в онлайн после долгого отсутствия, хоть и не попал в рейтинг, но неуклонно карабкается вверх. Мы ещё можем увидеть его в чарте.

Итак, сам чарт (основан на данных от Alexa и U.S. Compete, и некоторых других показателях):
Смотреть чарт
Total votes 24: ↑21 and ↓3 +18
Comments 6

Разбираемся с rtorrent всерьёз

Reading time 14 min
Views 75K
Об установке и базовой настройке rtorrent на хабре хватает статей, как и споров о том, стоит ли вообще связываться с хардкорным rtorrent или лучше обойтись чем-нибудь более дружественным к пользователю. Лично я много лет назад пересмотрел все качалки и в результате rtorrent оказался самым стабильным и эффективным. Интерфейс у него не самый удобный, но достаточно понятный и юзабельный чтобы это не стало серьёзной проблемой. Альтернативные интерфейсы вроде rutorrent у меня как-то не прижились - ставить php только ради rutorrent неохота, а остальные варианты выглядят совсем слабо (и ни одного кроме rutorrent даже нет в портаж Gentoo).

  

Одно из основных преимуществ rtorrent — очень гибкие возможности по его настройке и автоматизации. К сожалению, синтаксис ~/.rtorrent.rc достаточно нестандартный, нормальная документация отсутствует, поэтому обычно настройка сводится к поиску и копированию (попытка что-то в них изменить кроме констант/путей к каталогам обычно проваливается) готовых рецептов или вообще ограничивается редактированием констант в базовой конфигурации.

На днях я решил, что так дальше продолжаться не может — мы очень много лет знакомы, он для меня столько хорошего выкачал, а я всё никак не познакомлюсь с ним поближе! Не скажу, что досконально с ним разобрался, но по крайней мере я смог реализовать все свои идеи по автоматизации rtorrent, и сделал это понимая, что и почему я делаю, без шаманства с чужими рецептами.

Читать дальше →
Total votes 77: ↑72 and ↓5 +67
Comments 63

Любительская астрономия: взгляд изнутри сообщества на хобби и грабли новичков

Reading time 24 min
Views 101K
Извиняюсь, если зря поместила пост в хаб космонавтики: к сожалению, хаба с названием «космос» или подобного не нашла. Так же извиняюсь за некоторое количество саморефлексии в трех следующих абзацах, но саморефлексия необходима, так как пост является критическим по отношению к нескольким ранее опубликованным, и за опечатки, которые наверняка присутствуют в моем посте (но будут исправляться по мере того, как я буду их замечать).

На написание своего поста меня сподвигла серия таких:

А Вы подключали телескоп к компьютеру?
Айтишник на отдыхе: а как насчет телескопа?
Айтишник на отдыхе: добавим немного астрономии?
Айтишник на отдыхе: прибамбасы к телескопу

Спасибо большое авторам, что они популяризируют любительскую астрономию, но при чтении этих постов у меня несколько раз от неудобства и стыда сжимались пальцы на ногах.
Может быть, это не так и важно: В конце концов, Хабрахабр это ресурс ИТ-ков, а любительская астрономия это всего лишь хобби, и каждый занимается хобби так, как ему нравится. А может, нет, и критиковать, поучать, как заниматься хобби можно?

Это пост про грабли, на которые Вы скорее всего наступите, если увлечетесь таким красивым, романтичным, но сложным хобби. Мой пост не является очень популярным, он рассчитан на человека, который уже хоть что-то почитал (например, вышеозначенные посты, которые мне не понравились, хотя авторам я все равно поставила плюс в карму за популяризацию). В посте могут встречаться непонятные термины. Если Вас это напрягает, пожалуйста, не читайте.

Для затравки анекдот.
Приходит в магазин телескопов покупатель, и спрашивает:

— А можно у Вас купить телескоп за три тысячи рублей?
— Ну… можно, но линзы будут пластмассовыми, и лучше не стоит, возьмите вот лучше рефрактор за 6 тысяч. — Продавец показывает рукой на самый популярный среди школьников линзовый телескоп
— Хорошо, а можно купить телескоп за 25 тысяч? — Вопрошает покупатель
— Можно, — Отвечает продавец, показывая рукой на восьмидюймовый ньютон на EQ5 — это очень хороший телескоп для начинающих
— А в него можно увидеть плеяды сквозь облака? — спрашивает покупатель
— К сожалению, нельзя… — Качает головой продавец
— А есть телескоп за 100 тысяч? — Не унимается покупатель
— Да, вот — Продавец показывает на компьютеризированный и навороченный Nexstar 11SE
— А в него можно увидеть туманность Андромеды днём?
— К сожалению, нельзя, — качает головой продавец
— А зачем тогда он такой дорогой нужен?

Так получилось, что любительская астрономия стала моим главным хобби. Мне бы очень хотелось поделиться с хабрасообществом, которое вдруг решится на обретение нового хобби, своим опытом. Может быть, далеко не самым большим, но зато своим. Мой хороший знакомый, которого я считаю лучшим визуальщиком-наблюдателем объектов дальнего космоса Москвы, а может быть и России, считает себя наблюдателем со средним скиллом(сравнивая себя с наблюдателями всего мира), меня начинающей, а все новички, получается, находятся вне классификации. Не знаю, дает ли мне такой опыт право на написание постов на тему любительской астрономии на Хабрахабре? Я раньше считала что нет, не дает, но вышеприведенная серия постов изменила эту точку зрения, и мне очень захотелось написать пост, который бы предостерег начинающих любителей астрономии (не по классификации знакомого наблюдателя), от наступления на грабли, которые могут отбить желание заниматься этим хобби.

«О каких граблях речь? Это же хобби! Им каждый занимается так, как ему нравится!» — Воскликнет скептик, и будет прав:
Например, ИТ-кам нравятся всякие высокотехнологичные жужжащие штуки, ну вот пускай и покупают мелкоскопчик с GoTo системой за ограниченный бюджет. Пусть мелкоскоп после наведения в точку на небе, где находится галактика «Игла» NGC 4565, такая красивая на фотографиях, со своими газопылевыми облаками не покажет ничего ни через окно кухни квартиры в центре Москвы, ни даже с застекленной и тёплой веранды дачи :) Главное, что мелкоскопчик жжужит, мигает красивыми красными огнями на пульте, и владелец оборудования доволен новым гаджетом и приощением к небу, сидя в тепле и комфорте, не так ли?

Или всё-таки не так? Если не так, добро пожаловать под кат. В противном случае, пожалуйста, не читайте мои многобукв про грабли, ведь в хобби наступление на грабли может быть даже своеобразным мазохизмом, и в чём-то быть приятным наступающему!

Читать дальше →
Total votes 100: ↑90 and ↓10 +80
Comments 226

Обзор новых технологий в производстве источников питания

Reading time 5 min
Views 103K
Текущий месяц выдался удачным для разработчиков элементов питания. В различных источниках то и дело появляются новости о новинках в этой отрасли. Я решил собрать информацию о них и поделиться с вами. Под катом вас ждёт много различных технологий хранения энергии — от сахарных до квантовых.

Читать дальше →
Total votes 56: ↑51 and ↓5 +46
Comments 37

Незаметные сложности ракетной техники: Часть 4. Ещё про двигатели и баки

Reading time 6 min
Views 176K

Разнообразна и неприятна дань, которую приходится платить несовершенству нашего мира разработчикам ракетной техники. Сегодня мы поговорим о том, чем приходится платить за повышение параметров жидкостных реактивных двигателей и о тех незаметных проблемах, которые ждут проектировщиков баков.
Читать дальше →
Total votes 197: ↑197 and ↓0 +197
Comments 62

SteamBoy — портативная консоль для запуска видеоигр от Steam (и не только)

Reading time 1 min
Views 42K
steamboy

Да и не только от Steam. SteamBoy, собственно, представляет собой портативный ПК, заключенный в корпус с элементами управления, как на контроллере Steam. Стоит отметить, что поставка Steam Machine, игровых консолей от Steam, откладывается на 2015 год, и тогда же можно ожидать появления портативной консоли.

К слову, за созданием SteamBoy отвечает сторонняя команда разработчиков, которые не так давно выпустили первое видео для своего проекта.

Читать дальше →
Total votes 27: ↑24 and ↓3 +21
Comments 6

Фантастические сериалы — обзор от фаната

Reading time 8 min
Views 81K
Мне наступили на больную мозоль, сделав некий обзорный пост по нескольким фантастическим сериалам.
А так как субботним вечером делать особенно нечего, давайте-ка я сделаю свой, более полный.
Да, будут спойлеры, имейте в виду.
Да, и очень много картинок! Трафик!

Начнём со Stargate

Целое семейство сериалов, начавшихся с одноимённого фильма.
Это во-первых, конечно,

Stargate SG-1
10/10
image
Читать дальше →
Total votes 238: ↑132 and ↓106 +26
Comments 262

Жонглирование. Теория. Практика

Reading time 5 min
Views 40K
Настороженно отношусь к непрофильным топикам, но решил написать этот по следующим причинам:
  • У жонглирования есть своя теория — стройная и математически привлекательная!
  • Мы живем не только работой. Жонглирование — отличное развлечение и разминка после долгого сидения за компом.
  • В пятницу приятно немного расслабиться и почитать не очень серьезные статьи. К тому же, будет чем заняться на выходные, особенно если у вас не было определенных планов.

Теория


Утверждать, что жонглирование — это последовательность бросков, все равно, что сказать, что музыка — это просто последовательность нот. Нельзя назвать это неправдой, но любой, хоть немного знакомый с музыкальной теорией, возмутится последним определением — столь поверхностным и недалеким.
Читать дальше →
Total votes 252: ↑242 and ↓10 +232
Comments 45

Logitech выпустила беспроводную клавиатуру на солнечных батареях, совместимую с Apple-девайсами

Reading time 1 min
Views 3.7K


Чуть ранее в этом же месяце Logitech представила Folio — клавиатуру для iPad и iPad2. Только что анонсированная клавиатура K760 (тоже беспроводная и на солнечной батарее) сможет работать не только с iPad`ами, но и с Маками и айфонами.
Читать дальше →
Total votes 30: ↑26 and ↓4 +22
Comments 44

Оптимизация OSX для работы с SSD

Reading time 3 min
Views 114K
Про замену сидирума на SSD писать нет смысла, думаю все и так уже в курсе как это сделать. Слава богу, про это написано не мало статей (тыц, тыц).
image
А вот как правильно настроить систему для работы с HDD и SSD знают далеко не все.
Читать дальше →
Total votes 39: ↑31 and ↓8 +23
Comments 80

Непросто выбрать из простого

Reading time 2 min
Views 4.6K
Дамы и Господа! Я к вам одновременно с вопросом и с небольшим рисерчем. У меня следующая задача: купить юной племяннице планшет, который бы сочетал несочетаемое несколько качеств одновременно. Нужно, чтобы 1) он был более или менее мощным, 2) работал на Android не ниже 3.x (т.к. привыкла к мобилке на роботе), 3) был не страшным внешне, 4) стоил бы не дороже 10 килорублей. Больше платить не вижу смысла, т.к. школа, дети и т.п. Заранее предупрежу, что советы вроде «маленьким девочкам не нужны планшеты» не годятся :)



Я немного погуглил и выяснил, что за такую цену сейчас можно купить только три планшета, соответствующих условиям: Explay Informer 701, TeXet TM-7025 и Archos 80 G9 Turbo. Плюс еще скоро должен появиться Prestigio MultiPad 9.7 Pro.
Читать дальше →
Total votes 48: ↑21 and ↓27 -6
Comments 46

Information

Rating
Does not participate
Location
Рига, Латвия, Латвия
Date of birth
Registered
Activity