Гидриды металла тоже не нулевую массу имеют, что уменьшит объем и увеличит общую массу. В поле имеется ввиду нет водородных колонок, электролиз из воды или добыча из углеводородов... тоже так себе с портативностью
IP-адреса выходных узлов TOR относительно легко вычисляются путем ротации после смены страны выходного узла и других методов. К тому же они редко меняются, по крайней мере основной список постоянен.
Потом используют его как blacklist.
Это заменит certbot + nginx (пример можно легко адаптировать под docker-compose или посмотреть тут). Новый сертификат будет запрошен после первого обращения и будет обновляться автоматически.
1. IP-подсети поисковых ботов, с которых идет «благой» скрейпинг заранее известны и они могут добавляться в список разрешенных без ограничений на количество запросов.
2. Пункт 1. сочетается с полем User-Agent, в котором прописывается например Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
3. Поисковыми ботами учитывается директива Crawl-delay, что так скажем «смягчает» нагрузку на целевой сайт и позволяет тем самым сделать так, чтобы боты не упирались в лимиты запросов.
Чем вообще поисковые роботы отличаются от роботов-скрейперов?
По своей сути, технически, практически ничем. Отличаются конечной целью использования данных. Например гуглу интересны данные с целью продажи рекламы, а производителям/продавцам например интересны площадки конкурентов, которые демпингуют цены на товары, тем самым вытесняют их с рынка и т.д.
И где граница между добросовестным поисковиком и недобросовестным скачивателем чужих данных?
ИМХО граница в нарушении интеллектуальных прав первоисточника. Т.к. ты например тратил свои деньги или время на написание статей, а какой-то ушлый скраперщик спарсил все твой статьи за 5 минут и опубликовал на своем сайте под видом своих, а из-за того, что у него например сайт выше в поиске и/или имеет хорошую поисковую оптимизацию, то твои статьи «выстрелили» на его сайте. Он получил прибыль за рекламу, а ты только разочарование. Поисковики не скрывают ссылки на источник информации, в отличие от недобросовестных скраперщиков.
Можно ковырять код сайтов, ковырять их апи, искать способы обхода защиты от скраппинга… а можно просто поставить puppeteer и не париться.
Поддерживаю, к тому же вычислительные ресурсы стоят не так дорого (а иногда даже можно бесплатно, AWS Lambda дает бесплатно 400 000 ГБ‑секунд вычислений в месяц, 3 ГБ-секунд в среднем на одну страницу, а это ~133333 страниц бесплатно), да и vps никто не отменял, чем тратить рабочее время на обратный инжиниринг API, что может быть оправдано только при больших объемах данных и частой выгрузке.
P.S. Скраппинг номеров и каких либо перс. данных тоже осуждаю
Скорее всего такой фильтр картинок у них делается на определенном этапе, но этого явно не достаточно, а что если пользователь просто откроет картинку в редакторе «пересохранит»(что изменит мета информацию для некоторых форматов) или сменит расширение/формат например с png на jpg, один пиксель изменит и т.д., и вся проверка «псу под хвост».
И вам спасибо, за ценный опыт! Попробую Django для управления пользователями и простой view, который будет проверять токен и возвращать hasura заголовок с id пользователя и ролью (группой).
JWT хорошая технология, использую её но не так часто как хотелось бы. Хочу попробовать ее с hasura но мешает отсутствие готового JWT сервера с базовым набором: регистрация нового пользователя/права доступа, роли/выдачи токенов после идентификации с готовой веб мордой, чтобы закинуть на отдельный домен/виртуалку/докер. Но что-то внятное не могу найти по этой теме.
Да, применений масса, например для выполнения какой либо функции (в случае приема) или управления телевизором или кондиционером (в случае передачи).
Есть ли в планах поддержка NEC как для приема, так и для передачи? Спектр применения очень расширился бы
А будет ли работать на Windows?
Может для универсальности использовать сам php, только без флага disable-functions вместо bash. Например
php -r 'echo time();'
На сайте автора есть сравнение, только типы батареек я выбрал разные, поиграйтесь с фильтром
Получить водород электролизом не проблема, проблема его сжать под высоким давлением, ручей или солнечная панель такую энергию не даст.
Гидриды металла тоже не нулевую массу имеют, что уменьшит объем и увеличит общую массу. В поле имеется ввиду нет водородных колонок, электролиз из воды или добыча из углеводородов... тоже так себе с портативностью
Точно не знаю, но может просачиваться через микро-трещины или поры в металле и т.д. Плюс высокое давление не способствует удержанию.
где только в поле найти водород... да и в городе не наездишься за водородом, ещё он очень летучий и просачивается через стенки баллона
Потом используют его как blacklist.
Советую попробовать Caddy. Простое проксирование HTTPS -> HTTP можно запустить одной командой:
Это заменит certbot + nginx (пример можно легко адаптировать под docker-compose или посмотреть тут). Новый сертификат будет запрошен после первого обращения и будет обновляться автоматически.
Транзисторы можно попробовать заменить на оптрон. У меня подобная схема с оптроном успешно работала на ноутбуке. esp8266 + оптрон.
1. IP-подсети поисковых ботов, с которых идет «благой» скрейпинг заранее известны и они могут добавляться в список разрешенных без ограничений на количество запросов.
2. Пункт 1. сочетается с полем User-Agent, в котором прописывается например Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
3. Поисковыми ботами учитывается директива Crawl-delay, что так скажем «смягчает» нагрузку на целевой сайт и позволяет тем самым сделать так, чтобы боты не упирались в лимиты запросов.
По своей сути, технически, практически ничем. Отличаются конечной целью использования данных. Например гуглу интересны данные с целью продажи рекламы, а производителям/продавцам например интересны площадки конкурентов, которые демпингуют цены на товары, тем самым вытесняют их с рынка и т.д.
ИМХО граница в нарушении интеллектуальных прав первоисточника. Т.к. ты например тратил свои деньги или время на написание статей, а какой-то ушлый скраперщик спарсил все твой статьи за 5 минут и опубликовал на своем сайте под видом своих, а из-за того, что у него например сайт выше в поиске и/или имеет хорошую поисковую оптимизацию, то твои статьи «выстрелили» на его сайте. Он получил прибыль за рекламу, а ты только разочарование. Поисковики не скрывают ссылки на источник информации, в отличие от недобросовестных скраперщиков.
Да. Со встроенным поднятием https сертификата от Let's Encrypt
порт onlyoffice я не знаю, поставил 9000 для примера
Запускается подобной командой на хосте:
Или можно в докер контейнере запустить (только нужно слинковать с нужным контейнером):
Поддерживаю, к тому же вычислительные ресурсы стоят не так дорого (а иногда даже можно бесплатно, AWS Lambda дает бесплатно 400 000 ГБ‑секунд вычислений в месяц, 3 ГБ-секунд в среднем на одну страницу, а это ~133333 страниц бесплатно), да и vps никто не отменял, чем тратить рабочее время на обратный инжиниринг API, что может быть оправдано только при больших объемах данных и частой выгрузке.
P.S. Скраппинг номеров и каких либо перс. данных тоже осуждаю
И вам спасибо, за ценный опыт! Попробую Django для управления пользователями и простой view, который будет проверять токен и возвращать hasura заголовок с id пользователя и ролью (группой).
Спасибо за наводку! Буду пробовать
JWT хорошая технология, использую её но не так часто как хотелось бы. Хочу попробовать ее с hasura но мешает отсутствие готового JWT сервера с базовым набором: регистрация нового пользователя/права доступа, роли/выдачи токенов после идентификации с готовой веб мордой, чтобы закинуть на отдельный домен/виртуалку/докер. Но что-то внятное не могу найти по этой теме.