• Скрапинг современных веб-сайтов без headless-браузеров
    +2
    Почему их не банят?

    1. IP-подсети поисковых ботов, с которых идет «благой» скрейпинг заранее известны и они могут добавляться в список разрешенных без ограничений на количество запросов.
    2. Пункт 1. сочетается с полем User-Agent, в котором прописывается например Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
    3. Поисковыми ботами учитывается директива Crawl-delay, что так скажем «смягчает» нагрузку на целевой сайт и позволяет тем самым сделать так, чтобы боты не упирались в лимиты запросов.

    Чем вообще поисковые роботы отличаются от роботов-скрейперов?

    По своей сути, технически, практически ничем. Отличаются конечной целью использования данных. Например гуглу интересны данные с целью продажи рекламы, а производителям/продавцам например интересны площадки конкурентов, которые демпингуют цены на товары, тем самым вытесняют их с рынка и т.д.

    И где граница между добросовестным поисковиком и недобросовестным скачивателем чужих данных?

    ИМХО граница в нарушении интеллектуальных прав первоисточника. Т.к. ты например тратил свои деньги или время на написание статей, а какой-то ушлый скраперщик спарсил все твой статьи за 5 минут и опубликовал на своем сайте под видом своих, а из-за того, что у него например сайт выше в поиске и/или имеет хорошую поисковую оптимизацию, то твои статьи «выстрелили» на его сайте. Он получил прибыль за рекламу, а ты только разочарование. Поисковики не скрывают ссылки на источник информации, в отличие от недобросовестных скраперщиков.
  • Как установить SSL-сертификат на Onlyoffice docker сборки
    0
    Это вместо Haproxy?

    Да. Со встроенным поднятием https сертификата от Let's Encrypt
  • Как установить SSL-сертификат на Onlyoffice docker сборки
    0
    Не пробовали использовать Caddy?
    порт onlyoffice я не знаю, поставил 9000 для примера

    Запускается подобной командой на хосте:
    caddy reverse-proxy --from example.com --to localhost:9000

    Или можно в докер контейнере запустить (только нужно слинковать с нужным контейнером):
    docker run -d -p 80:80 -p 443:443 --name caddy --link office caddy caddy reverse-proxy --from example.com --to office:9000
  • Скрапинг современных веб-сайтов без headless-браузеров
    0
    Можно ковырять код сайтов, ковырять их апи, искать способы обхода защиты от скраппинга… а можно просто поставить puppeteer и не париться.

    Поддерживаю, к тому же вычислительные ресурсы стоят не так дорого (а иногда даже можно бесплатно, AWS Lambda дает бесплатно 400 000 ГБ‑секунд вычислений в месяц, 3 ГБ-секунд в среднем на одну страницу, а это ~133333 страниц бесплатно), да и vps никто не отменял, чем тратить рабочее время на обратный инжиниринг API, что может быть оправдано только при больших объемах данных и частой выгрузке.

    P.S. Скраппинг номеров и каких либо перс. данных тоже осуждаю
  • Принимаем и декодируем передачи SSTV с МКС
    0
    А общедоступные SDR подойдут? Например websdr.org. Более спортивно чем у коммента от Javian, но не менее бюджетно.
  • Не баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри
    +1
    Скорее всего такой фильтр картинок у них делается на определенном этапе, но этого явно не достаточно, а что если пользователь просто откроет картинку в редакторе «пересохранит»(что изменит мета информацию для некоторых форматов) или сменит расширение/формат например с png на jpg, один пиксель изменит и т.д., и вся проверка «псу под хвост».
  • Токен авторизации на примере JSON WEB Token
    +1

    И вам спасибо, за ценный опыт! Попробую Django для управления пользователями и простой view, который будет проверять токен и возвращать hasura заголовок с id пользователя и ролью (группой).

  • Токен авторизации на примере JSON WEB Token
    0

    Спасибо за наводку! Буду пробовать

  • Токен авторизации на примере JSON WEB Token
    0

    JWT хорошая технология, использую её но не так часто как хотелось бы. Хочу попробовать ее с hasura но мешает отсутствие готового JWT сервера с базовым набором: регистрация нового пользователя/права доступа, роли/выдачи токенов после идентификации с готовой веб мордой, чтобы закинуть на отдельный домен/виртуалку/докер. Но что-то внятное не могу найти по этой теме.

  • Лучшие IDE для Raspberry Pi
    +1
    Поддерживаю. VS Code может заменить большинство из описанного выше софта в одной коробке.
  • Новый российский моноблок «Бином-КА» вместил два разных ЦПУ и две ОС
    0
    image
    Скорее всего не юсб флешка, а SD карта, с перетыкателем контактов и замыканием/размыканием lock для блокирования записи в этот буфер из «Закрытого» контура.
    И кто мешает юзеру перекинуть lan кабель из одного контура в другой, но об этом они наверно подумали…
  • Тестирование микрокомпьютеров для IoT
    0
    Хорошо было бы добавить в данный обзор Jetson Nano Kit от Nvidia — $99 (с доставкой в Россию выйдет ~8300-9000 руб).
    4GB LPDDR4 RAM, 128 CUDA ядер, 4K 30fps на монитор
    На TensorFlow нейронки запускать самое то, и размер не на много больше Rpi3
    Тут есть некоторое сравнение с Rpi3