Pull to refresh
0
0

User

Send message

Не защищайте сайт от скрапинга: сопротивление бесполезно

Reading time9 min
Views36K
За последнее десятилетие я реализовал много проектов, связанных с агрегацией и анализом контента. Часто агрегация включает в себя снятие данных со сторонних сайтов, то есть скрапинг. Хотя я стараюсь избегать этого термина. Он превратился в некий ярлык, с которым связано много заблуждений. Основное заблуждение в том, что веб-скрапинг можно заблокировать с помощью X, Y, Z.

tl; dr; Нельзя.

С точки зрения бизнеса


На прошлой неделе я встретился с высокопоставленным руководителем из отрасли, в которой развиваю свой бизнес GO2CINEMA. Без сомнения, это один из самых умных и знающих людей в киноиндустрии.

Бизнес-модель GO2CINEMA основана на агрегировании из разных источников информации о расписании сеансов, свободных местах и стоимости билетов, а также выполнении запросов на покупку билетов на этих веб-сайтах от имени пользователя.

Я посоветовался с этим человеком насчёт поиска инвестиций. Он предложил свою помощь и попросил подготовить анализ всех способов блокировки моего текущего бизнеса, включая скрапинг контента (с технической и юридической точек зрения). Я подготовил необходимые документы и поделился с ним перед нашей встречей. Его реакция была примерно такой:

Да, тщательное исследование. Но всё-таки есть способы, чтобы тебя заблокировать. *ухмыляется*

Нет, парень, нет таких способов.
Читать дальше →
Total votes 39: ↑36 and ↓3+33
Comments206

Как читать больше книг

Reading time8 min
Views33K


В прошлом году я прочёл 120 книг. Когда я запостил коллаж из больше всего понравившихся мне книг среди этих 120 книжек у себя в Instagram, многие ребята спросили, в чём мой секрет – как я смог переварить столько книжек за 12 месяцев.

За годы чтения я выработал определённые тактические приёмы, как для работы, так и для удовольствия, и я поделюсь ими с вами. Если вы хотите увеличить свою физическую и умственную библиотеку и прочесть в этом году больше книг, возможно, они сработают и у вас.

Главная хитрость для того, чтобы прочитывать больше


Когда люди спрашивают меня, каким образом мне удаётся читать так много книг, они обычно ждут какую-нибудь технику быстрого чтения, которая поможет их мозгу проглатывать книги целиком. Быстрое чтение действительно играет определённую роль в моём чтении (подробности позже), но это не мой главный секрет.

Придвиньтесь поближе. Я шёпотом сообщу вам секрет того, как прочитывать больше книг. Готовы?
Читать дальше →
Total votes 30: ↑25 and ↓5+20
Comments45

Firefox Gecko, «который мы потеряли»

Reading time11 min
Views49K

Эволюция идёт, и более слабые, медленные и неэффективные организмы вымирают. Не так давно мы проводили в пучину истории Оперу-12, глядя куда-то вдаль, молча слушая за спиной всхлипывания сочувствующих. В отличие от трупа последнего животного из Красной Книги, ею можно было ещё пользоваться 2-3 года, да и на некрофилов пользователи не смахивали. Похожая ситуация повторяется с Firefox на движке Gecko с последней наиболее удобной версией 56.0.2. Есть много полезной и привычной функциональности, не только встроенной, но и в аддонах (расширениях). Даже пониженное быстродействие — не основание для перехода к новой версии, если с ней теряется несколько полезных функций. А со старым движком есть, что терять...


Рассмотрим список того, чем ещё можно пользоваться в старой версии Firefox и с какими успехами идёт замена и восстановление этого в новых версиях. Что имеется совершенно нового, ради чего стоит всё бросить и забыть. (На самом деле — не обязательно. Ведь можно одновременно открывать старую и новую версии.)

Читать дальше →
Total votes 32: ↑25 and ↓7+18
Comments219

Тысячи взломанных сайтов заражают компьютеры посетителей зловредным ПО

Reading time3 min
Views9.1K


На днях стало известно о том, что команда злоумышленников взломала несколько тысяч различных сайтов, загрузив malware на серверы. Сделано это для того, чтобы заражать пользовательские ПК в момент посещения их владельцами скомпрометированного ресурса. Взломы проведены не вчера, кампания была тщательно замаскирована, и проводилась минимум несколько месяцев назад.

В основном поражались ресурсы на таких CMS, как WordPress, Joomla и SquareSpace. Информацию о случившемся предоставил специалист по информационной безопасности Джером Сегура, работающий в компании Malwarebytes. Хакеры, по его словам, поступили достаточно предусмотрительно. Зараженные сайты показывали посетителям сообщения о необходимости установить обновление для Firefox, Chrome или Flash.
Читать дальше →
Total votes 10: ↑9 and ↓1+8
Comments8

Стартап дня (январь-март 2018-го)

Reading time7 min
Views6.4K


Продолжая серию дайджестов «Стартап дня», сегодня я представляю самые интересные проекты за январь-март. Если хотите ознакомиться с остальными, то прошу в мой блог. Записи доступны в VK, Facebook, ICQ и Телеграм.

Читать дальше →
Total votes 24: ↑23 and ↓1+22
Comments4

Этичный хакинг: как заработать денег, а не проблемы с законом

Reading time6 min
Views38K


Поиск уязвимостей напоминает лотерею, в которой можно как сорвать джекпот с кругленькой суммой, так и потерять все, включая свободу. И это вопрос не везения, а четкого понимания границ этичного хакинга. Решили для вас разобрать на пальцах, как ковырять баги в чужих системах легально.
Читать дальше →
Total votes 14: ↑10 and ↓4+6
Comments12

Что делать, если память подводит

Reading time14 min
Views19K
Привет, GT! Оперативная память – это как деньги. Или как свободное время. Ну, в смысле, расходится на все подряд и всегда ее не хватает. В общем, здесь действует то же правило: чем больше – тем лучше. И даже если ваш ПК довольно средненький по ТТХ, с оперативкой, например, на 8 гигабайт, то переход на 12 гигабайт такой же средненькой памяти скрасит вам жизнь весьма ощутимо. А вообще, в плане памяти есть два основных способа сделать так, чтобы использование компьютера приносило максимум радости:

  1. Оптимизировать саму ОС, чтобы уже имеющаяся на борту память расходовалась оптимально в рамках привычных пользователю сценариев.
  2. Докупить себе в ПК правильных плашек, нарастив память до нужного объема.



Но обо всем по порядку.
Читать дальше →
Total votes 25: ↑19 and ↓6+13
Comments55

Телефон + CRM: преимущества совместной работы

Reading time6 min
Views5.9K


Современный мир — это мир коммуникаций. Они на каждом шагу. В бизнесе, чтобы принимать верные управленческие решения, необходимо коммуникации (прежде всего, клиентские) детально анализировать — по частоте, по источникам, по эффективности их отработки на стороне компании и прочим параметрам. Поэтому оторванность системы коммуникаций от учетной системы практически равносильна отставанию от рынка. Сегодня речь пойдет о том, какие интеграции реализованы для виртуальной АТС MANGO OFFICE, что конкретно получают от возможности встроить телефонию в различные бизнес-приложения наши клиенты, и как мы работаем в этом направлении.
Читать дальше →
Total votes 28: ↑24 and ↓4+20
Comments11

Фреймворк для бессерверных приложений в AWS

Reading time10 min
Views6K
Мы решили создать небольшой фреймворк для бессерверных веб-приложений в AWS. Может более правильно назвать это не фреймворком, а заготовкой, — я не знаю. Но суть в том, чтобы создать основу для быстрой разработки бессерверных приложений в AWS. Код выложен на GitHub и открыт для любых усовершенствований, коих предстоит немало.


В статье речь пойдет о том, как разрабатывать и тестировать бессерверные приложения локально, о роутинге на фронтенде и бекенде, о сервисах Amazon и тому подобных вещах. Кому интересно, добро пожаловать под кат!
Читать дальше →
Total votes 8: ↑8 and ↓0+8
Comments9

Применение сверточных нейронных сетей для задач NLP

Reading time9 min
Views61K
Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети


Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

image
Источник
Читать дальше →
Total votes 71: ↑69 and ↓2+67
Comments29

Марвин Мински «The Emotion Machine»: Глава 1 «Как мы управляем собой»

Reading time6 min
Views5.2K
Отец искусственного интеллекта размышляет о том, как сделать машину, которая бы гордилась нами. Марвин Мински был довольно жестким ученым и то, что он своим «скальпелем познания» исследует тему чувств и эмоций, что же делает нас людьми, довольно интересно и полезно. Книга — отличный образец того, как «ИТишным подходом» попробовать осмыслить «человеческое»: ценности, идеалы, любовь, боль, здравый смысл.

image

Предыдущий параграф

§1-2 Море Ментальных Тайн


Время от времени мы погружаемся в вопросы о том, как мы управляем собой.

  • Почему я трачу так много своего времени?
  • Что определяет мои предпочтения?
  • Почему у меня такие странные фантазии?
  • Почему я нахожу математику такой сложной?
  • Почему я боюсь высоты и толпы?
  • Что заставляет меня пристраститься к упражнениям?

Но мы не может даже и надеяться на понимание этих вещей, без наличия адекватных ответов на следующие вопросы:

  • Как наш разум создаёт новые идеи?
  • Каковы основы наших убеждений?
  • Как мы учимся на собственно опыте?
  • Как нам удаётся рассуждать и думать?

Кратко говоря, нам нужно получить более глубокое понимание процессов, которые мы называем мышлением. Но всякий раз, когда мы начинаем размышлять об этом, мы сталкиваемся с ещё большим количеством загадок.

  • Какова природа Сознания?
  • Каковы наши чувства и как они работают? Как наш мозг Воображает вещи?
  • Как наше тело связано с нашим умом?
  • Что формирует наши ценности, цели и идеалы?
Читать дальше →
Total votes 12: ↑11 and ↓1+10
Comments1

Диванный вице-президент: как я работаю директором по продуктам на полной удалёнке

Reading time9 min
Views18K
Привет. Меня зовут Максим Винников, я Vice President of Product Management в компании Aurea Software. В той же самой компании, на которую работает Слава Кулаков, знакомый многим по истории, как он стал фрилансером, получающим $200 000 в год. Вопросы и комментарии к тому посту продолжают идти до сих пор, поэтому сегодня, уже на своём примере, я расскажу, что из себя в повседневном режиме представляет уже непосредственно работа, за которую платят такие гонорары — и постараюсь ответить на вопросы по теме живьём.

[update] В прямом эфире ответил на вопросы, появившиеся в комментариях за день:



Согласно стандартам Aurea и ESW Capital каждый сотрудник должен отработать 40 часов в календарную неделю. Я, исходя из своей позиции и физических возможностей, придерживаюсь графика 5/2. Моё основное рабочее окно расположилось в промежутке с 14:00 до 19:00, это суммарно 5 часов в день. Ещё 3 часа в день дорабатываются тогда, когда мне удобнее: в один день я могу поработать поздним вечером, в другой — приступаю с самого утра, чтобы освободиться пораньше.

Так как команда на 100% децентрализована и у нас нет офисов, то всё взаимодействие между сотрудниками переходит в онлайн. Я, как VP (а это менеджерская позиция), вовлечён в различные рабочие процессы множества людей сильнее, чем среднестатистический разработчик. Это тоже стоит учитывать.
Total votes 60: ↑44 and ↓16+28
Comments149

Еще одна коробочная CMS или достойная альтернатива?

Reading time6 min
Views10K
Приветствую вас, хаброюзеры!

Эххх, давненько я здесь не появлялся и не писал… А, тем временем, жизнь идёт, все меняется, в том числе и мой любимый eCommerce, для которого постоянно появляются новые инструменты.
За всё время работы в данной нише (а это более 5 лет) я перепробовал массу движков, как opensource, так и коммерческих: Magento, Битрикс, Insales, OpenCart, Shop-Cart, Simpla, Zen Cart и тд. И вот, к чему я пришёл…

Во-первых, готовые продукты (CMS наши любимые), когда речь идёт о запуске стандартного магазина в сжатые сроки без особых требований заказчика и непониманий, что такое ТЗ и зачем оно, — это хорошо.

Я не буду сейчас говорить обо всех 50 оттенках ощущений (иногда их бывало и больше), которые испытывают праведные разработчики при виде кода некоторых PHP CMS (как самых распространённых на сегодняшний день), когда их нужно кастомизировать. Это отдельная тема для разговора…

Если не вникать в технические подробности, CMS – отличный инструмент, который позволяет экономить время при разработке и удовлетворять 90% желаний среднестатистических заказчиков, оставаясь при этом в плюсе как по времени, так по финансам и нервам.

Во-вторых, я не люблю opensource.
Читать дальше →
Total votes 40: ↑9 and ↓31-22
Comments15

«Солнечные камни» из саг викингов — вероятный инструмент прокладки курса в Гренландию

Reading time3 min
Views18K

Кальцит или исландский шпат

Викинги обследовали большое количество территорий, лежащих далеко за пределами Скандинавии. В IX—XI веках они путешествовали от Ирландии до Руси, а возможно, и гораздо дальше. В 10-м веке они же открыли Гренландию. Но каким образом они ориентировались на бескрайнем водном просторе, не имея ничего из серьезных инструментов навигации? Ведь компаса у них точно не было, эта технология достигла Европы к концу 16-го века.

В сагах викингов и некоторых других документах говорится, что они бороздили моря и океаны при помощи неких «солнечных камней», помогавших им определять положение Солнца на небосклоне даже тогда, когда небо было полностью застлано тучами. Туман тоже не был препятствием для «солнечных камней», Солнце они «видели» прекрасно. Долгое время считалось, что все это — просто легенда, но сейчас некоторые историки утверждают, что «солнечные камни» вполне могли существовать.
Читать дальше →
Total votes 31: ↑31 and ↓0+31
Comments9

Как программирование влияет на мозг и мышление

Reading time4 min
Views56K


Это правда, что мышление программистов устроено иначе, чем у других людей. Не сказать, что они обязательно умнее, логичнее или рациональнее остальных. Однако не так давно учёные приступили к изучению влияния программирования на мозг, и пришли к интересным заключениям.

Как занятия искусствами могут по-разному менять ваше мышление, так и программирование влияет на ваш образ мыслей — возможно, не так, как вы ожидали.
Читать дальше →
Total votes 28: ↑23 and ↓5+18
Comments67

Как победить рутину, или Готовое приложение в Xcode за пару кликов

Reading time9 min
Views15K


У каждого опытного разработчика есть набор инструментов, к которым он привык и с которыми ему удобно работать. Это может быть простейшая настройка окружения, утилиты для промежуточных операций (к примеру, помощник по тестированию API Postman), проверенные временем и лично разработчиком библиотеки и сниппеты.

Также у многих разработчиков может быть свой подход к реализации выбранной архитектуры. Поэтому очень полезно иметь в своем арсенале заготовку приложения – общий скелет, к которому останется только добавлять новые модули, экраны и фичи. В этом материале я расскажу, как создать собственный шаблон приложения в Xcode.
Читать дальше →
Total votes 14: ↑14 and ↓0+14
Comments2

Литературный архиватор

Reading time5 min
Views6.7K
Прежде всего, поздравляю всех православных и им сочувствующих с пасхой и окончанием великого поста, всех остальных — с наступлением весны. В песочнице только месяц назад наконец утонул мой дебют про программирование на кириллице. Не знаю, что привлекло внимание читателей к зелени, но комментировали простынями, как настоящую статью. В своей простыне TrllServ предложил использовать задумку для архивации. Обожаю людей, которые умеют находить практическое применение идеям. Развернув блокнот, я попробовал набросать алгоритм на основе свойства своей кодировки, а именно — однозначной типизации символа по первым битам. Сжимать таким алгоритмом удобно именно текст, то есть статьи, книги или копипасты из интернетов — то, что состоит из слов, и где регистр букв имеет грамматическое значение. Впоследствии к простому алгоритму добавились средние, основанные на правилах русского языка, и всё это собралось в одну сложную программу, эффективно сжимающую учебник литературы. Назовём его «Литературный архиватор».
Читать дальше →
Total votes 25: ↑15 and ↓10+5
Comments45

При перегрузке рабочей памяти у человека нарушается синхронизация между тремя отделами мозга

Reading time3 min
Views24K

Корковая архитектура в соответствии с канонической моделью нейронного микроконтура в коре головного мозга примата. Четыре типа нейронов (звёздчатые нейроны, поверхностные и глубокие пирамидальные нейроны и тормозные интернейроны) соединяются возбуждающими (красные) и тормозящими (чёрные) соединениями. Такой набор нейронов и соединений мотивирован анатомическими и теоретическими соображениями в пользу канонической модели

Человек способен одновременно удерживать в рабочей памяти ограниченное количество объектов. Объём рабочей памяти напрямую связан с когнитивной способностью, которая снижается при неврологических заболеваниях и психических расстройствах. Учёные уже несколько десятилетий изучают, как загрузка рабочей памяти влияет на обработку нейронных сигналов в мозге. Они пытаются понять, почему у рабочей памяти такой небольшой объём. И почему когнитивные способности резко падают, если загрузить рабочую память сверх положенного.
Читать дальше →
Total votes 19: ↑19 and ↓0+19
Comments20

Филиппины: как на малых островах живут люди, которым не особо нужны современные технологии

Reading time8 min
Views65K


Сейчас я вам расскажу про милых людей на маленьких островах на Филиппинах и особенности их взаимодействия с техникой двадцать первого века. Но сначала небольшое вступление: это те самые люди, которые размножаются почти быстрее всех на планете. И именно они скоро хлынут в интернет из-за того, что некоторые накопят деньги на сотовые телефоны.

На Филиппинах живёт 100 миллионов учтённых человек. Естественный прирост населения за прошлый год — плюс 1 779 566. В России живёт 146 миллионов человек, и естественный прирост за прошлый год — минус 168 тысяч человек.

Иллюстрация из диалога с «переговорщицей» племени одного из островов:
— У меня пять братьев и четыре сестры.
— А во сколько вы женитесь?
— В 18 лет примерно.
— А когда рожаете первого ребёнка?
— Около 14.

Итак, давайте пробежимся по маленьким островам — тем самым, где живёт до тысячи человек. Забегая вперёд, живут они очень счастливо, и я им отчасти завидую.
Читать дальше →
Total votes 91: ↑89 and ↓2+87
Comments141

Как мы восстанавливали расписание междугородних автобусов

Reading time7 min
Views22K


Как на всех нормальных рынках, билеты на автобусы уже пару лет как продаются онлайн. Не обязательно стоять в очереди в кассу автовокзала, чтобы получить квиток. По России до 60 % маршрутов (в лучшие дни, оценка несколько размыта с учётом «серых» рейсов) можно купить онлайн. В том числе у нас, Туту.

Первое, что мы захотели, — это вынести расписание тоже в онлайн и сделать так, чтобы можно было за пару кликов купить себе билет. Мы такие задачи привыкли решать и как-то собаку съели на железнодорожных перевозках. Автобусы на первый взгляд не выглядели сильно сложными. Всего-то делов — договориться с системами автоматизации автовокзалов, выгрузить по API их рейсы и немного причесать.

Лёгкая работа, говорили они. Проект на пару дней, говорили они.

Наши заблуждения:

1. Все автовокзалы в стране автоматизированы.
2. Ладно, большинство автоматизировано.
3. Учёт в тетрадке больше нигде не ведётся.
4. Ладно, но всегда есть какой-то способ узнать расписание удалённо.
5. Те, которые автоматизированы, одинаково показывают один и тот же маршрут.
6. Ладно, хотя бы те, которые автоматизированы одной и той же системой, одинаково показывают один и тот же маршрут.
7. Ладно, где автоматизации нет, хотя бы есть расписание.
8. Ну должно же быть расписание, ведь без него только нелегальные перевозки!
9. Нелегальных перевозок мало.
10. Ладно, их меньше 10 % рынка.
11. Билет можно купить сразу туда и обратно.
12. Не бывает маршрутов в один конец.
13. Ну хотя бы автобусы-то возвращаются назад! Когда-то…
14. Не может за год 300 автобусов уехать в другой город и не вернуться.
15. Остановки имеют разные уникальные названия.
16. Не будет проблем с остановкой с названием «Поворот» или «Заправка».
Читать дальше →
Total votes 62: ↑60 and ↓2+58
Comments57

Information

Rating
Does not participate
Registered
Activity