All streams
Search
Write a publication
Pull to refresh
-23
0
Геннадий @ragimovich

Happy-go-lucky scamp

Send message
По моим ощущениям, в основном, на апворке на питоне требуется писать парсеры (скраперы, граберы). Иногда проскакивают ML задачи и веб, но в сравнении с количеством заказов на парсеры, это капля в море.
Отсутствие желания соревноваться не означает проигрыш. Иногда проще съесть корешок, а не гоняться за мамонтом, рискуя быть сожранным саблезубым тигром.

Ну и, чтобы два раза не «вставать», движение Open Source держится не только и не столько на «признании, уважении и первенстве», сколько на простой невозможности некоторых людей не писать код. Скольких контрибюторов ядра Линукс вы знаете? Я — ни одного, кроме самого Линуса. О какой популярности тут может идти речь, если о них не знает никто, кроме тех, кто с ними же работает? Широко известные в узких кругах? Ну, ок. Только это скорее повторяет мою мысль — они занимаются этим либо за деньги (сколько там процентов коммитов в ядро идет от корпораций вроде Google и Intel?), либо из любви к искусству.

Соревновательный элемент в IT представлен исключительно спортивным программирование, успехи в котором, по слухам (https://geektimes.ru/post/248580/), имеют скорее обратную корреляцию со способностью работать в команде среднестатистических людей. Проводя аналогию — да, ты можешь догнать мамонта быстрее остальных охотников, но что ты будешь с ним делать один? Ты можешь «запилить» крутой коммит в любимый OS проект, но если его сможет понять 1-2 человека из команды, кому он нужен в таком виде? Кто будет его поддерживать потом?
Куда мы катимся? Пойду поем с горя.
Не нужно быть Клименко, чтобы понять, что проблемы будут — лобби у владельцев авторских прав будет посерьезнее, чем у Дурова. Если уж приложение ВК несколько раз выкидывали из аппстора за музыку, которую тоже вроде как пользователи самостоятельно загружают, то тут результат будет аналогичный.

Мне одно непонятно — зачем эти решения выносятся в паблик в виде готовых ботов? Ну есть у вас такой бот, так откройте исходники, объясните, как устанавливать на своем сервере и все. При таком раскладе будет сложно доказать, что это все не для личного использования, да и забанить таких ботов тоже будет сложно.

А вот то, что эти "благодетели-альтруисты" делают сейчас, скорее приведет к лимитированию максимального размера файлов для выгрузки ботами, а то и полному запрету на работу с ними.
Нет, в статье ГМО перечислено в одном списке с "пестицидами и токсинами". Так что ни о какой нейтральности речь не идет — у автора просто ГМО головного мозга.
Индусы знают английский, а наши «разработчики» — нет. Поэтому и будут продолжать работать за то, что предложит местный покупатель. Не верите? Вот тут внизу табличка m.roem.ru/08-02-2016/218738/superjob-trends
> Вроде не первый день на хабре

Не первый, а второй. Карму он успел слить вчера за «браузер для андроид».
Вот именно поэтому, когда вы начинаете пиарить свой сервис, вам и задают вопрос — чем вы лучше RSS? RSS я, как владелец сайта, хотя бы контролирую, а ваш сервис — нет. Т.е. завтра вы решаете, что вам надоело впустую тратить ваше время, удаляете софт из маркета, отключаете шарманку, и я теряю аудиторию. Хорошо, если вы предоставите какие-то пути миграции, но давайте будем смотреть правде в глаза, подобное поведение это скорее исключение из правил. В большинстве случаев никто этим не запаривается и просто объявляется: мы закрываемся через месяц, мигрируйте как и куда хотите. И это я про большие компании говорю, у сервисов «одного человека» обычно просто сайт падает и уже не поднимается никогда.
У белорусов пока есть КГБ, так что им продукция Касперской пока не нужна.
Горшочек, не вари.

Серия №1. http://habrahabr.ru/post/273777/
Серия №2. http://habrahabr.ru/post/274449/

А вам не страшно доверять один из двух факторов непонятному приложению с закрытым исходным кодом, разработчик которого закрыл данные WHOISGuard-ом и пользуется бесплатным SSL сертификатом от Incapsula? Как-то серьезная контора не вяжется с таким поведением. Например, Yubikey (https://www.yubico.com/) имеет EV SSL и все данные регистрации домена открыты.
Простите за мой французский, но что за херню вы несете?

А теперь вопрос — как быстро у вас сядет аккумулятор телефона, если он будет хотя бы каждые 10 минут проверять RSS ленту? Или 30 RSS лент? Я сейчас в PushAll подписан на 90 каналов, многие из них подключены через RSS, от многих из них пушей нет больше недели (редко новые записи появляются или новые пуши) Но появиться они могут в любой момент.

После этого мы для каналов с подписчиками меньше 10 сделали ограничение в 1 проверку в 2 часа.

Т.е. даже если новость появится в любой момент, уведомление о ней я получу через два часа? Так насколько сядет аккумулятор моего телефона, если я буду проверять 90 фидов раз в два часа?

К примеру несколько человек говорили, что у Feedly лента обновляется иногда раз в 8 часов, поэтому они перешли к нам и создали просто открытый канал, сами на него подписались и т.д.

Когда у вас окажется столько же пользователей сколько у Feedly, вам тоже придется 2 часа превратить в 8 часов. Во всяком случае для ваших «бесплатных» клиентов.

Тут тоже самое — если вы будете проверять это через RSS например раз в минуту. То вы будете мучать сервер непрофитным трафиком (рекламу то вы не смотрите) вы один то ладно, вот 10000 таких как вы. т.е. делаете в сутки например 1400 запросов, заходите на сайт один раз.

Большая часть публичных RSS спокойно кэшируется и старая версия спокойно возвращает HTTP 304 Not Modified. Если оно гонит HTTP 200, то это проблема сервера, а не читателей.

Что касается 10000 подписчиков у сайта, это ведь уже не маленький такой сайт и 150 запросов статического файла в секунду ему ничего сделать не смогут даже теоретически, поскольку nginx даже на 5 баксовом дроплете тянет больше 1000 RPS.

Ну и о рекламе. Я вам ща секрет открою, только никому не рассказывайте — сайты не всегда отдают весь контент в RSS и мы таки переходим на сайт, если статья интересная.

Скорее всего обычно эти RSS подключают с обновлением например раз в час — для RSS это нормальное время.

Нормальные ресурсы обновляют 1 в 1. Единственный странный ресурс на моей памяти — Upwork, на котором задержка 5 минут, но он живет не с рекламы и ваши параноидальные идеи как-то мимо кассы.

А суть всего этого сервиса в том, чтобы получить оповещение в браузер сразу кликнуть и сразу ответить и получить например «Лучший ответ». В общем есть те, кто этим занимается и им этот сервис будет полезен. И RSS для них это как таки не то что им нужно.

Че, правда что ли? http://i.imgur.com/NjbvJid.png Попапы летят на рабочий стол. Не думаю, что вы обновляете с частотой раз в секунду.
Простите, но чем ваши пуш уведомления удобнее и проще RSS? Берем QuiteRSS, пихаем в папку все нужные теги (на SO у каждого тега свой канал) и все.

Не, я понимаю, что вам надо бизнес продвигать, но объективно плюсов по сравнению с RSS у пушей нет вообще никаких. А нормальная RSS читалка может еще и серьезно поспорить с вашим сервисом в плане возможностей поиска, организации и хранения новостей.
mysql_connect в статусе deprecated начиная с версии PHP 5.5, если мне память не изменяет. Актуальная версия пятой ветки PHP 5.6. Не заметить предупреждения можно только если везде ставить error_reporting(0), что при разработке/тестах очень странно. Или вы из принципа используете устаревшие функции в надежде на то, что ни один из ваших серверов никогда не обновится до актуальной версии?
Для дебиана есть отличный репозиторий обновлений связанных с web пакетов — http://dotdeb.org/
VCS усложняют разработку. ZIP — выбор настоящих программистов! Просите архив, потом выложите ссылку на архив со своими правками, там, глядишь, еще кто подтянется.
Подождите пока автор дойдёт до соответствующей главы и выложит наполненный болью и безысходностью код парсера rutracker на регулярных выражениях. Ведь про DOM в его книжке еще не знают. Да и вообще DOM усложняет код — регулярки привычнее.
Причём здесь «академичность»? Мне кажется, тут есть смысл говорить не об академичности, а о банальном знакомстве автора с возможностями выбранных инструментов. Или вы считаете, что тратить 1.5 часа собственного времени на заполнение базы в полуавтоматическом режиме это нормально? При том, что можно это автоматизировать буквально тремя строчками кода. Не двумястами, не пятьюстами, а тремя. Единственный вариант, когда такое может быть оправдано, это если 1.5 часа твоего времени стоят меньше, чем набор трёх строк кода.
Ну, можно еще добавить, что Sphinx давно не требует специальных библиотек, а позволяет запрашивать данные по MySQL интерфейсу. Да, некоторый функционал через него пару лет назад не работал (сложная агрегация), но то, что у автора в коде, работало уже тогда.

Но вообще, больше всего меня порадовал вот этот момент

Открываем браузер, открываем url «http://site.ru/db/insert_to_db.php?f=category_10.csv». Проделываем тоже самое с каждым файлом CSV. Да, все это можно было автоматизировать, но я специально написал так, что бы было максимально всё понятно.

36 файлов. Таймаут в скрипте установлен на 3 минуты/файл. Итого, больше 1.5 часов перед монитором, вручную перебирая цифры. У меня ощущение, что автор не дошел до главы, где объясняют, как в PHP можно получить список файлов в директории, поэтому списал этот момент на «усложнение кода».
mysql_connect("localhost", "torrent", "password") or die("Could not connect to MySQL");


Время остановилось. Шел 2015 год. В репозиториях лежал PHP7. А на самом посещаемом IT ресурсе рунета продолжали писать mysql_connect и делать из кода лапшу.

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity