Сложный парсинг — парсинг любого сайта с большим количеством страниц, либо объектов с большим количеством свойств, либо сайта со сложной структурой. Например, кинопоиск, амазон или те сайты, что вы озвучили.
По парсингу со временем у меня сложились правила по которым я отсеиваю заказы:
* я не пишу код на заказ, работаю только по проектам, где на выходе статические данные типа CSV, XML, дамп базы т.е. люди, которые хотят запустить код на своём сервере — это не мои клиенты
* я не предоставляю услуги по импрту данных куда бы то ни было, если человеку надо спарсенные данные запихать в магазин, вордпресс, DLE или ещё куда — это не мой клиент
Эти два пункта позволяют сильно сэкономить время и нервы. Ну и ещё я не тусуюсь на сайты типа фрилансим, заказчики сами обращаются, а я уже выбираю, с кем мне интересно работать.
Тоже работал раньше так, потом перешёл на 50% предоплаты. Хорошо показывает, готов ли человек сотрудничать или он чисто мозги пополоскать решил.
> Единственное что мне очень не нравится в заказчиках, так то, что есть отдельные индивиды, которые за задачку в 500 рублей могут вынести мозг на весь день.
Таких зачастую видно сразу и можно вежливо посылать их. Если вам выносят мозги на весь день, тем более за 500 рублей, значит вы что-то неправильно делаете. Повысьте планку минимальной цены за заказ, количество неадекватов убавится.
> Т.е. мелкие задачи типа парсеров, правок и т.п.
Это неблагодарная работа, я считаю. Подчищать баги за другими.
Если походить отвественно к выбору заданий и отсеивать большую часть заказчиков, то доход будет тот же самый или больше и времени свободного больше будет и нервов целых тоже.
У меня раньше был ноутбук на 486 процессоре, но дисковод там не работал. На ноуте стояла DOS.
А ещё был системник тоже с ДОС и работающим дисководом. Монитора не было!
Когда мне надо было что-то записать на ноут, я вслепую запускал на системнике Norton Commander и выбирал серий нажатий на клавиши нужное меню, которое позволяло передавать файлы по LPT-кабелю.
Была така фишка, можно было распаять LPT-кабель (по нему обычно принтеры подключались) так, чтобы с одобих концов были разёмы для подключения к компу и соединить два компа и потом с помощью NortonCommander передавать файлы.
Ну вот, я так и передавал файлы вслепую. Т.е. подсоединял системник в качестве slave и потом на ноуте, я могу копировать с системника нужные файлы, в том числе с его дисковода.
Хочу оговориться сразу, я не могу вести экспертную дискуссию т.к. не имею юридического опыта.
Как я понимаю это на обывательском уровне. Трекеры и онлайн-кинотеатры распространяют медиа-материалы бесплатно или даже за даньги в обход механизмов получения прибыли законными правообладателями. Это воровство и нарушение прав правообладателей. Далее, трекеры это не робин-гуды. Трекеры не создаются просто так, их создают для получения прибыли (например, с тизерной рекламы). Обыкновенная коммерция.
Серое и чёрное SEO законы нарушают (в моём понимании). Например, копирование инфорации без прав на это. Например, как делают сателлиты: выкладывают текст какой-либо книги (найденной в цифровом виде или полученный посредством OCR).
> И всем было бы плевать, если бы они, например, не нарушали принципов работы Интернета вообще, идя по головам тех же потребителей, заботой о которых и прикрываются.
Нету никаких принципов. Есть поле для манёвров и сильные и ушлые захватывают там контроль. Мне кажется, люди не находятся на той стадии развития, чтобы было нормальное взаимодействие без попыток подгрести под себя контроль.
> и не потому, что тут «тяга к халяве» разыгралась, а потому что это объективно не соотносится с доходами населения.
А население то, оно как воспитано. Потреблять, потреблять, потреблять. Тяга к зрелищам, с такой тягой никаких денег не напасёшься. А без потребления вдруг сразу и жить как-то скучно, вот и заполняют пустоту потреблением.
Прошу не относитья к моим словам чересчур серьёзно. Чтобы оформить все мысли из головы, нужно затратить не один час. Не хочу этого делать, лучше пойду посмотрю ещё одну серию south park на турбофильме :D
> которые больше про «нарушать принципы работы WWW», чем про «толковая оптимизация во благо WWW»
Нарушать принципы работы WWW (что бы это ни значило) порицается, а кража прав на медиа-контент не порицается. И там и там нарушаются какие-то права и законы. Создание дорвеев и кардинг считается абсолютным злом, а распространение меда-контента этаким робингудством.
> Некоторые посты про SEO пишутся, скажем так, черезчур самоуверенными, наглыми и малокомпетентными товарищами
Те кто поумнее молча деньги делают и не палятся, какой им смысл секреты на хабр выкладывать.
> Ну я же не распространяю пиратские сериалы и не привожу на них ссылок (ссылка на сам Турбофильм вам ничего не даст, если у вас нет приглашения, которых я тут тоже не предлагаю), и я уж тем более ничем не торгую.
Вопрос не конкретно к вам адресован. Скорее просто мысль для дискуссии.
Я, может быть, чего то не понимаю? Почему некоторые темы на хабре порицаются, типа SEO, SMO, коррупции, а некоторые приветствуются типа кражи права на показ сериалов.
Эта публикация нарушает сразу два пункта правил:
1) Хабр — не магазин.
2) Хабр — не для правонарушителей.
> Запросы идентичные с точностью до последовательности полей
Как минимум, вы забыли, поле is_superuser в sqlalchemy и pony тестах. Я бы вообще предложил создать таблицу руками и замапить на неё модели фрймворков. Джанга и sqlalchemy это умеют, про пони не в курсе.
Почему вы используете стандартный класс? Мне, например, не очевидно, что джанга не делает что-нибудь этакое в этом классе после получения данных из базы, что может замедлить работу теста. Предлагаю убрать магию и написать модель User с нуля для джанго-тестов.
Наёмный труд, это не обязательно офис. На том же odesk можно найти неплохую работу, выбирать для работы нужно время в течении суток, работать удалённо из любой точки мира где нужен интернет.
Плюсы:
* оплата сопоставимая с московскими зарплатами или даже больше ($25/hour и больше)
* для фрилансера не стоит проблемы «потерял место работы». Потерял, ну и потерял — хрен с ним. Найду другое.
* возможность выбирать проекты по своим условиям (нужные технологии, нужная степень занятости, нужный уровень оплаты)
Минусы:
* отсутствие белой зарплаты (хотя, наверное, можно как-то заморочаться)
* отсутствие бесплатной мед-страховки
* отсутствие живого общения с коллективом проекта
Согласен, откровенно раздражают люди, которые приходят побухать или пожрать в кино. Ещё раздражают любители поковыряться в своём телефоне, свет от экрана которого очень заметен в тёмном зале. А вообще 2к конечно большая цифра, в городе где я живу в эту сумму можно сходить в кино (300-400 руб. на двоих) и потом поесть в ресторане на оставшиеся 1600 руб.
По парсингу со временем у меня сложились правила по которым я отсеиваю заказы:
* я не пишу код на заказ, работаю только по проектам, где на выходе статические данные типа CSV, XML, дамп базы т.е. люди, которые хотят запустить код на своём сервере — это не мои клиенты
* я не предоставляю услуги по импрту данных куда бы то ни было, если человеку надо спарсенные данные запихать в магазин, вордпресс, DLE или ещё куда — это не мой клиент
Эти два пункта позволяют сильно сэкономить время и нервы. Ну и ещё я не тусуюсь на сайты типа фрилансим, заказчики сами обращаются, а я уже выбираю, с кем мне интересно работать.
> Единственное что мне очень не нравится в заказчиках, так то, что есть отдельные индивиды, которые за задачку в 500 рублей могут вынести мозг на весь день.
Таких зачастую видно сразу и можно вежливо посылать их. Если вам выносят мозги на весь день, тем более за 500 рублей, значит вы что-то неправильно делаете. Повысьте планку минимальной цены за заказ, количество неадекватов убавится.
> Т.е. мелкие задачи типа парсеров, правок и т.п.
Это неблагодарная работа, я считаю. Подчищать баги за другими.
Если походить отвественно к выбору заданий и отсеивать большую часть заказчиков, то доход будет тот же самый или больше и времени свободного больше будет и нервов целых тоже.
А ещё был системник тоже с ДОС и работающим дисководом. Монитора не было!
Когда мне надо было что-то записать на ноут, я вслепую запускал на системнике Norton Commander и выбирал серий нажатий на клавиши нужное меню, которое позволяло передавать файлы по LPT-кабелю.
Была така фишка, можно было распаять LPT-кабель (по нему обычно принтеры подключались) так, чтобы с одобих концов были разёмы для подключения к компу и соединить два компа и потом с помощью NortonCommander передавать файлы.
Ну вот, я так и передавал файлы вслепую. Т.е. подсоединял системник в качестве slave и потом на ноуте, я могу копировать с системника нужные файлы, в том числе с его дисковода.
Возможно тут есть ответ: www.riverbankcomputing.co.uk/software/pyqt/intro
Как я понимаю это на обывательском уровне. Трекеры и онлайн-кинотеатры распространяют медиа-материалы бесплатно или даже за даньги в обход механизмов получения прибыли законными правообладателями. Это воровство и нарушение прав правообладателей. Далее, трекеры это не робин-гуды. Трекеры не создаются просто так, их создают для получения прибыли (например, с тизерной рекламы). Обыкновенная коммерция.
Серое и чёрное SEO законы нарушают (в моём понимании). Например, копирование инфорации без прав на это. Например, как делают сателлиты: выкладывают текст какой-либо книги (найденной в цифровом виде или полученный посредством OCR).
> И всем было бы плевать, если бы они, например, не нарушали принципов работы Интернета вообще, идя по головам тех же потребителей, заботой о которых и прикрываются.
Нету никаких принципов. Есть поле для манёвров и сильные и ушлые захватывают там контроль. Мне кажется, люди не находятся на той стадии развития, чтобы было нормальное взаимодействие без попыток подгрести под себя контроль.
> и не потому, что тут «тяга к халяве» разыгралась, а потому что это объективно не соотносится с доходами населения.
А население то, оно как воспитано. Потреблять, потреблять, потреблять. Тяга к зрелищам, с такой тягой никаких денег не напасёшься. А без потребления вдруг сразу и жить как-то скучно, вот и заполняют пустоту потреблением.
Прошу не относитья к моим словам чересчур серьёзно. Чтобы оформить все мысли из головы, нужно затратить не один час. Не хочу этого делать, лучше пойду посмотрю ещё одну серию south park на турбофильме :D
> которые больше про «нарушать принципы работы WWW», чем про «толковая оптимизация во благо WWW»
Нарушать принципы работы WWW (что бы это ни значило) порицается, а кража прав на медиа-контент не порицается. И там и там нарушаются какие-то права и законы. Создание дорвеев и кардинг считается абсолютным злом, а распространение меда-контента этаким робингудством.
> Некоторые посты про SEO пишутся, скажем так, черезчур самоуверенными, наглыми и малокомпетентными товарищами
Те кто поумнее молча деньги делают и не палятся, какой им смысл секреты на хабр выкладывать.
> Ну я же не распространяю пиратские сериалы и не привожу на них ссылок (ссылка на сам Турбофильм вам ничего не даст, если у вас нет приглашения, которых я тут тоже не предлагаю), и я уж тем более ничем не торгую.
Вопрос не конкретно к вам адресован. Скорее просто мысль для дискуссии.
Эта публикация нарушает сразу два пункта правил:
1) Хабр — не магазин.
2) Хабр — не для правонарушителей.
Как минимум, вы забыли, поле is_superuser в sqlalchemy и pony тестах. Я бы вообще предложил создать таблицу руками и замапить на неё модели фрймворков. Джанга и sqlalchemy это умеют, про пони не в курсе.
Почему вы используете стандартный класс? Мне, например, не очевидно, что джанга не делает что-нибудь этакое в этом классе после получения данных из базы, что может замедлить работу теста. Предлагаю убрать магию и написать модель User с нуля для джанго-тестов.
Плюсы:
* оплата сопоставимая с московскими зарплатами или даже больше ($25/hour и больше)
* для фрилансера не стоит проблемы «потерял место работы». Потерял, ну и потерял — хрен с ним. Найду другое.
* возможность выбирать проекты по своим условиям (нужные технологии, нужная степень занятости, нужный уровень оплаты)
Минусы:
* отсутствие белой зарплаты (хотя, наверное, можно как-то заморочаться)
* отсутствие бесплатной мед-страховки
* отсутствие живого общения с коллективом проекта