Как стать автором
Обновить
60
0
Александр @S2nek

Пользователь

Отправить сообщение

multi_get — качаем сайты оптом

Время на прочтение4 мин
Количество просмотров1.7K
Топик будет интересен тем, кто хочет индексировать Интернет-сайты на предельных скоростях (самодельные поисковики, анализы частоты слов, сервисы по анализу html'я и т.п.) Threading тут не дает предельных скоростей, urllib — тем более… Решение здесь в использовании асинхронных запросов из libcurl.

Скорость?
На 500MHZ (очень-очень слабенький VPS) — около 100 URLов в секунду (100 соединений, 2 процесса).
На Amazon EC2 «High-CPU Medium Instance» (.2$/час) ~ 1200 URLов в секунду (300 соединений, 5 одновременных процессов). В один процесс до 660 URLов в секунду.

Для выкачивания множества сайтов и дальнейшей обработки, хочу поделиться одной своей полезной функцией — multi_get — по сути она — удобный wrapper для CurlMulti (libcurl), модифицированный из их примера CurlMulti.

>>> urls = ['http://google.com/', 'http://statcounter.com/']
>>> res = {}
>>> multi_get(res, urls, num_conn = 30, timeout = 5, percentile = 95)
>>> res['http://google.com/']
'<html><title>Google....
# тут обрабатываем res, который содержит HTML всех для URL'ок
Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии11

Бизнес-Веб в примерах

Время на прочтение1 мин
Количество просмотров1.3K
В прошлой серии была предложена классификация B2C и C2B коммуникаций. Продолжая тему, хочу проиллюстрировать эту систему англоязычными примерами:
B2C | Бизнес обращается к потребителям:
C2B | Потребители ищут и выбирают бизнесы/продукты

Вопросы
  1. Какие проекты и направления незаслужено забыты?
  2. Насколько реально, по вашему мнению, представить единый интерфейс доступа ко всем C2B инструментам для потребителя?
  3. Насколько реально представить единый интерфейс доступа ко всем B2C инструментам для бизнеса?
Всего голосов 22: ↑21 и ↓1+20
Комментарии20

Интернет магазин — 15000 евро за первый месяц

Время на прочтение6 мин
Количество просмотров90K
В народе есть известная поговорка „Первый Блин Комом“, чего не могу сказать о своём свежем опыте интернет торговли. Скорее всего, это просто исключение подтверждающее правило, но, тем не менее, хочется рассказать о тех небольших выводах, что я сделал за последний месяц.

Итак, небольшая история о том, как можно довольно легко заработать за один месяц минимум 15 000 евро.

Мой профессиональный род деятельности — веб-разработка. Занимаюсь R&D в одной небольшой IT компании, пишу «навороченные» приложения для корпоративных интранетов и, в принципе, на жизнь не жалуюсь. Конечно, при таком раскладе хочется параллельно вести какой-нибудь интересный проект, чем неоднократно занимался в мире Open Source. Со временем, правда, захотелось на побочных проектах так же как-то зарабатывать, что с Open Source оказалось не так просто, как может показаться из статей на Хабре :) Потому и решил попробовать для себя что-то принципиально новое — открыть интернет магазин.

Читать дальше →
Всего голосов 517: ↑493 и ↓24+469
Комментарии389

Взлом каптчи файлообменника

Время на прочтение9 мин
Количество просмотров44K

Введение



В данной статье коротко рассказывается о процессе взлома captcha с ifolder.ru. Применение в процессе языка Python и сторонних библиотек. Применение алгоритма преобразований Хафа в составе библиотеки Open Computer Vision © Intel позволит нам избавиться от шума на изображении, простая в использовании и быстрая библиотека FANN (Fast Artificial Neural Network) сделает возможным применение искусственной нейронной сети для задачи распознавания образа.

Моя мотивация состояла, прежде всего, в том, чтобы попробовать язык Python. Как известно, лучший способ изучить язык — решить на нём какую-нибудь прикладную задачу. Поэтому параллельно описанию процесса обработки изображения я буду рассказывать о том, какие библиотеки и для чего я использовал.
Сломать мозг
Всего голосов 183: ↑178 и ↓5+173
Комментарии68

Логика английских времен

Время на прочтение6 мин
Количество просмотров71K
Изучавшие или изучающие английский язык знают, каким страшным может казаться множество английских временных форм глаголов.
Всего в английском 12 временных форм. А в русском-то, на первый взгляд, всего 3, и как их связать с английскими, для новичка может быть совершенно не понятно.
Читать дальше →
Всего голосов 196: ↑173 и ↓23+150
Комментарии202

Наконец я стал лидером рейтинга

Время на прочтение1 мин
Количество просмотров439
Правда вот этого habrahabr.ru/people/unhabred



Вобщем должен сказать, что возвращенная система действительно объективна.
Я веть на самом деле такая сволочь! Хоть и сложно иногда это признать.
Читать дальше →
Всего голосов 150: ↑107 и ↓43+64
Комментарии58

Откуда появляются первые 10 клиентов?

Время на прочтение3 мин
Количество просмотров924
Примечание: ниже находится перевод статьи «Getting those first 10 Clients», в которой автор рассуждает о способах привлечения первых клиентов для начинающего интернет-бизнеса.

В моей первой заметки я спрашивал у своих читателей, о каких вещах мне стоит написать. Часть из них задало несколько совершенно невероятных вопросов, в том числе, о маркетинге и как мне удалось получить свои первые заказы с нуля.
Читать дальше →
Всего голосов 35: ↑24 и ↓11+13
Комментарии37

authorize.net — подключение и работа

Время на прочтение5 мин
Количество просмотров6.7K
Довелось мне делать интернет магазин, в котором оплату нужно было проводить кредитными картами. И всё не беда, если бы заказчика устроил PayPal.Точнее тогда я об этом ещё не знал. Заказчик имел мерчант-аккаунт на authorize.net. В ходе поисков нормальной системы оплаты авторайз был мною отброшен по причине убогости сайта. Сайт оставляет ощущение, что проект давно заброшен, и никто им не занимается. Ну да ладно. Клиент всегда прав. Итак.

Что делает в первую очередь разработчик столкнувшись с задачей стандартной, но доселе им не реализованной? Правильно! Идёт в интернет и ищет готовые решения. Не исключено что это я плохой пользователь Гугла. Но, тем не менее — все готовые реализации были не более чем копиями sample кода взятого на сайте конторы. Ни тебе комментариев в коде, ни тебе сопроводительной записки.

Следующий шаг: курениечтение мануала на сайте разработчика. Единственное что помог сделать мануал — понять, что на самом деле лишнее в сэмпл коде. Далее я предлагаю свои советы по работе с данным сервисом. Это частично и перевод руководства, и личный опыт.

Читать дальше →
Всего голосов 13: ↑12 и ↓1+11
Комментарии6

Django: Не изобретая велосипед

Время на прочтение2 мин
Количество просмотров2.7K
Хотел поделиться списком django-проектов, которые могут быть очень полезны при старте любого нового проекта. Чтобы, как говориться, «не изобретать велосипед».

Читать дальше →
Всего голосов 18: ↑14 и ↓4+10
Комментарии3

Word придумал Штирлиц? Информация к размышлению

Время на прочтение3 мин
Количество просмотров2.6K
Итак, грустная история, которую мне поведал мой друг-админ.
Прошу заметить, это не какой-нибудь копи-паст, а история полученная мной (manuscriptum'ом) из первых уст.
Читать дальше →
Всего голосов 113: ↑113 и ↓0+113
Комментарии97

Лицензия CC+ обеспечит авторам пожизненный доход

Время на прочтение1 мин
Количество просмотров1.2K
Организация Creative Commons разработала новый договор для лицензии CC, чтобы авторы «свободных» работ получили, наконец, возможность легально зарабатывать на коммерческом распространении своих произведений. Новая система (т.е. лицензия CC плюс новый договор) получила название CC+ (CCPlus).

Если автор публикует свою работу под знаком CC+, то тем самым он позволяет кому угодно использовать её в коммерческих целях, при этом автор получает заранее определённый процент от будущей прибыли или оплату по фиксированной ставке.

Таким образом, CC+ представляет собой сочетание свободной лицензии CC и стандартного коммерческого договора. Даже если работа опубликована под обычной лицензией CC, в случае заинтересованности коммерческих издателей можно быстро перевести её под CC+.
Всего голосов 25: ↑23 и ↓2+21
Комментарии36

Давид Ян: Йоси Варди назвал Cybiko самым крупным изобретением человечества после MP3

Время на прочтение21 мин
Количество просмотров3.4K
Оригинал и аудиозапись интервью вы найдете в этом блоге

На мои вопросы отвечает основатель компании ABBYY, компании Cybiko — не так давно нашумевшей в США со своей инновационной разработкой.
Его зовут Давид Ян и он один из самых знаменитых предпринимателей, работающих в IT-области в России. Его биография включена в американский справочник «Кто есть кто — 2001». Давид Ян является лауреатом премии Правительства России в области науки и техники.

Давид Ян — основатель ABBYY

Кроме IT-сферы, Давид еще занимается ресторанным бизнесом. В числе его проектов можно выделить FAQCafe и ARTEFAQ — заведения для встреч творческих людей и приятного времяпровождения. Но от IT далеко не уйти и поэтому Давид и Ко совсем недавно запустили новый проект под названием IIKO — систему управления ресторанным бизнесом.
Если вы хотите ближе познакомится с неординарной личностью Давида Яна — читайте интервью.

Читать дальше →
Всего голосов 54: ↑46 и ↓8+38
Комментарии37

Кто и зачем заказывает спам в блогах?

Время на прочтение8 мин
Количество просмотров1.2K
Вы даже не представляете, насколько загажена российская блогосфера. Работая над антиспамерским сервисом, я вручную прочесал пару сотен популярных блогов и отсмотрел пару тысяч сайтов, на которые ссылаются комментаторы.

Попадались посты, в которых из десяти комментариев восемь были спамерскими, причем эти кретины даже «переговаривались» друг с другом фразами типа «ничо не понял» или «круто, автору респект».

Читать дальше →
Всего голосов 63: ↑59 и ↓4+55
Комментарии60

«Обычный дурацкий интернет»

Время на прочтение1 мин
Количество просмотров595
Вчера, совершая вечернюю пробежку по Сети, я случайным образом оказался на заглушке сайта «Тематические Медиа» и набрел на интересное изображение.


«Тематические Медиа» — это дружественный Futurico стартап, который лучше всех в России умеет создавать тематические медиа с элементами ролевых игр (RPG).
Решил продублировать из комментариев, чтобы данный вопрос больше не поднимался (-:.

Чувство юмора, как всегда, на высшем уровне ;-).
Всего голосов 40: ↑28 и ↓12+16
Комментарии38

Тренажерный зал для мозга

Время на прочтение1 мин
Количество просмотров1.6K
Хочу рассказать вам о книге Тома Вуджека «Тренировка ума». Книга показалась мне достаточно интересной.

Эта книга — практическое пособие по тренировке мозга, умственных способностей.

Книга состоит из двенадцати глав. Каждая глава — это своего рода тренажер, предназначенный для развития определенного качества вашего ума. На одних тренажерах вы будете попеременно то прилагать усилия, то расслабляться, погружаясь в безмятежное спокойствие; на других вам придется муштровать свой ум «до седьмого пота». Одни упражнения предназначены для активации вашего левого полушария — аналитической, логической части мозга, другие — для правого полушария, интуитивной части мозга, также ответственной и за пространственное восприятие. А все вместе тренажеры обеспечат вам всестороннюю интеллектуальную тренировку.

Скачать книгу (1,23 мб)

Оригинал заметки: Саморазвитие для умных людей
Всего голосов 27: ↑23 и ↓4+19
Комментарии29

WordPress превратят в распределённую социальную сеть

Время на прочтение1 мин
Количество просмотров492
Способна ли блогерская платформа WordPress стать основой для глобальной социальной сети? Это вполне возможно, если получит развитие оригинальный проект DiSo, что означает “distributed social networking”. Проект создан для того, чтобы вобрать в себя все возможные микроформаты, открытые программные интерфейсы, софт open source и технологии, которые должны лечь в основу единого стандартного движка для всемирной распределённой социальной сети.

Сама идея DiSo очень похожа на концепцию GGG, которую сформулировал Тим Бернерс-Ли. Речь идёт о формировании «глобального графа», то есть всеобщей стандартизированной социальной сети в интернете.

Первый «кирпичик» в проекте DiSo — это движок WordPress. Он хорошо подходит для этой цели, потому что имеет функционал, необходимый для социальной сети: это ведение блога, блогроллы и встроенная поддержка OpenID.

via GigaOM
Всего голосов 18: ↑15 и ↓3+12
Комментарии12

Есть ли у вас права на созданный сайт?

Время на прочтение3 мин
Количество просмотров8.5K
Данной статьей хотелось бы внести ясность во взаимоотношения между заказчиком и исполнителем при создании веб-сайта. Думается, что понятнее всего это сделать, разобрав конкретные примеры.

Читать дальше →
Всего голосов 40: ↑35 и ↓5+30
Комментарии53

V чём-то там точка ру.

Время на прочтение1 мин
Количество просмотров696
Хором занимаем домены начинающиеся на букву V (vlesu.ru, vpole.ru, vigre.ru, vnizu.ru, vokne.ru и т. п.) И наблюдаем крушение грандиозных планов создателей Vkontakte, Vkadre и Vmashine.
Всего голосов 60: ↑42 и ↓18+24
Комментарии158

Программирование как искусство

Время на прочтение6 мин
Количество просмотров4.8K
Мой приятель, директор крупной компании, жалуется: «Представляешь, не могу найти программиста поддерживать работающую систему. Приглашаю, показываю. Если переписывать с нуля — соглашаются за половину зарплаты. Если поддерживать — не соглашаются за две».

Это очень показательная ситуация. В России программисты считают программирование искусством. И никому не удается их в этом разубедить. Маркетологи не считают, что их работа это искусство, так же не считают директора, продавцы, бухгалтера, архитекторы и многие другие специалисты — спокойно относятся к своему призванию. Но не путают творчество в работе и отношение к работе как к искусству в ущерб целям и задачам этой работы.
Читать дальше →
Всего голосов 162: ↑154 и ↓8+146
Комментарии236

Партнерство: 10 важнейших вопросов

Время на прочтение2 мин
Количество просмотров782
10 наиболее важных вопросов, которые должны быть решены перед созданием партнерских отношений
Всего голосов 9: ↑5 и ↓4+1
Комментарии7
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность