• multi_get — качаем сайты оптом

      Топик будет интересен тем, кто хочет индексировать Интернет-сайты на предельных скоростях (самодельные поисковики, анализы частоты слов, сервисы по анализу html'я и т.п.) Threading тут не дает предельных скоростей, urllib — тем более… Решение здесь в использовании асинхронных запросов из libcurl.

      Скорость?
      На 500MHZ (очень-очень слабенький VPS) — около 100 URLов в секунду (100 соединений, 2 процесса).
      На Amazon EC2 «High-CPU Medium Instance» (.2$/час) ~ 1200 URLов в секунду (300 соединений, 5 одновременных процессов). В один процесс до 660 URLов в секунду.

      Для выкачивания множества сайтов и дальнейшей обработки, хочу поделиться одной своей полезной функцией — multi_get — по сути она — удобный wrapper для CurlMulti (libcurl), модифицированный из их примера CurlMulti.

      >>> urls = ['http://google.com/', 'http://statcounter.com/']
      >>> res = {}
      >>> multi_get(res, urls, num_conn = 30, timeout = 5, percentile = 95)
      >>> res['http://google.com/']
      '<html><title>Google....
      # тут обрабатываем res, который содержит HTML всех для URL'ок
      Читать дальше →
    • Бизнес-Веб в примерах

        В прошлой серии была предложена классификация B2C и C2B коммуникаций. Продолжая тему, хочу проиллюстрировать эту систему англоязычными примерами:
        B2C | Бизнес обращается к потребителям:
        C2B | Потребители ищут и выбирают бизнесы/продукты

        Вопросы
        1. Какие проекты и направления незаслужено забыты?
        2. Насколько реально, по вашему мнению, представить единый интерфейс доступа ко всем C2B инструментам для потребителя?
        3. Насколько реально представить единый интерфейс доступа ко всем B2C инструментам для бизнеса?
      • Интернет магазин — 15000 евро за первый месяц

          В народе есть известная поговорка „Первый Блин Комом“, чего не могу сказать о своём свежем опыте интернет торговли. Скорее всего, это просто исключение подтверждающее правило, но, тем не менее, хочется рассказать о тех небольших выводах, что я сделал за последний месяц.

          Итак, небольшая история о том, как можно довольно легко заработать за один месяц минимум 15 000 евро.

          Мой профессиональный род деятельности — веб-разработка. Занимаюсь R&D в одной небольшой IT компании, пишу «навороченные» приложения для корпоративных интранетов и, в принципе, на жизнь не жалуюсь. Конечно, при таком раскладе хочется параллельно вести какой-нибудь интересный проект, чем неоднократно занимался в мире Open Source. Со временем, правда, захотелось на побочных проектах так же как-то зарабатывать, что с Open Source оказалось не так просто, как может показаться из статей на Хабре :) Потому и решил попробовать для себя что-то принципиально новое — открыть интернет магазин.

          Читать дальше →
        • Взлом каптчи файлообменника

            Введение



            В данной статье коротко рассказывается о процессе взлома captcha с ifolder.ru. Применение в процессе языка Python и сторонних библиотек. Применение алгоритма преобразований Хафа в составе библиотеки Open Computer Vision © Intel позволит нам избавиться от шума на изображении, простая в использовании и быстрая библиотека FANN (Fast Artificial Neural Network) сделает возможным применение искусственной нейронной сети для задачи распознавания образа.

            Моя мотивация состояла, прежде всего, в том, чтобы попробовать язык Python. Как известно, лучший способ изучить язык — решить на нём какую-нибудь прикладную задачу. Поэтому параллельно описанию процесса обработки изображения я буду рассказывать о том, какие библиотеки и для чего я использовал.
            Сломать мозг
          • Логика английских времен

              Изучавшие или изучающие английский язык знают, каким страшным может казаться множество английских временных форм глаголов.
              Всего в английском 12 временных форм. А в русском-то, на первый взгляд, всего 3, и как их связать с английскими, для новичка может быть совершенно не понятно.
              Читать дальше →
            • Откуда появляются первые 10 клиентов?

              • Translation
              Примечание: ниже находится перевод статьи «Getting those first 10 Clients», в которой автор рассуждает о способах привлечения первых клиентов для начинающего интернет-бизнеса.

              В моей первой заметки я спрашивал у своих читателей, о каких вещах мне стоит написать. Часть из них задало несколько совершенно невероятных вопросов, в том числе, о маркетинге и как мне удалось получить свои первые заказы с нуля.
              Читать дальше →
            • authorize.net — подключение и работа

                Довелось мне делать интернет магазин, в котором оплату нужно было проводить кредитными картами. И всё не беда, если бы заказчика устроил PayPal.Точнее тогда я об этом ещё не знал. Заказчик имел мерчант-аккаунт на authorize.net. В ходе поисков нормальной системы оплаты авторайз был мною отброшен по причине убогости сайта. Сайт оставляет ощущение, что проект давно заброшен, и никто им не занимается. Ну да ладно. Клиент всегда прав. Итак.

                Что делает в первую очередь разработчик столкнувшись с задачей стандартной, но доселе им не реализованной? Правильно! Идёт в интернет и ищет готовые решения. Не исключено что это я плохой пользователь Гугла. Но, тем не менее — все готовые реализации были не более чем копиями sample кода взятого на сайте конторы. Ни тебе комментариев в коде, ни тебе сопроводительной записки.

                Следующий шаг: курениечтение мануала на сайте разработчика. Единственное что помог сделать мануал — понять, что на самом деле лишнее в сэмпл коде. Далее я предлагаю свои советы по работе с данным сервисом. Это частично и перевод руководства, и личный опыт.

                Читать дальше →
              • Лицензия CC+ обеспечит авторам пожизненный доход

                  Организация Creative Commons разработала новый договор для лицензии CC, чтобы авторы «свободных» работ получили, наконец, возможность легально зарабатывать на коммерческом распространении своих произведений. Новая система (т.е. лицензия CC плюс новый договор) получила название CC+ (CCPlus).

                  Если автор публикует свою работу под знаком CC+, то тем самым он позволяет кому угодно использовать её в коммерческих целях, при этом автор получает заранее определённый процент от будущей прибыли или оплату по фиксированной ставке.

                  Таким образом, CC+ представляет собой сочетание свободной лицензии CC и стандартного коммерческого договора. Даже если работа опубликована под обычной лицензией CC, в случае заинтересованности коммерческих издателей можно быстро перевести её под CC+.
                • Давид Ян: Йоси Варди назвал Cybiko самым крупным изобретением человечества после MP3

                    Оригинал и аудиозапись интервью вы найдете в этом блоге

                    На мои вопросы отвечает основатель компании ABBYY, компании Cybiko — не так давно нашумевшей в США со своей инновационной разработкой.
                    Его зовут Давид Ян и он один из самых знаменитых предпринимателей, работающих в IT-области в России. Его биография включена в американский справочник «Кто есть кто — 2001». Давид Ян является лауреатом премии Правительства России в области науки и техники.

                    Давид Ян — основатель ABBYY

                    Кроме IT-сферы, Давид еще занимается ресторанным бизнесом. В числе его проектов можно выделить FAQCafe и ARTEFAQ — заведения для встреч творческих людей и приятного времяпровождения. Но от IT далеко не уйти и поэтому Давид и Ко совсем недавно запустили новый проект под названием IIKO — систему управления ресторанным бизнесом.
                    Если вы хотите ближе познакомится с неординарной личностью Давида Яна — читайте интервью.

                    Читать дальше →
                  • Кто и зачем заказывает спам в блогах?

                      Вы даже не представляете, насколько загажена российская блогосфера. Работая над антиспамерским сервисом, я вручную прочесал пару сотен популярных блогов и отсмотрел пару тысяч сайтов, на которые ссылаются комментаторы.

                      Попадались посты, в которых из десяти комментариев восемь были спамерскими, причем эти кретины даже «переговаривались» друг с другом фразами типа «ничо не понял» или «круто, автору респект».

                      Читать дальше →
                    • «Обычный дурацкий интернет»

                        Вчера, совершая вечернюю пробежку по Сети, я случайным образом оказался на заглушке сайта «Тематические Медиа» и набрел на интересное изображение.


                        «Тематические Медиа» — это дружественный Futurico стартап, который лучше всех в России умеет создавать тематические медиа с элементами ролевых игр (RPG).
                        Решил продублировать из комментариев, чтобы данный вопрос больше не поднимался (-:.

                        Чувство юмора, как всегда, на высшем уровне ;-).
                      • Тренажерный зал для мозга

                          Хочу рассказать вам о книге Тома Вуджека «Тренировка ума». Книга показалась мне достаточно интересной.

                          Эта книга — практическое пособие по тренировке мозга, умственных способностей.

                          Книга состоит из двенадцати глав. Каждая глава — это своего рода тренажер, предназначенный для развития определенного качества вашего ума. На одних тренажерах вы будете попеременно то прилагать усилия, то расслабляться, погружаясь в безмятежное спокойствие; на других вам придется муштровать свой ум «до седьмого пота». Одни упражнения предназначены для активации вашего левого полушария — аналитической, логической части мозга, другие — для правого полушария, интуитивной части мозга, также ответственной и за пространственное восприятие. А все вместе тренажеры обеспечат вам всестороннюю интеллектуальную тренировку.

                          Скачать книгу (1,23 мб)

                          Оригинал заметки: Саморазвитие для умных людей
                        • WordPress превратят в распределённую социальную сеть

                            Способна ли блогерская платформа WordPress стать основой для глобальной социальной сети? Это вполне возможно, если получит развитие оригинальный проект DiSo, что означает “distributed social networking”. Проект создан для того, чтобы вобрать в себя все возможные микроформаты, открытые программные интерфейсы, софт open source и технологии, которые должны лечь в основу единого стандартного движка для всемирной распределённой социальной сети.

                            Сама идея DiSo очень похожа на концепцию GGG, которую сформулировал Тим Бернерс-Ли. Речь идёт о формировании «глобального графа», то есть всеобщей стандартизированной социальной сети в интернете.

                            Первый «кирпичик» в проекте DiSo — это движок WordPress. Он хорошо подходит для этой цели, потому что имеет функционал, необходимый для социальной сети: это ведение блога, блогроллы и встроенная поддержка OpenID.

                            via GigaOM
                          • Есть ли у вас права на созданный сайт?

                              Данной статьей хотелось бы внести ясность во взаимоотношения между заказчиком и исполнителем при создании веб-сайта. Думается, что понятнее всего это сделать, разобрав конкретные примеры.

                              Читать дальше →
                            • V чём-то там точка ру.

                                Хором занимаем домены начинающиеся на букву V (vlesu.ru, vpole.ru, vigre.ru, vnizu.ru, vokne.ru и т. п.) И наблюдаем крушение грандиозных планов создателей Vkontakte, Vkadre и Vmashine.