How to become an author

User

ProfileArticles1PostsNewsComments286

istinspring Apr 17 2012 at 06:07

Использование Grab:Spider для парсинга сайтов

4 min

19K

Всем привет!

Я активный пользователь open-source фрэймворка Grab (itforge уже писал о нем здесь и здесь) и 1/2 проекта GrabLab (который занимается собственно коммерческой эксплуатацией фрэймворка). Т.к. парсим сайты мы часто, помногу и задания как правило совершенно не похожи друг на друга, хотелось бы поделится своим опытом в вопросе построения типичного парсинг проекта.

Немного про инструментарий который помогает мне в работе

В качестве рабочего браузера я использую FireFox с плагинами HttpFox (анализировать входящий/исходящий http трафик), XPather (позволяет проверять xpath выражения), SQLite Manager (просмотр sqlite таблиц), код набираю в emacs, где активно использую сниппеты (YASnippets) для часто встречающихся конструкций.

Из-за специфики фрэймворка, как правило, на первом этапе сайт полностью (или если данных много — то частично, для удобства последующей разработки) сохраняется в локальный кэш на базе mongodb, что очень экономит время, т.к. считывание страниц идет из кэша.

Читать дальше →

+31

xiff Apr 14 2012 at 05:02

Удаленная замена корневой ФС в GNU/linux

9 min

16K

System administration*Configuring Linux*

Иногда мне приходится сталкиваться с заменой корневой файловой системы. Имея загрузочный диск и доступ к серверу, это не сложно. Однако, я хочу поделиться опытом замены корневой ФС удаленно, через ssh, без перезагрузки.

Причины для замены коневой ФС бывают разные:

перевод / в LVM
перевод / в mdraid
замена типа файловой системы (ext3 => btrfs)
уменьшение размера ФС (resize2fs)

Читать дальше →

+98

BeLove Apr 10 2012 at 17:59

Пентест на стероидах. Автоматизируем процесс

6 min

46K

Open source*Information Security*

С данной темой доклада я выступал на CodeFest. А здесь я перескажу словами, что, как и зачем.

Доклад довольно поверхностный и не требует практически никакой квалификации в области ИБ. Был рассчитан на целевую аудиторию (веб-разработчики, тестировщики (не на проникновение), сисадмины и т.д.). Все довольно просто: несколько утилит, запустили, подождали, разбираем отчет.

Видеоприглашение на конференцию:

http://www.youtube.com/watch?v=7dAQJjGA-DM

Читать дальше →

+68

FBT Apr 9 2012 at 15:41

Убираем «Шум» в ситуациях

18 min

3.1K

Что происходит сегодня и сейчас? Мы живем и радуемся происходящим событиям. Получаем море позитива. Мы что-то делаем. Нам что-то говорят. Мы принимаем какие-то решения. Частенько мы считаем, что все принятые нами решения или умозаключения действительно наши. И во времена провалов мы ищем для себя ответы. И нам с удовольствием помогают понять где провалы, и в чем мы не правы. И как вообще, господа и дамы, надо жить. Это, конечно, здорово и позволяет нам двигаться дальше. Но, пройдет время, и мы осмотримся вокруг. И появятся вопросы. Конечно, мы можем снова услышать вдохновенные рассказы о жизни и ее мироустройстве. И время полетит снова, и мы снова бегаем и кружимся. Это здорово. Но, почему-то пройдет время, и снова появятся вопросы. Эти странные и непонятные вопросы.

Фильтр

Думаю, людям, которые имеют богатый опыт, эта статья покажется не такой красочной. Поэтому огромная просьба, давайте экономить друг другу нервы. Моя попытка передать некий свой опыт предназначена людям, которые задаются вопросами, и не знают на них ответа. Если она не может помочь Вам, то давайте не будет мешать людям, которым может быть это поможет. А так же она просто большая.

Upd: исправлены некоторые выражения, добавлены примеры (в конце статьи).

Читать дальше →

-3

sagod Apr 9 2012 at 14:43

Парсим Python код с помощью Flex и Bison

6 min

35K

C++*Programming*Website development*

Вступление

Уже около двух лет я участвую в OpenSource проекте SourceAnalyzer, и вот появилась необходимость написать парсер для языка Python, который должен уметь строить граф вызовов (Call Graph) и граф зависимостей классов (Class Graph Dependency). Если точнее, граф строится с помощью других инструментов, а парсер должен лишь подготовить для этих инструментов данные.

Процесс работы над парсером был довольно занятным и мне бы хотелось поделиться с вами приобретенным опытом, а также поведать о некоторых подводных камнях, которые встретились на этапе разработки.

Читать дальше →

+36

NetwrixRu Apr 6 2012 at 10:10

Freeware много не бывает?

5 min

32K

Netwrix corporate blog

Мы подумали и ответили для себя на этот вопрос утвердительно, поэтому предлагаем оценить подборку бесплатных программ, которые могут пригодиться администратору в его повседневной работе. Все эти программы и многие другие разработаны в компании NetWrix для целей аудита изменений, управления доступом, мониторинга систем и безопасности.

Итак, далее приведен список из 10 бесплатных программ, которые помогут упростить работу системного администратора. Скачивайте и пользуйтесь!

Читать дальше →

+9

molozhenko Mar 16 2012 at 10:06

Анализируем Twitter при помощи R

4 min

9.5K

Здравствуйте, уважаемое хабрасообщество!
На Хабре уже несколько раз говорили о возможностях среды R, но я считаю, что дополнительная информация станет полезной, так как R — это очень интересный и мощный инструмент, который может быть применен в самых разных областях. Я попробую это доказать на примере анализа появления одного из трендов Twitter. Для этого нам понадобится библиотека twitteR, которая позволяет работать с Twitter через API. Но для начала расскажу подробнее об R.

Читать дальше →

+26

stolen Mar 21 2012 at 12:01

Использование parse_transform

7 min

4.9K

Disclaimer: Описываемый инструмент имеет спорную репутацию. Я не призываю использовать его где ни попадя, только знакомлю с используемыми понятиями, дабы уменьшить некоторым трепет перед технологией.

Написанные исходники, а также текстовую копию статьи можно найти на гитхабе.

Что такое parse_transform

parse_transform — механизм изменения AST перед компиляцией. Предназначен для изменения значения конструкций (семантики), не выходя за синтаксис Эрланга.

К сожалению, в Сети мало информации про это, что делает порог вхождения весьма высоким для не-гуру эрланга.

Что мы будем делать

В рамках данной статьи я немного рассказажу про AST эрланга, приведу пример простых трансформаций, а так же покажу процесс написания parse_transform для создания stateless gen_server-а (задача имеет не особо много смысла, но в качестве примера использования сгодится), а в конце дам ссылку на набор начинающего транформатора.

Читать дальше →

+19

titanbull Mar 14 2012 at 20:18

Магистратура за рубежом: как поступить и получить стипендию?

4 min

209K

Об авторе: выпускник НИУ-ВШЭ, в настоящее время работает над проектом по Semantic Web в Институте им. Лейбница и учится в университете Мангейма, Германия по последипломной стипендии DAAD

Данная статья – это своеобразный FAQ (пригоден и для «неайтишников»), который содержит ответы на основные вопросы по поводу поступления за рубеж и получения стипендии, предполагающий сильное желание, но ограниченное количество финансовых ресурсов у студента. Основная цель – правильно направить способных заинтересованных людей. Представленная информация касается, прежде всего, магистратуры (MA/MSc), однако многое, с некоторыми оговорками, также применимо и для аспирантуры (PhD). Итак:

Читать дальше →

+54

Pliner Mar 13 2012 at 09:25

Еще раз про skiplist…

6 min

36K

Website development*

… или как я получил «Аленку» за консольное приложение

Существует довольно распространённое мнение, что выполнение различных тестовых заданий помогает очень быстро поднять свой профессиональный уровень. Я и сам люблю иногда откопать какое-нить мудреное тестовое и порешать его, чтобы быть постоянно в тонусе, как говорится. Как-то я выполнял конкурсное задание на стажировку в одну компанию, задачка показалась мне забавной и интересной, вот её краткий текст:

Представьте, что ваш коллега-нытик пришел рассказать о своей непростой задаче — ему нужно не просто упорядочить по возрастанию набор целых чисел, а выдать все элементы упорядоченного набора с L-го по R-й включительно!
Вы заявили, что это элементарная задача и, чтобы написать решение на языке C#, вам нужно десять минут. Ну, или час. Или два. Или шоколадка «Алёнка»

Предполагается, что в наборе допускаются дубликаты, и количество элементов будет не больше, чем 10^6.

К оценке решения есть несколько комментариев:

Ваш код будут оценивать и тестировать три программиста:

Билл будет запускать ваше решение на тестах размером не больше 10Кб.

В тестах Стивена количество запросов будет не больше 10^5, при этом количество запросов на добавление будет не больше 100.

В тестах Марка количество запросов будет не больше 10^5.

Решение может быть очень интересным, поэтому я посчитал нужным его описать.

Читать дальше →

+45

chupvl Feb 7 2012 at 06:26

10 основных ошибок в попытке изменить привычки и как их исправить

2 min

17K

Недавно натолкнулся на хорошую и краткую презентацию по GTD от Persuasive Technology Lab (Stanford). Эта тематика как и любому гику мне близка и интересна, книг было прочтено много, опыт работы есть уже значительный, в итоге выработался некий концепт того, как я считаю правильно не только работать, но менять свои привычки, который сильно пересекается с тем что я прочитал в презентации. Далее перечислены ошибки, которые мы обычно совершаем в попытке изменить свое поведение, привычки и жирным выделено их решение. На мой взгляд этот список полезен и при решении любых других задач.

1. Опираться на силу воли для долгосрочных изменений.
Представьте что силы воли просто нет. Это первый шаг к лучшему будущему.

2. Планировать и предпринимать большие шаги и задачи, вместо маленьких.
Успешно выполняйте небольшие задачи — одну за другой.

Читать дальше →

+36

to_climb Feb 24 2012 at 13:56

Compile-time проверка в C/C++

3 min

15K

C/C++ позволяют выполнить проверки константных выражений ещё на этапе компиляции программы. Это дешёвый способ избежать проблем при модификации кода в будущем.
Я рассмотрю работу с:

перечислениями (enum),
массивами (их синхронизацию с enum),
switch-конструкциями,
а так же работу с классами, содержащими разнородные данные.

Читать дальше →

+34

sindo Feb 16 2012 at 13:08

Учимся писать модуль ядра (Netfilter) или Прозрачный прокси для HTTPS

19 min

34K

System Programming*

Эта статья нацелена на читателей, которые начинают или только хотят начать заниматься программированием модулей ядра Linux и сетевых приложений. А также может помочь разобраться с прозрачным проксированием HTTPS трафика.

Небольшое оглавление, чтобы Вы могли оценить, стоит ли читать дальше:

Как работает прокси сервер. Постановка задачи.
Клиент – серверное приложение с использованием неблокирующих сокетов.
Написание модуля ядра с использованием библиотеки Netfilter.
Взаимодействие с модулем ядра из пользовательского пространства (Netlink)

P.S. Для тех, кому только хочется посмотреть на прозрачный прокси-сервер для HTTP и HTTPS, достаточно настроить прозрачный прокси-сервер для HTTP, например, Squid с transparent портом 3128, и скачать архив с исходниками Shifter. Скомпилировать (make) и, после удачной компиляции, выполнить ./Start с правами root. При необходимости можно поправить настройки в shifter.h до компиляции.

Читать дальше →

+54

mclander Feb 23 2012 at 11:18

Вам не страшно открывать редактор?

13 min

3.2K

Abnormal programming*

В какой-то момент я стал замечать, что пишу более качественный: оптимальный, логичный и читаемый код, но пишу его медленно. По крайней мере, куда медленнее, чем лет 15 назад. Да, на старый код без слёз не взглянешь: всё можно сделать оптимальнее и, по крайней мере, читабельнее. Но код был написан быстро.

Проблема в контроле. Я стал жестче и глубже контролировать код и… стал тратить на этот контроль слишком много ресурсов.

Основной принцип прост. Если контролю подлежит 10-20% случаев, то на контроль надо тратить… 0% ресурсов. Баги и переписывания всё равно будут. Но лучше разделить кодирование и отладку и на время кодирования об ошибках вообще забыть.

Читать дальше →

+85

newpavlov Feb 22 2012 at 08:45

Введение в теорию взаимодействующих последовательных процессов (Communicating Sequential Processes — CSP)

6 min

18K

Cloud computing*

Часть 1
Часть 2

Предисловие

Данный текст является переводом и сокращённым пересказом начальных глав книги Чарльза Э. Хоара. Целью является ознакомление русскоязычной аудитории с данной алгеброй исчисления процессов, коя нашла достаточно широкое применение в современной вычислительной науке в связи с большим распространением параллельных систем. Наиболее близкими и понятными практическими применениями CSP, думаю, будут являться следующие языки программирования:

CSP является формальным математическим языком, позволяющим описывать взаимодействие параллельных систем, основным его применением является формальная спецификация параллельной работы систем, например таких как Транспьютер, кроме того он применяется при разработке высоконадёжных площадок электронной торговли.
В данной статье будут рассказаны основы данной алгебры, без которой невозможно её дальнейшее изучение, в основном это базовое описание процесса, что покрывает первую половину первой главы книги.

Читать дальше →

+31

n0r1i7 Feb 20 2012 at 21:27

GCTD – Как привести творческие дела в порядок: как уместить тяжелый умственный труд в плотное расписание

7 min

10K

Translation

GCTD — Getting Creative Things Done.

Началось это несколько недель назад. Мне нужно было написать исследовательский отчет, предстояла важная, неоднозначная, трудная задача. В первую неделю я повторял себе, что на данный момент это моя наиважнейшая задача и обращался к ней при первой же возможности. Я постоянно чувствовал вину за то, что недостаточно времени уделяю написанию отчета. В одну из ночей в конце недели я заперся в офисе до 9 утра, уже совсем отчаявшись привести дела в порядок. Результат работы оказался практически бесполезным. У меня получилось 15 страниц беспорядочного текста (исследовательский отчет должен быть максимум 3-5 страниц), и охватить предстояло еще многое. Работа была запутанная и «тонула» в прилагательных.

Читать дальше →

+66

krovatti Feb 13 2012 at 12:06

Лучший способ изучить Rails

5 min

200K

Доброго времени суток!

Предисловие

Когда-то я хотел познакомиться с Rails поближе, но не знал с чего начать, пока мне на глаза не попалась эта статья. Далее вы увидите перевод, смешанный с собственным опытом и свойственными мне лексическими и фразеологическими оборотами. Итак, поехали.

Введение

У меня за спиной огромный опыт работы с PHP, но сейчас я работаю Rails разработчиком. Огромную сложность для большинства людей, которые пытаются освоить что-то новое — это сам процесс обучения. Когда вы владеете каким-либо языком или фреймворком и знаете его вдоль и поперёк, переход на что-то новое не представляется необходимым.

Однако, изучение Ruby on Rails является достаточно простым занятием. Это невероятно мощный фреймворк, который имеет огромное сообщество, продвигающее его вперёд. Итак, у нас возникает вопрос: какой способ изучить Rails является лучшим? Вот он — план занятий.

Читать дальше →

+55

begoon Apr 20 2011 at 14:21

re2c — компилятор регулярных выражений

3 min

8.5K

Regular expressions*

Задача выделения из потока символов определенных лексем является весьма распространенной. Часто ее решают с помощью лексических анализаторов, конфигурируемых регулярными выражениями. Многие анализаторы построены по принципу генерации программного кода, который в свою очередь реализует логику регулярных выражений. Фактически, это компиляция языка регулярных выражений в код языка программирования.

Например, flex — это один из таких анализаторов. Старый, но проверенный годами.

Я много пользовался flex'ом, он имеет и плохие и хорошие стороны, но по большому счету, жаловаться не приходилось.

Но вчера наткнулся на интересный проект — re2c. По сути, на этой штуке можно писать лексические анализаторы прямо на коленке за несколько минут.

Подробности

+35

yoihj Sep 3 2010 at 15:33

MapReduce: более продвинутые примеры, попробуем без зауми

9 min

34K

Чтобы не откладывать в долгий ящик сразу порассказываю несколько других примеров для MapReduce, обещанные в топике "MapReduce без зауми". (Если не понимаете полностью что такое MapReduce — прочитайте тот топик сначала! Без него не разберетесь)

Поговорим тут о подсчетах национальностей в городах, средних оценках и приводах учеников, ТИЦ, PageRank, входящих ссылках, нишевых ключевых словах, словах-синонимах, социальных сетях и общих друзьях. Постараемся обойтись без математических знаков и зауми.

Однако тема сама по себе сложная и все же напрячь мозги придется. Когда поймете — будет очень просто.

Входящие ссылки

Допустим у нас есть Интернет. В Интернете есть исходящие ссылки.

Допустим на входе у нас есть такие данные об ИСХОДЯЩИХ ссылках, собранные нашим паучком:

habrahabr.ru -> thematicmedia.ru, apple.ru, microsoft.com, ubuntu.com, yandex.ru

thematicmedia.ru -> habrahabr.ru, autokadabra.ru

autokadabra.ru -> habrahabr.ru, yandex.ru

Т.е. мы знаем, что Хабр ссылается на Apple, MS, Ubuntu и Яндекс но кто ссылается на Хабр? Да, вопрос примитивный, но все же разложим на MapReduce. Дальше будет интереснее и этот пример понадобится.

Читать дальше →

+78

yoihj Sep 3 2010 at 13:16

MapReduce или подсчеты за пределами возможностей памяти и процессора (попробую без зауми)

8 min

92K

Давно хотел рассказать про MapReduce, а то как ни взгляшешь на подобное — такая заумь, что просто ужас берет, а на самом деле очень простой и полезный подход для многих целей. И реализовать самому — не так уж и сложно.

Сразу скажу — топик — для тех, кто не разобрался что такое MapReduce. Для тех, кто разобрался — полезного тут ничего не будет.

Начнем с того как собственно родилась лично у меня идея MapReduce (хотя я и не знал, что он так называется, и, разумеется, пришла она мне куда позже чем Гугловсцам).

Сначала опишу как она рождалась (подход был неправильный), а потом как надо правильно делать.

Как посчитать все слова в Википедии (неправильный подход)

А родилась она, как и, наверное, везде — для подсчета частоты слов, когда обычной памяти не хватает (подсчет частоты всех слов в Википедии). Вместо слова «частота» тут скорее должно быть «количество вхождений», но для простоты оставлю «частота».

В самом простом случае мы можем завести хеш (dict, map, hash, ассоциативный массив, array() в PHP) и считать в нем слова.

$dict['word1'] += 1

Но что делать когда память под хеш кончится, а мы посчитали только одну сотую всех слов?

Читать дальше →

+125

1 2 ...

21