AlexSerbul Apr 2 2014 at 13:55

Как обрабатывать терабайты данных в 1000 потоков на PHP — Hadoop/MapReduce

6 min

36K

Битрикс24 corporate blogHadoop * Website development *

+13

Comments 52

mixrin Apr 2 2014 at 14:09

Надо больше смешных картинок.

AlexSerbul Apr 2 2014 at 14:11

Я пока фотки вставлял, уровень тестостерона достиг критической отметки и статью с трудом удалось дописать :-)

garex Apr 2 2014 at 15:59

Кресло чуть-чуть приопустить и тестостерон не мешает.

hostadmin Apr 2 2014 at 16:47

Особенно с Гомером.

AlexSerbul Apr 2 2014 at 17:14

Гомер был на фразу «провести ночь с мануалом» :-) Предлагаете и туда девушку вставить? :-)

hostadmin Apr 2 2014 at 17:56

К фразе «провести ночь с...» конечно надо картинку с девушкой.

yTko Apr 2 2014 at 18:51

Картинка с девушкой

luckyredhot Apr 2 2014 at 19:56

Это женщина кагбэ) Замужняя, и многодетная мать, к тому же!

dmchmk Apr 2 2014 at 14:28

Как обрабатывать терабайты данных в 1000 потоков на PHP — Hadoop/MapReduce

Т.е. бросаем PHP и берём Java?:)

AlexSerbul Apr 2 2014 at 14:33

Зачем? Все делаем на PHP/bash/Python — и подключаем лишь библиотечку, которая может нашу логику раскидать на 5-500 серверов, прогнать по данным и вернуть ответ :-)

nikita2206 Apr 2 2014 at 19:05

На самом деле на жаве мап/редьюс джобы написать проще и работало бы быстрей.

AlexSerbul Apr 2 2014 at 19:30

Жаву не очень любят в мире быстрых вычислений, unix и C ;-) Она медленная, жирная, много требует и при этом постоянно подвисает на сборках мусора. А пригрузив готовый софт на java задачками, написанными на perl/bash или просто вызвав юниксовую команду типа sort/grep — почему бы и нет? :-)

luckyredhot Apr 2 2014 at 19:58

Т.е. PHP любят в мире быстрых вычислений, а Java — нет? о_О

AlexSerbul Apr 2 2014 at 20:23

Ну. PHP это язык-сборщик, выполняет типа роль клея для состыковки возможностей многочисленных библиотек, часто активно обитающих в unix. Бизнесовая технология — соединил высокопроизводительные библиотеки и запустил в сжатые сроки.

А java претендует на роль «безалкогольного» С++/C, оперирует почти примитивными типами данных и как-бы предназначена для написания компонентов для PHP. Но проблема в том, что компоненты на java почти не используют ни в PHP, ни в python — предпочитая использовать быстрые C-библиотеки.

И получается что стек: C/C++/unix/PHP — дает быстрый результат в ожидаемые сроки, а java + java — это дольше, тяжелее, и библиотек под нее значительно, в разы меньше, чем можно взять в opensource и вызывать через механизм плагинов PHP.

UFO landed and left these words here

AlexSerbul Apr 3 2014 at 04:22

Я о том, что у java своя очень специфическая ниша, т.к. ей не получилось гармонично встроится в стек C/C++/unix/PHP/Python/Perl — а попытки сделать это не прекращаются и поныне.

Именно поэтому нет особого смысла вместо PHP использовать Java, ну только в ряде исключительных случаев где нужен JIT и более совершенная сборка мусора :-)

luckyredhot Apr 3 2014 at 08:02

Так и скажите, что вам Java не нравится ;-)

AlexSerbul Apr 3 2014 at 08:06

Очень нравится! Особенно тщательность проектирования API, продуманное использование паттернов проектирования — этого так не хватает скриптовым языкам типа знаете каких. Java учит мыслить системно, объектно. Да и сколько бизнесового софта, полезного, тот же Amazon Web Services частями на ней написаны :-)

nikita2206 Apr 2 2014 at 20:01

Это заблуждения, то что она медленная

AlexSerbul Apr 2 2014 at 20:15

Лично проверял, в т.ч. на проектах с активным использованием JBoss :-) Проблема java — увлечение ООП и плохо предсказуемый сборщик мусора. В результате дикие требования к железу и памяти. JIT по идее должен ее ускорить и он делает это иногда, но до сих пор неумело и не очень уместно. А GUI на java — просто подвисающий ад какой-то: от NetBeans до Eclipe и JDeveloper.

Не верю, что появится технология с автоматическим управлением памятью с высокой скоростью работы, близкой к C. Если только если процессоры под ООП заточат, но тоже сомнительно.

dixx Apr 2 2014 at 21:01

Лично проверял, в т.ч. на проектах с активным использованием JBoss :-)

Это как измерять максимальную скорость, доступную автомобилям, при помощи самосвала КРАЗ.

AlexSerbul Apr 3 2014 at 08:20

Сравните код на С с аналогичным на Java — разница налицо. Объект на объекте и объектом погоняет пока не доберется до системного вызова read и прочитает 1 байт ;-)

dixx Apr 3 2014 at 08:36

Я 15 лет пишу на C высокоэффективные приложения, и около 10 — на Java. Java может быть очень быстрой, медленнее C, но всё равно очень быстрой. С Java проблемы возникают не из-за технологии, а из-за непонимания разработчиками того, что они делают и во что это выльется в реальности.

AlexSerbul Apr 3 2014 at 08:46

Согласен, она может быть очень быстрой когда сработает JIT через определенное время в серверном режиме виртуальной машины. Но она живет в собственном виртуальном мире, которому требуется виртуальная машина с кучей потрохов и скорость запуска этого мира…

Конкретный практический пример. Амазон кстати сначала сделал консольные утилиты работы с их API на java, но через определенное время переписал их на python.

Мы из bash первое время дергали маскирующиеся под unix-команды вызовы API с java и под нагрузкой машина просто начинала сходить с ума, падало ядро linux с ожиданиями блокировок или CPU уходило под 100%.

Пришлось вырезать java вызовы из bash-автоматики и переходить на более легкие интерфейсы к API Амазона на PHP/python. Нагрузка уменьшилась в разы.

dixx Apr 3 2014 at 08:48

Мы из bash первое время дергали маскирующиеся под unix-команды вызовы API с java и под нагрузкой машина просто начинала сходить с ума, падало ядро linux с ожиданиями блокировок или CPU уходило под 100%.

Ну всё абсолютно логично, потому что у Java большие издержки за запуск VM. Вы привели как раз пример непонимания того, как надо готовить ~~кошек~~ Java :)

AlexSerbul Apr 3 2014 at 08:52

Одно время назад реализовал на PHP сервер, использующий мультиплексор сокетов в одном процессе через select. Тут наверно java бы лучше подошла с ее качественно иной сборкой мусора и JIT и работала бы побыстрее ;-)

andymitrich Apr 2 2014 at 15:13

Люблю азиаток :) А еще «мастер-мастер-кластер» — забавно звучит.

AlexSerbul Apr 2 2014 at 15:21

Поправил на «мульти-мастер кластер», но они его сами так называют смешно сейчас :-)
www.mysql.com/products/cluster/scalability.html

yTko Apr 2 2014 at 15:55

Я вроде отписывался от блога Битрикса, а оно в ленте…
Статья, если честно, пустая, но за ссылочки спасибо, буду знать куда смотреть, если что.

И мне кажется, или самолетами по данным с аварийных самописцев не управляют?

AlexSerbul Apr 2 2014 at 16:12

А вы хотели подробности по Map/Reduce изнутри? Но кому это интересно будет.

yTko Apr 2 2014 at 16:28

терабайты данных, 1000 потоков и PHP?
ну или хотя бы что-нибудь наглядное, на вашем же примере с битриксом и описание задачи, которая у вас занимала столько времени и была прекрасно решена с помощью MR?

почему

$ar_reduce = array();

дважды?)

AlexSerbul Apr 2 2014 at 16:41

Я понял, смотрите пример. Есть задача сжать, зашифровать и перенести 10 млн. файлов из бакета1 s3 в бакет2 s3.

Если делать средствами PHP на сервере, то можно форкануть максимум ну 20-30 потоков PHP, которые будут каждый выполняться в своем процессе. И это займет несколько недель. А объем данных растет и нужно системное решение.

Если то же самое делать средствами Hadoop, то задачу можно выполнить за час, но на большом количестве железок. Если выбрать разумное число железок с 15 потоками на каждой — то можно уложиться в 2 дня.

Т.е. если через полгода число файлов для обработки вырастит с 10 млн. до 50 млн., нужно будет поменять лишь одну циферку в конфиге запуска кластера Hadoop, увеличив число железок лишь.

Красиво же получается и просто. Разве не так?

yTko Apr 2 2014 at 16:52

Зачем нужен MR и Hadoop я более или менее представляю. И примеров его использования я также могу придумать много. Просто в таком случае я не представляю какой смысл в этой статье, поскольку вряд ли здесь описано что-то совершенно новое (или у вас задача и была только лишь в том, чтобы перенести 10 млн файлов?) и, наверное, у самого амазона есть туториалы как все это у них завести на PHP.
Вопрос только лишь в том, действительно ли это задача для PHP или же нет.
Возможно, я ошибаюсь.

AlexSerbul Apr 2 2014 at 16:57

Смысл в том, что готовых примеров боевого использования PHP + Hadoop я как не искал — не нашел. Было немного воды по Hadoop + Python. Пришлось весь путь преодолевать пробивая головой стены и ловя подводные камни. Зато результат превзошел все ожидания. Теперь делюсь с коллегами опытом :-)

AlexSerbul Apr 2 2014 at 16:58

А на java, которую я хорошо знаю и люблю — примеров полно, но разбираются в java — очень ограниченное число людей. И еще одной целью была принести полезные решения из этой области в мир веб-разработчиков на PHP ;-)

AlexSerbul Apr 2 2014 at 16:42

А, забыл, на входе у вас список названий файлов из 10 млн. позиций.

AlexSerbul Apr 2 2014 at 16:43

Убрал лишний массив, опечатка, спасибо.

AlexSerbul Apr 2 2014 at 16:14

Вы правы! Самолетами не управляют с аварийных самописцев, выделю жирным и подчеркну :-)

Regis Apr 2 2014 at 18:06

На Storm не смотрели?

AlexSerbul Apr 2 2014 at 19:35

Знаем. Потоковые обработчики данных — это тренд сейчас. Амазон недавно, писал выше, облачный сервис на эту тему выпустил даже (Kinesis). Хотя для односерверных задач вот присматриваюсь к nginx/ragel — очень быстрые комплируемые из регулярок state-машины думаю вполне подойдут.

Arks Apr 2 2014 at 18:49

Если кластер — мульти-мастер
Никакой он Вам не кластер
Он уже тупящий сид
Если вдруг позволит GID

Прочитай про map-reduce
Форкни и забудь про fuse
Файлы полетят в Hadoop
Вроде ты уже не нуб!

Больше скриптов-канапэ
Ты пиши на ПохАпэ
Девок фотки изучай
На спартанцев — не кончай!

Новый бизнес-инструмент
Развернешь теперь в момент
Весь поток в S3 летит
Ну и менеджер хвалит

Число серверов растет
Прибыль наша вверх идет
Обработку сократили
Всех с bigdat'ой победили!

AlexSerbul Apr 2 2014 at 19:40

Замечательно передали суть поста, допишу музыку и на ютуб! :-)

luckyredhot Apr 2 2014 at 20:00

BigData рэп?)

AlexSerbul Apr 2 2014 at 20:33

Если серьезно, то толковой документации по Hadoop Streaming для использования его сисадмином, знающим bash/perl — практически нет. Немного воды лишь про его использование с python где-то в сети валяется. Особенно это касается конфигурации streaming под нагрузку, обработки ошибок, перезапуска заданий и т.п. Однако инструмент то полезный и нужный в быту, сами хорошо знаете.

Амазон имхо молодцы, что собрали из этого конструктора работающее решение из коробки, которое теперь сможет освоить даже сисадмин и маппить файлы на bash или дергая утилиты unix прямо из маппера.

А после поста — это сделает даже веб-разработчик на PHP :-)

la0 Apr 2 2014 at 20:36

>> Как бы мы не доверяли облаку, нужно эти файлы периодически выгружать в другое облако/серверы
Сказали они и выгрузили из S3 в S3.

А если серьёзно, нужно иметь хотябы насколько аккаунтов AWS на разных юрлиц. Или вообще хранить самую резрвную копию в другом облаке.
Сколько бы контейнеров в AWS не было, есть главный риск — амазон административно, извините, пукнет отказом в обслуживании в вашу сторону по любой причине.
От административных отказов, к сожалению, никто не застрахован.

AlexSerbul Apr 2 2014 at 21:01

Абсолютно верно. Поэтому мы используем как минимум 2 конфигурации hadoop-кластеров. Один для копирования ( s3 условный COPY) из s3 в s3 — достаточно несколько машин, а другой, значительно более мощный — именно для выгрузки файлов на сторонние мощности за пределами Амазона — и только в этом случае, как я писал выше, файлы скачиваются в общую файловую систему Hadoop (HDFS), шифруются, подписываются и копируются из облачного провайдера.

la0 Apr 3 2014 at 06:08

Спасибо за подробный комментарий!

leventov Apr 2 2014 at 21:14

Мапредьюз можно писать на чем угодно Тьюринг-полном, только вопрос — зачем?

Все, что было спроектировано после Хадупа, уже позволяет писать задачи не на языке реализации, как в вашем случае, без стольких лишних телодвижений.

pavlick Apr 3 2014 at 12:07

MR пакетный. Когда появляется задача «надо много и на потоке», то MR уже не кажется таким прекрасным

AlexSerbul Apr 4 2014 at 11:01

Вот у нас получилось задачу много и на потоке преобразовать в много и каждый в своем потоке. Это дороже да, но если есть возможность и нужно сделать быстро и потоков на одном сервере уже недостаточно — Hadoop/MR помогает.

UFO landed and left these words here

kingil Jun 9 2014 at 16:03

Организовать сбор статистики по производительности веб-приложения в браузере его клиентов на основании js Navigation Timing API — делается в 2 файла на PHP на 30 строк.

А можно примеров рабочих увидеть? В сети такой информации не нашел. Нужно системно собрать статистики на несколько тысяч сайтов по списку.