octave Jun 4 2010 at 14:41

2000 часов в одиночестве, или как был сделан RSS reader / Я робокоп

14 min

6.8K

Self Promo

+204

173

Comments 173

smartov Jun 4 2010 at 14:49

Столько информации, много очевидного, мало деталей интересных реализаций. Лучше было бы по частям описывать интересные загогулины и как вы их обошли, и на какие грабли наступили. Но доходчиво. А то галопом по Европам.

Ну и это… зарекламили статью как презентацию ридера. И где он?

octave Jun 4 2010 at 14:55

Изначально так и начал писать, но получилось слишком растянуто.
Особо детально описал работу бекграунда и очередей, поскольку считаю это более интересным.

А вообще, так и хотелось — передать все в общих чертах, не углубляясь сильно в детали. Слишком много для одной статьи.

Я же сказал, что презентация будет потом, а эта статья несет чисто технический характер…

smartov Jun 4 2010 at 15:02

Эта статья несет мало технически интересного. Я использовал strreplace и Smarty, пришлось помучаться с юникодом

octave Jun 4 2010 at 15:12

А Вы до пункта 9 дошли?

akira Jun 4 2010 at 14:55

Прочитал, все, весь текст, облизывался на новый ридер и правда, где он?

octave Jun 4 2010 at 14:58

На следующей неделе анонсируем его на хабре.

alexiznot Jun 4 2010 at 15:02

Ждем! Было бы круто, если бы в анонсе описали чем он круче 2 ридер-монстров этого времени — Гугл Ридер и Нетвайбс.

octave Jun 4 2010 at 15:16

Мы очень хорошо изучили рынок, прежде чем делать что-либо (да и во время разработки). Есть еще bloglines, который тоже имеет не маленькую аудиторию с США.

Опишем.

BaBL Jun 4 2010 at 15:24

продвигай его в Bolgenos, им пользуются тысячи миллионов человек

octave Jun 4 2010 at 15:28

Так я на нем все делал!

thanatos Jun 4 2010 at 21:57

Не надо! Уверен — Дениска сделает ридер гораздо-более-лучше.
Прямо ждать терпения не хватает =)

UFO landed and left these words here

Homakov Jun 6 2010 at 13:41

popov rider

Alaunquirie Jul 12 2010 at 06:26

popov pider ))

goldeneagle Jun 20 2010 at 18:26

Я бы добавил в список Feedly. Для меня это идеал ридера.

octave Jun 20 2010 at 18:33

Спасибо, обязательно изучим. Выглядит интересно.

mukizu Jun 11 2010 at 22:35

Ждете выходных? :)

UFO landed and left these words here

octave Jun 4 2010 at 15:38

Поправил, спасибо.

McBernar Jun 4 2010 at 15:53

Да, тут зависаешь )

deepsweet Jun 4 2010 at 15:43

привет робокопу от Кира ;)

octave Jun 4 2010 at 15:48

Привет, Кир!

danilissimus Jun 4 2010 at 18:12

От Киры? О_о
*Подпись: Петросян*

Arrest Jun 4 2010 at 15:46

Вы прочитали мои мысли и избавили меня от тяжкого бремени делать ридер самому.
Впрочем, я бы немного изменил систему подсчета TTL на следующий день, учитывая паттерн, сложившийся на завтрашний день недели и за прошлый месяц.
Еще одна очень нужная фишка — генерация RSS из всех фидов в данной папке, этакий миксер потоков.
И, пожалуй, как завершение, как вишенка на пирожном, нужна кнопка на любом сайте «добавить RSS-поток с этого сайта в читалку». Маленькая иконка, которая сэкономит время.

octave Jun 4 2010 at 15:55

Спасибо.
Генерация фида из папки уже работает.

По поводу кнопки:
Мы будем делать удобный букмарклет. И постараемся, чтобы даже домохозяйка смогла им воспользоваться. Позже.

Bonzo Jun 4 2010 at 15:47

А про монетизацию использования приложения статья будет? Интересно было бы почитать.

octave Jun 4 2010 at 15:52

Про монетизацию мы, скорее всего, писать не будем.
Могу сказать, что она будет несколько необычной и очень лояльной к пользователю.

Bonzo Jun 4 2010 at 15:54

Ну тогда вдвойне заинтригован :)

Homakov Jun 6 2010 at 13:43

Если сервис бесплатный — то это реклама. Что необычного?)

octave Jun 6 2010 at 19:46

Скажите, когда появилась контекстная реклама, она была необычной?

johndow Jun 4 2010 at 15:50

Скажите, вам не становится страшно когда вы думаете как поддерживать такой зоопарк технологий?

octave Jun 4 2010 at 15:56

Становится. Страшно.

johndow Jun 4 2010 at 16:13

Ну что же — удачи! :-)

f33l Jun 4 2010 at 18:19

почему было не использовать эрланг? зоопарк действительно дикий, вы бы сэкономили массу времени и сил, при этом система у вас еще сырая, по вашим же словам…

octave Jun 4 2010 at 18:31

А Вы использовали?

f33l Jun 4 2010 at 19:44

да, оно идеально ложится как раз на связанное с очередями, воркерами, интерактивной отладкой, масштабированием и прочим
кстати, например, для монго есть библиотека
интегрируется с другими языками через безопасные «порты»
я писал кравлер, и после это писать такого рода сервера на чем-лтбо еще видится мне садомазохизмом )

octave Jun 4 2010 at 22:40

Мое знакомство с эрлангом… в общем, мы с ним не подружились.
Слишком неведомое.

Homakov Jun 6 2010 at 13:44

Дак приступайте, станете «неспать» спокойно

octave Jun 6 2010 at 20:53

Чем конкретно erlang превосходит node?
(учтите, что у меня уже все на нем реализовано)

ESQUELETO Jun 4 2010 at 15:57

Название конфликтует с лозунгом «Без велосипедов».

octave Jun 4 2010 at 16:00

Это не копикат. Обоснуем в релизе.

UFO landed and left these words here

octave Jun 4 2010 at 16:20

Ну, по поводу заголовка и велосипедов очень четко подмечено.

Говоря «Rss ридер» я имею ввиду техническую характеристику, а вовсе не специфику проекта. Ведь это разные вещи, верно?

UFO landed and left these words here

octave Jun 5 2010 at 13:32

Вот этим.
habrahabr.ru/blogs/startup/89406/

smartov Jun 5 2010 at 07:35

Аггрегатор и ридер совсем разные программы. Тут явно много времени было уделено интерфейсу. Но 2000 ч.часов это сильно да. 250 рабочих дней по 8 часов. Если не ошибаюсь Торвальдс ядро линукса быстрее написал

octave Jun 5 2010 at 14:35

Я так понимаю, у Вас за спиной — десяток таких проектов…

smartov Jun 5 2010 at 14:40

Это вам у Линуса лучше спросить. Я всего лишь сравнил

octave Jun 5 2010 at 14:48

Ядро линукса и веб приложение совсем разные программы.

svdesign Jun 4 2010 at 16:08

А как же eventr?

octave Jun 4 2010 at 16:16

А это мы его замаскировали под rss reader

xDev Jun 4 2010 at 16:11

Когда задача выбирается из очереди, на нее ставится Lock (для блокировок используется memcache)

вот он FAIL

octave Jun 4 2010 at 16:16

Посоветуйте

xDev Jun 4 2010 at 16:32

Например ново-модный Redis, он поддерживает транзакци

octave Jun 4 2010 at 16:40

Спасибо, ковырну

g00d Jun 4 2010 at 18:51

а это вы не рассматривали? nodejs.ru/362

octave Jun 4 2010 at 23:21

Почитал, очень интересно и просто… и поздно :)
Спасибо, буду иметь ввиду.

Очереди переделаю на Redis.

evilkost Jun 4 2010 at 23:58

Почему бы не заточенными решениями типа RabbitMQ (или ZeroMQ если гарантия доставки не важна)?

akzhan Jun 14 2010 at 05:25

AMQP/RabbitMQ — по мне так хорошее решение для очередей.

Очень надёжное и быстрое, используем много где.

Кстати, есть github.com/ry/node-amqp

octave Jun 14 2010 at 16:15

Уже переделал все на Redis:
lists, distributed Locks, pub/sub

Очень удобно все получилось.

Barttos Jun 15 2010 at 16:23

Анонс то когда?

octave Jun 15 2010 at 16:29

Послезавтра.

Тяжко деплоимся :)

Barttos Jun 15 2010 at 16:33

Ждём с нетерпением! Удачи!

evilkost Jun 4 2010 at 21:05

Только это не привычные по rdbms транзакции, а скорее балковое исполнение команд.

octave Jun 4 2010 at 22:40

Как раз то, что нужно

octave Jun 6 2010 at 20:49

code.google.com/p/redis/wiki/PublishSubscribe

Это случайно не заменит мой node controller?

kurokikaze Jun 7 2010 at 06:58

Как сервер сообщений можно использвать.

Zerkella Jun 4 2010 at 16:17

В свое время 5 лет назад на заре расцвета AJAX писал RSS-ридер для нашего портала — rss.i.ua
Поэтому проблемы с тем, что приходит в RSS-потоке и в каком виде — нуууу очень понимаю :)))) Костылей там приходится очень много повставлять.

ESQUELETO Jun 4 2010 at 16:20

мне больше всего в вашем сообщении понравился домен i.ua :-)

octave Jun 4 2010 at 16:21

Спасибо. Видно, понимаете, о чем шла речь :)

UFO landed and left these words here

Zerkella Jun 5 2010 at 09:45

По этому поводу у нас в фан-клубе есть футболка с высказыванием Зигмунда Фрейда:

friday Jun 4 2010 at 19:47

Прочитал домен со второго раза. Первый раз прочитал как «russia»:-)

Siddthartha Jun 4 2010 at 16:17

меня напрягает такое обилие слэнга (зачастую сугубо индивидуального, видимо) — это добавляет неоправданной сложности. часто это является следствием того, что желание похвастаться довлеет над желанием поделиться знанием.

а так ниче. раскрыты некоторые грабли которые нас ждут при использовании новомодных штучек.)

inspush Jun 4 2010 at 16:19

многа букаф, ниасилил

UFO landed and left these words here

HighOctane Jun 4 2010 at 16:26

Не нужно считать проблемой то, что собьется какой-нибудь счетчик.

Поддерживаемые MongoDB атомарные функции решают эту проблему. Пример: {$inc:{counter:1}}

А вообще довольно объёмная работа. Мне кажется, что вам помог бы нескольконедельный отдых после такой дикой нагрузки, ну там Карелия с байдарками, или ещё какие-нибудь прелести активного отдыха далеко от дома.

Удачи!

octave Jun 4 2010 at 16:37

{$inc:{counter:1}}
так и происходит

Спасибо!

Zhendalf Jun 4 2010 at 16:54

Мобильную версию (Android, iPhone, iPad) не делали?

octave Jun 4 2010 at 16:57

Будем делать, но не в ближайшем времени.

Homakov Jun 6 2010 at 13:50

С этого могли начать. Из всего разнообразия ридеров под android не один мне не подошел. Пользуюсь gr mobile.

OneManStartup Jun 4 2010 at 16:55

А переписать mongomapper на js это велосипед? я вот тут начал ввиде плагина к express писать, только там проблема возникла пока с jspec либой. Проект еще сырой документации нету, но вот написать mongomapperjs очень хочется.

octave Jun 4 2010 at 17:02

Посмотрите mongoose, он имеет вполне достаточный минимум для работы с моделью. Мне пока хватает.

OneManStartup Jun 4 2010 at 18:43

О спасибо. Как раз то, что нужно. Когда искал не нашел такого.

octave Jun 6 2010 at 19:48

Если делать только ридер — да, я с Вами согласен.

Но мы делаем не ридер.

danilissimus Jun 4 2010 at 16:57

>Без велосипедов
это вычеркниет. ведь ваш рсс-ридер — сам по себе велосипед.

HighOctane Jun 4 2010 at 17:01

В данном случае он более близок Лунапарку

octave Jun 4 2010 at 17:05

Кажется, я уже отвечал на подобный комментарий…

Sone Jun 4 2010 at 17:06

Такой объем лучше по частям. А на ридер я бы с удовольствием взглянул:)

octave Jun 4 2010 at 17:10

Так это, как бы, часть :)

Sauron Jun 4 2010 at 17:10

> backward-capability
Всётаки backward-compatibility

octave Jun 4 2010 at 17:12

поправил

nochnoy Jun 4 2010 at 17:25

Очень вкусно описал процесс, спасибо.
Где бы теперь подписаться на анонс ридера, чтоб не пропустить ненароком?

octave Jun 4 2010 at 17:41

Анонс появится либо в разделе «Стартапы».
Называется Eventr.

Спасибо.

nochnoy Jun 4 2010 at 17:55

www.eventr.com/
Он? =)

octave Jun 4 2010 at 18:05

Он.

Но то, что там написано, уже слегка устарело… :)

tzlom Jun 4 2010 at 17:27

this is fucking awesome

kurokikaze Jun 4 2010 at 18:31

Вот это да!

Я и сам недавно заморачивался многим из вышеперечисленного (и сейчас заморачиваюсь) — node.js, MongoDB, сервер очередей написал тоже, правда более примитивный. На этом действительно можно делать очень интересные вещи ))

octave Jun 4 2010 at 18:35

Вот сейчас к этому всему добавится Redis и стает еще интересней :)

kurokikaze Jun 4 2010 at 18:43

Да, Redis и MongoDB, на мой взгляд, самые подходящие кандидаты на роль «стандартного» хранилища данных в пару к Node.js. Riak тоже выглядит интересно, но с запросами там сложновато )

octave Jun 4 2010 at 18:50

Riak я поздно заметил, решил уже не ковыряться… но говорят о нем действительно позитивно.

kurokikaze Jun 4 2010 at 19:08

А я как раз ковыряюсь. Ему бы интерфейс для простых запросов как у Монго — цены б ему не было )

Setti Jun 4 2010 at 19:14

Вы очень крутой! А еще перфекционист.
Жаль, что подобный подход к работе конфликтует с личной жизнью и всякими увлечениями.
Расскажите, что вас мотивирует?

octave Jun 5 2010 at 13:53

По поводу перфекционизма, меня очень сильно впечатлил вот этот доклад:
vimeo.com/10922497

Мотивирует, наверное, то же, что мотивировало дядечку Эйнштейна, и еще другую тысячу психов по всей планете.

dmandreev Jun 4 2010 at 19:23

Результат бы посмотреть.

Bonch Jun 4 2010 at 19:26

Заметил перфекциониста — и это офигенно похвально! Таких весьма совсем не очень. Сам сейчас пишу биллинг на Nodejs и mongodb, плюс API на стороне ZF. И мне нравится серверный JS!

Народ, включайтесь в группу Nodejs и остальные похожие по теме группы на гугле — русских там 1.5 человека пока.

kurokikaze Jun 4 2010 at 19:33

Знакомые лица :)

octave Jun 5 2010 at 13:54

Включаюсь!

begemot3 Jun 27 2010 at 03:30

Подключился!!! Сам только сегодня начал ковырять и в восторге!!!

freehome Jun 4 2010 at 19:50

по поводу велосипедов
что конкретно может заставить пользователей уйти с Google Reader?

octave Jun 4 2010 at 22:46

Смотря каких. Их там много.
В другой статье все расскажем.

Methos Jun 5 2010 at 15:45

Могу посоветовать добавить поддержку Digest-авторизации, этого так не хватает в GR для чтения подзамочных записей ЖЖ.

zerkms Jun 6 2010 at 02:39

в жж подзамок можно читать через user:pass@livejournal…

octave Jun 6 2010 at 08:14

На хабре где-то была тема про подзамки и gr.
Люди не хотят свои пароли светить сторонним сервисам. И это правильно.

Пришло время OAuth.

sindrom Jun 4 2010 at 20:18

Чем обоснован отказан от реляционных баз данных в пользу монго? Ридер проектируется с расчетом на гигантские нагрузки или вы просто поддались модному тренду «noSQL»? :)

octave Jun 4 2010 at 22:56

Повелся на модный тренд. Но если будут гигантские нагрузки — буду только рад :)

А Вы лучше скажите, зачем использовать реляционную бд, если ее «реляционность», в итоге, используется на 10%? (в нашем случае)

+ schema-less
+ легкие миграции
+ data-driven queries (очень нравится)
+ нативный шардинг, в случае чего
+… можно перечислять

murzilka Jun 8 2010 at 12:34

Почитайте тут
zabivator.livejournal.com/412053.html

octave Jun 8 2010 at 12:46

Спасибо, прочел.

«Те, что НЕ владеют DB-разработкой НАДЕЯТСЯ на NoSQL.» — про меня
«Ниша NoSQL — высоконагруженные сайты, вырастающие из стартапов.» — надеюсь, про наш стартап

А Вы, в свою очередь, посмотрите вот этот доклад:
www.infoq.com/presentations/Facebook-Software-Stack

И оцените, как фейсбуку приходится использовать MySQL.

murzilka Jun 8 2010 at 12:53

Чото вы мелко сравниваете — фейсбук…
Давайте сразу на примере гугла, выш стартап ведь, вы надеетесь, не меньше нагружен будет.

octave Jun 8 2010 at 13:01

Вот когда ребята начинали делать фейсбук, думали так, как Вы. Либо вообще не думали.

murzilka Jun 8 2010 at 13:09

Откуда вы знаете, что они думали?
Не иначе — вы думаете, что они так думали :)

octave Jun 8 2010 at 13:14

Да, следовало бы вставить слово «наверное» :)

nfx Jun 4 2010 at 20:44

ето просто прекрасно! (с)

а для распределения нагрузки gearman были идеи использовать?
для redis вродь наиболее оптимальным решением сейчас есть libredis с поддержкой ketama, нескольких серверов и batch-запросов. или есть какие-нить другие идеи?

octave Jun 4 2010 at 22:59

Спасибо, посмотрю.

Буду колупать Redis на днях. Скорее всего, прикручу его к node и на этом пока остановлюсь.

aleks_raiden Jun 5 2010 at 06:54

мы вот сделали такую систему на базе Gearmand и Zend_Reader — работает все отлично, уже в продакшине почти полгода. Единственная проблема — всякая фигня непридсказуемая в лентах. Например, многие ленты по особенному трактуют поле даты новости и она часто неверно понимается парсером.

octave Jun 5 2010 at 13:35

Zend_Reader пришлось хорошенько дописать :)

vladislavkorobov Jun 4 2010 at 21:08

вот читаю такие посты и понимаю что я очень много еще не знаю мягко говоря.
Ждем читалку

second_pilot Jun 4 2010 at 21:14

Очень хотелось бы взглянуть на ваш карказ над ZF.

second_pilot Jun 4 2010 at 21:14

Простите, «каркас» конечно же. конец недели…

octave Jun 4 2010 at 23:04

Даже не знаю, как Вам его показать…
Что именно интересует?

nfx Jun 4 2010 at 23:24

о, можете показать какой-то gateway и mapper для mongodb? также на entity для етого.
на использование acl внутри сервиса тоже интересно взгянуть б (интересно как, вот).

octave Jun 4 2010 at 23:30

Скиньте email в личку

dmitriid Jun 5 2010 at 09:20

Описание контроллера и менеджеров — один-в-один supervision tree из Erlang'a (gen_supervisor, gen_server) Это не упрек в велосипедности :) Просто показатель того, что рано или поздно разработчики приходят к похожим архитектурным решениям.

По поводу ридера главный вопрос — HTTP Digest Authentication, которая есть, например, в livejournal'е Ни один онлайн сервис, насколько знаю, не поддерживает ее, а хотелось бы :)

octave Jun 5 2010 at 13:37

Это не сложно сделать. Находится в списке фич, которые собираемся запустить в первые месяцы.

dmitriid Jun 7 2010 at 06:08

Ура!!! :)

david_mz Jun 5 2010 at 09:51

Спасибо, очень интересно было читать!

PubSub прикручивайте — он (с точки зрения ридера) простой как сапог, зато позволяет для фидов, что его поддерживают, практически мгновенно доставлять сообщения, в обход общей очереди feed pull-а.

nuclon Jun 5 2010 at 10:07

собирался писать ридер для себя и очень рад, что, наверное, не придётся :)

Будет ли импорт/экспорт фидов в OPML? будет ли HTTP Digest Authentication? Было бы очень неплохо

octave Jun 5 2010 at 13:47

Про OPML написано в статье.
Так же, планируем сделать Google Reader Connect, который, скорее всего, позволит двумя кликами сделать импорт/экспорт — без всякого opml. Но пока руки не дошли до его API.

По поводу HTTP Digest Authentication, читайте пару комментов выше.

cst Jun 5 2010 at 11:55

Добавьте в него IMAP.

octave Jun 5 2010 at 13:47

Почтовый клиент все равно удобнее.

cst Jun 6 2010 at 16:30

Не люблю. В рсс ридере было удобнее.

egorinsk Jun 5 2010 at 23:09

Единственный удобный для меня ридер — это версия Google Reader для айфона, по адресу google.com/reader/i/, она и легкая, и удобная, и не перегружена ничем лишним.

octave Jun 5 2010 at 23:12

+1 тоже им пользуюсь

Homakov Jun 6 2010 at 13:53

для айфона?) Уверены что гугл делал это специально для айфона?)

zerkms Jun 6 2010 at 02:40

насколько кртитичная информация хранится в очереди memcacheq? я имею ввиду — что будет, если вдруг случайно очередь потеряется?

octave Jun 6 2010 at 08:19

В основном — действия пользователей в виде подписок на потоки и импорт за последние 1-5 минут максимум.
Плюс, могут устареть слегка сами потоки.

Сейчас как раз делаю так, чтобы она не терялась (избавляюсь от memcached).

ATimofeev Jun 6 2010 at 03:44

«Все, что я имел с самого начала, это небольшой каркас, делающий работу с zf слегка удобней. » А каркас ваш или это какое-то общедоступное решение?

octave Jun 6 2010 at 08:22

Этот каркас достался по наследству с другого проекта, который побывал на продакшн. Делался он «коллективным разумом», пережил довольно много usecase-ов.

Кстати, работа с zf мне вообще не напрягает мозг. Как-то так все с ним очень просто получается.

lol2Fast4U Jun 6 2010 at 08:57

а зачем PHP здесь?
что мешает все-все-все на node.js сделать?

octave Jun 6 2010 at 09:14

Отсутствие машины времени.

dmitriid Jun 7 2010 at 06:09

На Erlang'е! :)

Stas911 Jun 6 2010 at 10:27

Экспорт данных в FB2 или LRF будет?

Homakov Jun 6 2010 at 13:54

присоединяюсь к вопросу, нужен эксапорт в fb2

octave Jun 6 2010 at 19:54

Какие версии нужно поддерживать?

Homakov Jun 6 2010 at 13:56

года два назад делал свой ридер. Все мечты разбились когда увидел fav.or.it(который загнулся по неизвестным причинам) и обомлел. А вы имея перед глазами gr и netvibes работали почти год, поэтому мой вам поклон.

octave Jun 6 2010 at 19:52

На самом деле, живем этой идеей уже полтора года.

Спасибо.

begemot3 Jun 27 2010 at 03:49

Спасибо за статью и всем за коменты!!! Теперь точно не высплюсь (( Пошел ковырять node.
Каркас для ZF псмотреть бы… (скромно)

ApreDeFoe Dec 24 2010 at 12:01

«Так же, существует WorkerPhp.js, который запускает php-cli как child-process и общается с ним на json»
объясните пожалуйста, а как вы держите эти PHP не закрытыми? черех php-fpm?

ApreDeFoe Dec 24 2010 at 12:06

и это наверное у вас не php-tcp сервер, я правильно понимаю?

octave Dec 24 2010 at 12:39

Да, где-то так:

while ($request = fgets($this->_stdin)) {
    $this->handleData($request);
}

ApreDeFoe Dec 24 2010 at 15:52

Т.е. все-таки воркеры в режиме tcp-серверов, открываете их на портах и общаетесь с ними?

У меня проблема выбора или php-fpm или в качестве tcp-серверов воркеры пускать, что вы бы посоветовали?

octave Dec 25 2010 at 00:03

Это не tcp, это простой std I/O. Работает замечательно, поскольку основной упор времени именно на выполнение задач, передача данных в моем случае — спички.
Помоему, tcp необходим только в том случае, когда нужно общение между разными серверами.

octave Dec 25 2010 at 00:04

Пример:

$this->_stdin = fopen('php://stdin', 'r+');
$this->_stdout = fopen('php://stdout', 'w+');

ApreDeFoe Dec 25 2010 at 23:01

Спасибо большое, попробовал.

К сожалению один воркер в памяти сьедает до 20 мегабайт ОЗУ. 100 воркеров сьедают 2 гигабайта(что не предел из-за динамического кол-ва воркеров и динамически-меняющегося необходимого кол-ва ОЗУ отдельно взятому воркеру).

Справедливости ради надо сказать, воркеры в формате TCP едят не меньше, как и воркеры NODEJS в режиме child_process.spawn)

Если не секрет, какое кол-во ОЗУ сьедает ваш PHP-воркер в среднем?

octave Dec 26 2010 at 16:39

> К сожалению один воркер в памяти сьедает до 20 мегабайт ОЗУ. 100 воркеров сьедают 2 гигабайта
Зачем Вам 100 воркеров? У меня максимум 30 воркетов на сервер, и то, это сделано ради повышения эффективности работы с блокирующим I/O в php, а вовсе не ради ресурсов. Мои воркеры гребут rss, 90% времени его работы занимает трансфер данных из внешних источников. Было бы весьма разумно реализовать это на nodejs, но на этом завязано слишком много бизнес-логики в среде php.
Система работает эластично — если нагрузка небольшая, запущено в среднем 5 воркеров.

> Справедливости ради надо сказать, воркеры в формате TCP едят не меньше
Чем воркеры «в формате TCP» принципиально отличаются от воркеров «в формате I/O»? И что побужтает их кушать меньше?

> Если не секрет, какое кол-во ОЗУ сьедает ваш PHP-воркер в среднем?
60 MB

Данный вопрос очень сильно связан с конкретной задачей, которую выполняют Ваши воркеры. Например, если это рэсайзинг изображений — php тут вообще не нужен.

ApreDeFoe Dec 27 2010 at 00:05

Спасибо за ответы.

>Зачем Вам 100 воркеров?
Количество запросов к воркерам в часы пик более 100 в секунду (при кэшировании). Конечно нельзя назвать это «высокими нагрузками», но 1 воркер может выполнять одну задачу одновременно, где среднее время выполнение задачи(получение, парсинг страницы и проход по некоторым УРЛ страницы) — 2 секунды(до 60 секунд). Отсюда скорость системы зависит от параллельного выполнения задач.

>Чем воркеры «в формате TCP» принципиально отличаются от воркеров «в формате I/O»? И что побужтает их кушать меньше?
Вы правы, ничем. Это я «в поисках решения» сказал)

>. Например, если это рэсайзинг изображений — php тут вообще не нужен.
Нет, ресайзинга и ничего такого нет.

octave Dec 27 2010 at 07:23

> получение, парсинг страницы и проход по некоторым УРЛ страницы
Это можно сделать на nodejs?

ApreDeFoe Dec 27 2010 at 08:49

Да. Скорость будет больше?

octave Dec 27 2010 at 18:57

Зависит от соотношения Network/Processor — если это 9/1 (как у меня), то будет раз в 10 быстрее (это для одного процесса).
Но самое главное — это память. Если грамотно написать (а в nodejs это не так легко), то процесс будет кушать не более 100 МБ. 4 ядра — 4 таких процесса. Опять же, зависит от логики самой программы. Если это краулер, тогда зависит от размера страниц и количества одновременной обработки — это можно регулировать.

ApreDeFoe Dec 28 2010 at 09:38

Спасибо, попробую на nodejs переписать воркеров.

На простых задачах(там, где не надо проходить по ссылкам внутри страницы) NodeJS в один поток делает по скорости пхп, запущенный параллельно через spawn.child. Попробую на более сложных, в 4 потока и регулировать, как вы посоветовали.

octave Dec 28 2010 at 11:48

не забудьте про process.nextTick