неа, гораздо бОльшая проблема — их ПОНЯТЬ :) там даже геометрия не обычная, а проекционная, где ПАРАЛЛЕЛЬНЫЕ прямые на самом деле пересекаются в ДВУХ местах :)
тоже вариант, но тогда потоки должны помнить в каком месте они остановились, ибо если мы их останавливаем (например для апдейта кода — php это ж не erlang, который перезагружать код не останавливаясь может) — то начинай все с начала. посмотрите финальное решение (я его дописал в статью, не так давно, в самом конце).
Я рассматривал многие варианты, в т.ч. даже CouchDB, mogileFS, hadoop, gearman, все они проиграли MySQL по каким-то параметрам. Т.е. в конкретно моей задаче проиграли. rarestwords далеко не самая сложная задача, что я решаю. вот редчайшиеновости — это конец, то, что описано в этой статье — это даже не детский сад, а ясли, по сравнению с теми задачами. )
ой не надо вот про Amazon SimpleDB :) а то придется еще и про нее статью написать, как она людям съедает по несколько тысяч долларов в месяц только за счет посещений GoogleBot :)))
mapreduce знаю, но… у него есть много минусов (хотя и плюсов тоже), но для моих целей больше минусов.
окей, а когда у Вас останется всего миллион записей, то есть программа будет запускаться 72 раза в среднем в пустую? если время запуска 0.01 — значит уже 1 сайт = 1 секунда, теперь полмиллиона (а это дофига!) — 1 сайт = 2 секунды, до четверти миллиона мы доползем лишь через 6 дней, еще через 6 дней до 1/8 миллиона… когда в базе останется 100 сайтов — сервер устареет раньше, чем они найдутся :)
не, я понимаю, что решения этого есть и в принципе, Ваш план имеет право быть, но обходить тут очень многое придется.
Потому что мне результат нужно хранить для отдельных сайтов — смотрите сами therarestwords.com/slashdot.org, к примеру (или любой другой домен, для русских напоминаю, почти не работает — там свои нюансы — борьба fastbot с crawlbot :) )… а попутно уж и глобальную статистику считать.
2.3G urls.MYI
mapreduce знаю, но… у него есть много минусов (хотя и плюсов тоже), но для моих целей больше минусов.
не, я понимаю, что решения этого есть и в принципе, Ваш план имеет право быть, но обходить тут очень многое придется.
а вот что такое «апдейт С индексОМ»?
Вот в Каноме меня это и убило — смотришь на современные аналоги — ужас, блин, не то что без бутылки не разберешь — тут бочку надо. )