Отнюдь — главный лимит — процессор — обработка Core2duo на Python&psyco+libxml (обработка html'я — а это самый тяжелый момент — идет в быстрой c-библиотеке) чуть-чуть превышает возможности 10мбитного канала. HTML очень вредный язык, особенно когда приходится использовать детектирование кодировки (ибо далеко не всегда она четко указана), а детектирование отнимает полную секунду процессорного времени.
1000 тредов тоже бесполезняк на Коре2дуо (именно такая машина и стоит) = пик скорости в районе 200 тредов наступает — больше-меньше — скорость падает.
Машина аналог Core2duo, сначала была на Amazon EC2 = 1 обход всей сети в сумме = $130 — траффик + аренда машины. Сейчас на анлимит 10мбит, опять же Core2duo = $162 в месяц [LayeredTech].
Никакое ) почти любой ник, всякие опечатки редких слов, всякие слова на других языках (в зоне .com их мало). Получается очень длинный «long tail», то есть слова с частотой 1 из 72 000 000 занимают едва ли не 90% таблицы.
720 * 3 :) но все равно вполне допустимо. хотя, вообще говоря, опыты по разбиению на таблицы, у меня обычно заканчивались даже еще более медленной скоростью, чем одна большая. но это если выборка из нескольких, если же постоянно одна, в основном, будет — думаю это было бы быстрее.
> Для очень быстрого селекта и инсерта используется InnoDB с инкрементальным первичным ключом.
Честно говоря, весь мой опыт говорит об обратном. Последний тест показал разницу в 10 раз и InnoDB медленнее оказалась. (Правда без тюнинга, но и MyISAM тоже дефолтовый был для сравнения.)
Она очень скачет — интернет неоднороден, то бывает пустые сайты прям подряд идут, то один за одним тяжелые научные трактаты. ) Как я и сказал есть 72 млн. страниц и обход длиться 55 дней = 72 000 000 / 55 / 86 400 = 15 сайтов в секунду. Датацентр Amazon.
цели шутить вообще-то не было, цель была доказать, что если народ минусует топик — значит на то есть реальные основания, а не то, что мы тут все лемминги и тролли.
решил вернуть это в свой блог, а то судя по рейтингу это нешуточную войну начинает жечь :) так что несчитайте это хабра-мнением — частные доводы почему мне Гугл неудобен :)
CPU CPU usage: 97%
iowait: 0
:)
алгоритм уже настолько оптимизирован насколько мне хотелось бы — дорабатывать я его не буду.
1000 тредов тоже бесполезняк на Коре2дуо (именно такая машина и стоит) = пик скорости в районе 200 тредов наступает — больше-меньше — скорость падает.
Честно говоря, весь мой опыт говорит об обратном. Последний тест показал разницу в 10 раз и InnoDB медленнее оказалась. (Правда без тюнинга, но и MyISAM тоже дефолтовый был для сравнения.)