All streams
Search
Write a publication
Pull to refresh
511
0
Слава Вишняков @yoihj

Нагруженные бэкэнды

Send message
MySQL CPU usage: 3%
CPU CPU usage: 97%
iowait: 0
:)

алгоритм уже настолько оптимизирован насколько мне хотелось бы — дорабатывать я его не буду.
therarestwords.com/ — я уже говорил в тексте, за объяснениями моей «ссылочной фермы»: TechCrunch: TheRarestWords: Intriguing Semantic SEO Project from Russia :)
Отнюдь — главный лимит — процессор — обработка Core2duo на Python&psyco+libxml (обработка html'я — а это самый тяжелый момент — идет в быстрой c-библиотеке) чуть-чуть превышает возможности 10мбитного канала. HTML очень вредный язык, особенно когда приходится использовать детектирование кодировки (ибо далеко не всегда она четко указана), а детектирование отнимает полную секунду процессорного времени.

1000 тредов тоже бесполезняк на Коре2дуо (именно такая машина и стоит) = пик скорости в районе 200 тредов наступает — больше-меньше — скорость падает.
Машина аналог Core2duo, сначала была на Amazon EC2 = 1 обход всей сети в сумме = $130 — траффик + аренда машины. Сейчас на анлимит 10мбит, опять же Core2duo = $162 в месяц [LayeredTech].
Никакое ) почти любой ник, всякие опечатки редких слов, всякие слова на других языках (в зоне .com их мало). Получается очень длинный «long tail», то есть слова с частотой 1 из 72 000 000 занимают едва ли не 90% таблицы.
720 * 3 :) но все равно вполне допустимо. хотя, вообще говоря, опыты по разбиению на таблицы, у меня обычно заканчивались даже еще более медленной скоростью, чем одна большая. но это если выборка из нескольких, если же постоянно одна, в основном, будет — думаю это было бы быстрее.
> Для очень быстрого селекта и инсерта используется InnoDB с инкрементальным первичным ключом.

Честно говоря, весь мой опыт говорит об обратном. Последний тест показал разницу в 10 раз и InnoDB медленнее оказалась. (Правда без тюнинга, но и MyISAM тоже дефолтовый был для сравнения.)
Она очень скачет — интернет неоднороден, то бывает пустые сайты прям подряд идут, то один за одним тяжелые научные трактаты. ) Как я и сказал есть 72 млн. страниц и обход длиться 55 дней = 72 000 000 / 55 / 86 400 = 15 сайтов в секунду. Датацентр Amazon.
цели шутить вообще-то не было, цель была доказать, что если народ минусует топик — значит на то есть реальные основания, а не то, что мы тут все лемминги и тролли.
да, сам. по-моему по ограниченности шуток должно быть и так понятно )
наверное, только во мне петросян уже уснул )
наконец-то )
Ну это ж Гомер )
Цитировать себя неудобно, конечно, но… «[И это учитывая, что я совсем не умею шутить!]»
посадяет еще за рассылку спама-то )
По-моему рейтинг все же говорит все ясно — ЮМОР НА ХАБРЕ ЕСТЬ! :)) поздравляю товарищи! ура!
все в мире фигня, кроме Билайнов )
решил вернуть это в свой блог, а то судя по рейтингу это нешуточную войну начинает жечь :) так что несчитайте это хабра-мнением — частные доводы почему мне Гугл неудобен :)
Да ну — не должно быть страха на Хабре, тем более если реально шутишь. Тот пост про геев — был целенаправленной нападкой, а не шуткой.

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Date of birth
Registered
Activity