All streams
Search
Write a publication
Pull to refresh
511
0
Слава Вишняков @yoihj

Нагруженные бэкэнды

Send message
Глядя как «+» «-» играет — мне уже и самому интересно — может и прав Just_Smile :)
Ну вот те, кому не показалось это смешным и заминусовали. В чем проблема-то? В том, что тех, кому не смешно — много?
неа, гораздо бОльшая проблема — их ПОНЯТЬ :) там даже геометрия не обычная, а проекционная, где ПАРАЛЛЕЛЬНЫЕ прямые на самом деле пересекаются в ДВУХ местах :)
далеко blender ушел от того, каким я его помню.
сейчас, кстати, бот идет вглубину до 10 страниц смотрит, чтобы эти 400 набрать )
да, только главную изначально, точнее 400, кажется, слов [1000 просто для примера] = 100 самых редких, 100 редких, 100 общих и 100 слишком общих.
похоже что там остался народ, который липучкой справа, а не рефрешем обновляет
тоже вариант, но тогда потоки должны помнить в каком месте они остановились, ибо если мы их останавливаем (например для апдейта кода — php это ж не erlang, который перезагружать код не останавливаясь может) — то начинай все с начала. посмотрите финальное решение (я его дописал в статью, не так давно, в самом конце).
а вы к примеру про карты нормалей когда-нибудь слышали? )
Я рассматривал многие варианты, в т.ч. даже CouchDB, mogileFS, hadoop, gearman, все они проиграли MySQL по каким-то параметрам. Т.е. в конкретно моей задаче проиграли. rarestwords далеко не самая сложная задача, что я решаю. вот редчайшиеновости — это конец, то, что описано в этой статье — это даже не детский сад, а ясли, по сравнению с теми задачами. )
ой не надо вот про Amazon SimpleDB :) а то придется еще и про нее статью написать, как она людям съедает по несколько тысяч долларов в месяц только за счет посещений GoogleBot :)))

mapreduce знаю, но… у него есть много минусов (хотя и плюсов тоже), но для моих целей больше минусов.
UPDATE … rand='92803423' WHERE (status='еще не были')) AND (rand IS NULL) LIMIT 1 конечно же, забыл.
окей, а когда у Вас останется всего миллион записей, то есть программа будет запускаться 72 раза в среднем в пустую? если время запуска 0.01 — значит уже 1 сайт = 1 секунда, теперь полмиллиона (а это дофига!) — 1 сайт = 2 секунды, до четверти миллиона мы доползем лишь через 6 дней, еще через 6 дней до 1/8 миллиона… когда в базе останется 100 сайтов — сервер устареет раньше, чем они найдутся :)

не, я понимаю, что решения этого есть и в принципе, Ваш план имеет право быть, но обходить тут очень многое придется.
ну это то, что я и подозревал постом выше про «скорее всего сбалансированный b-tree»…
а вот что такое «апдейт С индексОМ»?
> было бы таким гибким, таким сложным (математически) и таким же простым, благодаря НЕСТАНДАРТНОМУ решению в юзабилити!!! А это были 90-ые!!!

Вот в Каноме меня это и убило — смотришь на современные аналоги — ужас, блин, не то что без бутылки не разберешь — тут бочку надо. )
Потому что мне результат нужно хранить для отдельных сайтов — смотрите сами therarestwords.com/slashdot.org, к примеру (или любой другой домен, для русских напоминаю, почти не работает — там свои нюансы — борьба fastbot с crawlbot :) )… а попутно уж и глобальную статистику считать.
Ну вот — да — 3DSOM, о котором я в конце говорю — тот же принцип.

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Date of birth
Registered
Activity