Comments / Profile of yoihj / Habr

Слава Вишняков @yoihj

Нагруженные бэкэнды

ProfileArticles34PostsNewsComments855

Reputacia.ru — старт дан!

yoihj Sep 18 2008 at 15:49

«за нами не стоит «нефтяная вышка»»

А вы думали что будете делать, когда к Вам униженная Вами компания, к примеру KrasAir или Reebok, с «дружественным» визитом наведается?

Или серьезно думаете, что дело судом обойдется за какое-нибудь незаконное использование логотипа? ))

+2

Полнотекстовый поиск и его возможности

yoihj Sep 18 2008 at 12:52

Смотря для каких целей, если там тысяча или десять тысяч небольших текстов, то сфинкс — это стреляние баллистическими ракетами по мухам, ибо fulltext проще построить, не требует отдельного демона и он realtime (сфинкс же реалтайм только имитироват может и то это не одной командой делается).

А вот если текста (или вообще записей-атрибутов) дофига — то да, сфинкс — король.

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 10:49

Так исторически сложилось — просто у меня есть библиотека функций, которыми много лет пользуюсь и она uptime назвалась по названию команды, так и осталось, хотя и Вы правы — меряет она loadavg :)

+2

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 10:41

просмотрел в общих чертах — тестировал я что-то подобное и даже сейчас что-то подобное работает — вот эти ВЕРОЯТНОСТИ выше и получаются ) не знаю правда что будет при тех моделях — я свои придумывал.

0

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 09:14

1) я не уверен, что это достижимо без шардинга
2) если шардинг (кластеризация) — это нужны процессы следящие за состоянием серверов и т.п. и т.п. и т.п.
3) платить за несколько серверов сразу

так вот — это долгая и очень серьезная работа (недели, а может и месяцы), а теперь ответьте на вопрос: «а если НЕ придут 2 миллиона?» )) и в принципе я более чем уверен, что на этот проект — не придут. это игрушечный проект, там им делать нечего — миллионам.

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 09:12

Да, Кнут всегда был и будет прав! )

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:24

warning: ссылка на английском

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:24

с этим, правда, тоже свои заморочки с базой были
rarestblog.com/2008/07/scalability-problem/

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:23

therarestwords.com

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:22

да он уже терпимо вполне работает и врядли это 200к запросов превысит скоро, не летает, конечно, но дождаться загрузки можно )

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:21

rarestnews.com

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:20

В категоризации новостей.
«Turkey» — это страна или индейка? Python — язык программирования или monty python? Полисемия меня уже бесит, я уже даже выучил как это называется.

Как вычислить автоматически вычислять семантическое ядро для категорий типа «Atlanta Falcons», если во всех страницах про них, в основном пишется про них и какую-нибудь еще команду, например «Denver Broncos»?

Как автоматически сделать иерархичность, что Denver Broncos — это NFL?
И т.п. т.п. т.п. короче, автоматизированная лингвистика загнала меня уже. Получается процентах в 50 случаев процентов на 90 угадать тематику, в 10 процентах случаев угадываемость около 30-40 процентов, но если считать, что тема обобщена, то есть по запросу «спартак» — мы просто интересуемся «футболом». В остальных 40% категоризации вообще нет или неправильна )

+2

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:14

я думаю вы меня не так поняли. когда такие нагрузки — нужно стремиться к двум вещам:
1) выборки только по primary key
2) как можно меньше join, order, group
именно к этому сейчас фактически проект и пришел, к сожалению, экспериментальным путем поломок и убитых винчестеров.

unbuffered дал бы выигрыш, если бы я все 72 млн записей выбирал ) в моем случае из этой базы выбирается только 1 (денормализованная) строка по праймари ключу — я писал об этом подробно в первой части.

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 08:03

в сторону RarestNews :) это другой проект, он мне куда более интересен сейчас, но с ним я в тупике. а этот просто висит, народ развлекает. а про этот еще дорасскажу, наверное, если интерес будет — это далекоооо не все, что там надо было оптимизировать.

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 07:53

Ну так я ж говорю 100-200к в сутки, из них около 4000 от реальных людей.

+1

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 07:14

Я в третьей части подробнее расскажу об этом всем (если доберусь до нее когда-нибудь :) )

+2

Какая боль! Толпы против Веб — 2:0. Эпизод два — клоны заходят в полдень

yoihj Sep 18 2008 at 07:09

Без фреймворков и библиотек (кроме php-memcached) — чистый php, даже без абстракции базы данных — только mysql_query/mysql_real_escape_string.

Нет, к 72 миллионой обращение идет только раз — при первоначальной загрузке страницы и потом еще 400 обращений к 17 миллионной базе отдельных слов (хотя фактически эти все обращения сейчас идут к memcached).

Было бы быстрее, если бы боты не обращались 100-200 тысяч раз в день.

+4

Сколько просить на стартап?

yoihj Sep 18 2008 at 04:53

В общем, вопрос уровня «сколько стоит машина?» или «сколько стоит сайт?».

Интересно, скопипастил вопрос из текста — отправился коммент, но не суть. На Ваш вопрос Вы можете ответить только сами. Доработка продукта. Что за продукт, сколько времени его надо дорабатывать (большинство проектов дорабатываются постоянно), кто дорабатывает — Вы или много нанятых программеров или оффшорщики.

На серверы — тут все просто — нужно денег равное количеству серверов умноженное на их цену в месяц :)

Рекламная кампания — то же самое. А сколько Вы хотите рекламировать? А хороший ли продукт, чтобы его рекламировать?

А насчет поиска инвесторов — я уже писал — ерунда. Если очень верите в свой проект — 5к вполне по друзьям назанимать можно (или в банке). А если боитесь этим путем идти — то и «инвестор» вам не даст денег, если, конечно, у Вас не что-то супер-сногсшибательное.

+2

Сколько просить на стартап?

yoihj Sep 18 2008 at 04:49

Ну реально YouTube на стартап и моему проекту, который никто не знает — чуть-чуть разное количество денег понадобилось. :) YouTube несколько миллиардов инвестиций получил, а мой стартап вполне себе на $160 в месяц живет :)

Вопрос странный ей-Богу.

+2

« Пожалуйста, не натопчите мне на сайте »

yoihj Sep 17 2008 at 11:30

papervision хорошая технология, но сложная. я предложил простой путь.

+2

1 2 ...

33

34 35 ...