@dbarashev22 сен 2010 в 18:29

Чего стоит почистить datastore от сессий при помощи Mapper API

2 мин

1.2K

Google App Engine *

+47

Комментарии 27

@kiri4 22 сен 2010 в 19:14

Спасибо, интересно! надо бы тоже заняться протухшими сессиями:)

@malkolm 22 сен 2010 в 19:17

Так вы каждую сущность вытаскиваете, анализируете и потом удаляете. Это всяко будет тупее чем SQL запрос.

@dbarashev 22 сен 2010 в 20:09

О том и речь. Антипаттерн, за который ругают Hibernate-оподобные framework'и (да простит меня hibernate если в последнее время там что-то поменялось) во всей красе. Но другого-то ничего нету. А хочется чтоб было :)

@malkolm 22 сен 2010 в 20:14

У Hibernate есть HQL, позволяющий вытаскивать не весь объект, а лишь интересующую инфу

@malkolm 22 сен 2010 в 20:26

с его помощью можно было бы на порядок быстрее все удалить

@isden 22 сен 2010 в 19:17

а у вас там нет «сборщика мусора», чтобы протухшие сессии из базы выбивать автоматически?

@mrskam 22 сен 2010 в 19:35

У вас — это вы имеете ввиду ТС или о платформе?
Если о платформе — надо на крон вешать SessionCleanupServlet, который находится в SDK, и соответственно, расположен на каждом инстансе. Кажется есть тикет, где просят сделать полностью автоматическую чистилку для контейнера приложений.

НЛО прилетело и опубликовало эту надпись здесь

@dbarashev 22 сен 2010 в 20:52

В bigtable есть: www.google.com/search?sourceid=chrome&ie=UTF-8&q=bigtable+garbage+collection
Чтоб протащить его в megastore и в публичный доступ на GAE, наверное, нужны некоторые усилия :)

@fogx 22 сен 2010 в 19:18

Так а никто и не говорит, что map/reduce работает эффективнее. Да, там приличный оверхед, да, там кривые медленные алгоритмы, но зато оно реально масштабируемо, и при нынешних ценах на железо это зачастую оказывается важнее.

@dbarashev 22 сен 2010 в 20:29

А речь и не про mapreduce, хотя в пожирании такого количества процессорного времени, вполне возможно, виновата конкретно эта реализация. Профайлинг покажет.

Речь о том, что в нынешних облаках программисту навязывается порочный стиль общения с БД, и ему приходится изобретать оптимизатор запроса самостоятельно — то что в реляционных СУБД нужно делать достаточно редко.

@mrskam 22 сен 2010 в 19:29

Скоро введут новое хранилище, возможно основанное на том, на чем сидит bigquery, там как-то очень быстро выполняются выборки на очень-очень больших объемах данных (count(*) на 60 млрд записях выполняется за 3-6 секунд), после также посмотрим, что будет со скоростью операций чтения-записи.
Вообще они с базой в последнее время очень хорошо поработали, скоро будет много вкусного (например разрешили проблему «взрывающихся индексов»).

А MP действительно с большим оверхедом, но с помощью него вы за линейное время сможете оперировать над массивом данных абсолютно любого размера, в отличии от мускуля и пр. Каждую технологию надо применять с умом.

@remal 22 сен 2010 в 19:39

www.google.ru/search?q=appengine+java+sessions+cleanup первая же ссылка, не?

code.google.com/appengine/docs/java/datastore/queriesandindexes.html#Delete_By_Query — тоже не подходит?

@mrskam 22 сен 2010 в 19:49

По поводу второй ссылки — хоть недавно лимит в 1000 и убрали, но 30 секунд на запрос никуда не делся, т.е ~25 секунд дается на использование внутреннего API. Это означает, что банально даже маленькую часть не успеем выбрать (практически все операции в store линейны по времени, ~40мс на запись весом 2 килобайта => 40.000 сек. на миллион записей), не говоря уже об удалении, что дает ~100мс на запись 2 кб =)

@dbarashev 22 сен 2010 в 20:13

А по поводу первой ссылки — попробуйте :) Увидите, что за одно нажатие кнопки можно удалить 1000 записей. Нажимать кнопку 1400 раз мне не хочется :)

@killov 23 сен 2010 в 11:49

А за сколько отрабатывается одно нажатие? 1400 это не так и много, думаю получилось бы быстрее *) чем в статье…

@dbarashev 23 сен 2010 в 15:10

Хаха :) Так и туннельный синдом можно заработать. Ну и я же программист, а не тестер аркадной игры :)

@windicted 23 сен 2010 в 15:30

Кнопку нажимать совсем необязательно. Если вызывать SessionCleanupServlet с параметром clear (как и пишет Jason по указанной ссылке), то, сделав соответствующий cronjob, срабатывающий, например, каждую минуту, можно было бы за сутки решить вашу проблему. При этом вы имели бы возможность контролировать расход CPU и в случе чего остановить обработку.

@dbarashev 23 сен 2010 в 15:38

Ну вот через полтора года проведу эксперимент с ним, и сравню, ага :)

@1x1 22 сен 2010 в 20:02

Я не пробовал, но почему-то думаю, что даже MySQL справится с… за несколько минут.

2 млн записей за минуту-полторы. Но если удалять их поштучно, как это делаете Вы, то пройдёт не один час.

@dbarashev 22 сен 2010 в 20:10

См. habrahabr.ru/blogs/gae/104714/#comment_3277477

@huze 22 сен 2010 в 21:26

Глазами поискал вывод, не нашёл. =( Так сколько USA-копеек-то это всё стоило?

@mrskam 22 сен 2010 в 21:29

1.65 американских рублей (последний скрин)

@huze 22 сен 2010 в 21:37

Да, спасибо, вижу. =) Интерес удовлетворил, можно и поспать.

@FuN_ViT 23 сен 2010 в 15:58

после ввода обратно подсчета использования CPU при работе с datastore — удалять (ну и инсертить) стало ООЧЕНЬ дорого.

@xen 23 сен 2010 в 16:57

Можно было для сессий и memcache использовать.

@mrskam 23 сен 2010 в 18:51

контейнер приложений и использует мемкеш в связке с хранилищем. А чисто мемкеш нельзя — он у гугли не гарантирует сохранность данных на заявленное время, т.е. с небольшой вероятностью объект уже будет невозможно получить спустя очень небольшое время (секунды), хоть и клали мы его на полчаса, к примеру.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий