@qnikst27 июн 2010 в 09:24

Мемоизация в Java

9 мин

12K

Java *

+33

Комментарии 48

@gribozavr 27 июн 2010 в 09:40

У вас вычисление функции внутри блока synchronized(). Вычисление функции — длительный процесс, а так как функция является pure, то разные потоки могли бы вызывать её и считать параллельно. А в вашем варианте — добавили мемоизацию, убрали параллелизм.

@qnikst 27 июн 2010 в 13:02

есть такое дело, но как известно «there is no silver bullet» фактически. Поэтому как и сказано в разделе про производительность в каждом случае нужно рассматривать, что даёт мемоизация и на основе этого принимать решение о её необходимости.

По поводу параллелизма, фактически если мы знаем, что наш код будет выполняться в «сильно параллельном» приложении мы можем обеспечивать только синхронизацию операции put, тогда проверка наличия в хранилище (только чтение) может выполняться всеми потоками параллельно. В итоге единственной проблемой останется первый запуск функции, который могут начать выполнять сразу много потоков. Но т.к. о данном варианте я лишь думал, но не сделал рабочий прототип, то я не стал о нём писать, оставив лишь заметку о введении критической секции и того, что нужно обратить внимание на возможность уменьшение производительности при использовании большого количества потоков.

@Regis 27 июн 2010 в 15:00

Посмотрите в сторону Ehcache. Там есть говторые и тщательно оттестированные решения для самых разных задач кэширования. В частности есть вариант кэша, когда если несколько потоков обращаются к разным значениям — при их отсутствии вычисление будет выполнено паралелльно, а если несколько потоков пробуют обратиться к за одним значением, то вычисление будет выполнено только в одном потоке, а результат получат все.

@aib 28 июн 2010 в 10:39

А не подскажете куда конкретно там посмотреть на многопоточное вычисление? Насколько я помню (правда еще по 1.4) там все методы класса кеша были объявлены как synchronized, собственно поэтому от него и отказался.

@Regis 28 июн 2010 в 16:02

Если мне не изменяет память, то что вам нужно — SelfPopulatingCache.

@remal 27 июн 2010 в 10:37

Автор, специально для таких вещей придумали AOP и IoC. Не надо городить кучу кода, в которой потом хрен разберешься.

Использовать HashMap для *общего* случая может быть неверно из-за потенциальных утечек памяти.

Про невозможность распаралеливания уже написали выше.

> Замечу, что в данный класс можно добавить функцию:
> public Object memorize(Callable fubc, final Map obj)
> Однако в данном случае мы заведомо теряем возможность работы в generic
С чего бы это? Что мешает написать public T memorize(Callable func, Map obj)? Или я неправильно вас понял?

@qnikst 27 июн 2010 в 13:10

> Автор, специально для таких вещей придумали AOP и IoC. Не надо городить кучу кода, в которой потом хрен разберешься.

если Вы поделитесь ссылкой на реализацию мемоизации в рамках реализаций AOP и IoC для Java, то я буду Вам благодарен. Поиск привёл меня лишь к некоторым «наколенным» вариантам реализации. Впрочем как и данные варианты.

> Использовать HashMap для *общего* случая может быть неверно из-за потенциальных утечек памяти

Идея мемоизации, заключается в том, что мы должны хранить результаты всех вызовов данной функции. Т.е. вариант использования WeakHashMap убережет нас от утечек памяти, но выведет за границы изначальной парадигмы. Возможно использование и более сложных структур данных считающих статистику, или удаляющих часть давно не использованных данных при каждом вызове не выходя за рамки O(1).

> С чего бы это? Что мешает написать public T memorize(Callable func, Map obj)? Или я неправильно вас понял?

я хотел написать public static T memorize... не статический метод, действительно ничего написать не запрещает. Ошибку поправлю

@reality 27 июн 2010 в 14:08

>если Вы поделитесь ссылкой на реализацию мемоизации в рамках реализаций AOP и IoC для Java, то я буду Вам благодарен.

к примеру вот: www.dev2dev.ru/content/spring-i-ehcache-chast%D1%8C-vtoraia-cacheflush-i-nazvaniie-kiesha-v-annotatsii

@remal 27 июн 2010 в 15:03

Зачем делиться ссылкой на реализацию? Это все делается буквально за пару минут, если знаешь что такое AOP / IoC. Тут даже и описывать-то нечего.

Идея идеей, но описать возможные проблемы все равно стоит.

Парсер — лох. Я имел ввиду: public <T> T memorize(Callable<T> func, Map<Callable<T>, T> obj)

@general 27 июн 2010 в 10:44

Мемоизация это… Это просто кеширование результатов функции.

Метод известный десятки лет из динамического программирования (теория алгоритмов)
И применимый к очень узкому классу задач.
И в общем случае не имеющий смысла.

1 А как вы будете кешировать значения, если параметры функции — объекты?
Придется удерживать все объекты в памяти — а это очень, очень много памяти.
2 А чтобы найти сохраненное значение для параметров a,b,c придется очень хороши[ и долго] поискать.
3 А что будет, если объекты сохранные как параметры для данного значения будут изменены (mutable-объекты)?

@tenshi 27 июн 2010 в 12:24

на основе параметров нужно вычислять хэш и искать по нему в таблице. правда хэш нужен без коллизий…

@qnikst 27 июн 2010 в 13:22

> Мемоизация это… Это просто кеширование результатов функции.
с точностью до того, что это частный случай =)

> И применимый к очень узкому классу задач.
> И в общем случае не имеющий смысла.
В общем то об этом было сказано. Но спасибо за резюмирование.

> 1 А как вы будете кешировать значения, если параметры функции — объекты?
1). у объектов передаваемых в функцию должна быть определена адекватная операция кэширования. Так например в 3ем варианте используется стандарный кэш. Используя первые два варианта Вы фактически можете создать свою функцию отвечающую условиям Вашей задачи.

Как уже отметили до меня нужен хэш без коллизий. Но эта проблема может возникнуть в любом месте, где используется Map, Set и т.д.

> 2 А чтобы найти сохраненное значение для параметров a,b,c придется очень хороши[ и долго] поискать.

В конце топика приведён рабочий вариант для кэша функции двух аргуметров. Так же Вы можете построить «каррированную» функцию т.е. Map<T,Map<?>> -> Map<T2,Map<?> -> Map<T3,K>
где T1,T2,T3 — тип параметров, K — результат. В этом случае поиск будет дольше и использует лишнюю память и нужно рассматривать, к чему это приведёт. Скажу честно я этого пока не делал.
Можно использовать более сложные структуры памяти главное, чтобы они реализовали требуемый интерфейс.

> 3 А что будет, если объекты сохранные как параметры для данного значения будут изменены (mutable-объекты)?

если в ходе вызова функции, то будет грустно. Если между вызовами, то программист должен позаботиться, чтобы его объект Callable отработал данную ситуацию при вычислении хэш функции.

надеюсь я ответил на вопросы?

НЛО прилетело и опубликовало эту надпись здесь

@qnikst 27 июн 2010 в 15:03

Замечу, что к моему удивлению, добавление лишней сущности во втором примере привело лишь к улучшению производительности. Хотя скорее всего это произошло лишь из-за простоты примера и того. функцию из первого примера я вызывал как статическую функцию (функцию класса) тестового класса, а во втором случае это была функция объекта.
В любом случае точно можно сделать вывод, что простое обобщение первого случая до второго не привело к потере производительности.
Может быть, если у найду время, то я попробую поточнее рассмотреть данный вопрос.

@Colwin 6 июл 2010 в 10:10

Про float.
Как правило для большинства задач можно задать более-менее объективную границу отсечения (например, 3 знака после запятой), и все float-значения перед обработкой округлять до заданной границы. Это снимет проблему повторных вычислений и (!), что более важно, потенциальные ошибки сравнения (float_1 == float_2).

НЛО прилетело и опубликовало эту надпись здесь

@qnikst 27 июн 2010 в 13:25

спасибо, добавлю в статью ссылкой

@iimuhin 27 июн 2010 в 15:47

супер. То, что я искал.

@aaafwd 27 июн 2010 в 18:12

… и ссылку на первоисточник: Java Concurrency in Practice

НЛО прилетело и опубликовало эту надпись здесь

@AlexanderYastrebov 27 июн 2010 в 22:17

Откройте секрет, зачем здесь проверка на наличие ключа?

if(futureResult == null && !cache.containsKey(key)) {

...

НЛО прилетело и опубликовало эту надпись здесь

@qnikst 28 июн 2010 в 05:46

А разве уже посчитанный результат не может быть null?
В общем-то эта строка обрабатывает данный случай.

НЛО прилетело и опубликовало эту надпись здесь

@trix 27 июн 2010 в 13:41

может быть ehcache и не мучаться?

@intr13 27 июн 2010 в 15:30

Спасибо за введение, я думаю что начинающим это пригодится. Тем более приведены очень простые примеры, благодаря которым можно понять механизм работы кэширования вызовов.

Кстати, я нечто подобное уже заимплементил в своем проекте (на базе: аннотаций + интерцепторов). И пришел к выводу, что это чрезвычайно полезная штука для сложных вычислений. К примеру, у меня есть код который считает финансовый план, при этом данные берутся из 10-20 разных источников, причем есть граф вызовов методов. Без кэширования расчет занимал порядка часа, а при кэшировании расчет проходил за 2-3 минуты.

Конечно можно было оптимизировать все на уровне запросов к БД, но это бы сильно усложнило код, да и запросы понять было бы намного сложнее. А так получилось все намного проще и лучше. К тому же модульность не пострадала.

Немного слов о кэшировании. К сожалению кэшировать данные иногда не лучший выбор, но иногда можно выделить неизменный контекст. Например описанный мной ранее пример кэширует данные на уровне транзакции пользователя. И для запросов на чтение и расчет это довольно неплохо работает.

Также стоит отметить что готовых решений из коробки нет, практически все предлагают допиливание решений под себя, что немного грустно (потому что не всегда адекватно и понятно работает). Возможно мир еще не готов к данному подходу. Хотя говорят у сапа есть что-то подобное, но тут нужен ихний специалист :)

@Beresta 27 июн 2010 в 17:33

Извиняюсь, что не по теме топика, просто больше особо негде про Java спросить.

Integer c = 1000, d = 1000;
System.out.println(c == d); // false
Integer e = 100, f = 100;
System.out.println(e == f); // true

Почему в первом случае false, во втором true? False понятно, а вот true откуда берется?

@qnikst 27 июн 2010 в 17:42

Раз почему false понятно, то объясню только второе. Для ускорения работы (чтобы не генерировать новые объекты) в Java автоматически создаются Integer, Byte,Long от -128 до 127, и Character от 0 до 127. Поскольку это неизменяемые объекты, то мы можем вместо инициализации нового объекта выдать ссылку на уже существущий, в итоге ускорение.

@Beresta 27 июн 2010 в 17:48

Спасибо, идея понятна. Нет ли у вас случаем ссылки на какое-нибудь исследование этого подхода? Т.е. в каких ситуациях от него есть польза, и каков «объем» этой пользы.

@Colwin 6 июл 2010 в 10:13

Как правило это будет определяться конкретной задачей. Если значения используются часто (а проверить это можно только на практике или после тщательного анализа предметной области), то выигрыш будет, нет — значит, нет.

@Stocker 27 июн 2010 в 18:44

По скользкой дороге идёте… Сравнивать ссылки вместо объектов…
Можно узнать зачем это Вам?

@chaliy 27 июн 2010 в 19:03

Какраз вчера твиттере прошла волна про проезенташку C# vs Java. И там в примерах почему Java это плохо приводился этот пример.

@Beresta 27 июн 2010 в 19:12

Ага, именно оттуда, поэтому вопрос чисто теоретический, но он меня очень заинтересовал.

Я знаком не только с C#, но такой подход к базовым типам языка встречаю впервые — поэтому интересно, какие предпосылки стояли перед разработчиками Java когда они принимали такое решение.

То что они что-то оптимизировали кажется понятно, но вот что именно и на сколько успешно — открытый вопрос.

@Beresta 27 июн 2010 в 19:23

Кстати говоря, выводы той презентации — JVM рулит, юзайте Scala :)

@chaliy 27 июн 2010 в 19:29

В той презентации слишком много субьективизма, и «JVM рулит» в этом списке.

@siasia 27 июн 2010 в 20:05

А как в вашем коде дела с оптимизацией хвостовой рекурсии? У JVM как известно есть с этим определённые проблемы. Не хочется ловить StackOverflow при больших значениях аргументов.

@stasikos 28 июн 2010 в 05:26

Oh, Really! :)

@stasikos 2 июл 2010 в 05:01

Поправили бы таки название издательства лучше — oreilly.com :)

@Xcam 28 июн 2010 в 06:27

В разделе «общий вид» в примере в строке
if ( result==null && cache.containsKey(k) ) {
забыли отрицание перед проверкой наличия ключа поставить

@qnikst 28 июн 2010 в 06:37

спасибо, поправил.

@Colwin 6 июл 2010 в 09:54

Поправка — при использовании статического метода можно использовать Generic'и:

public R memorize(Callable fubc, final Map<Callable,R> obj) {… }

Стандартная нотация :-)

@Colwin 6 июл 2010 в 09:55

Стер не то ) правильный вариант такой:

public R memorize(Callable fubc, final Map<Callable,R> obj) {… }

@Colwin 6 июл 2010 в 09:55

public <R> memorize(Callable<R> fubc, final Map<Callable<R>,R> obj) {… }

@qnikst 6 июл 2010 в 15:27

извиняюсь, но это же не статическая функция,
а если написать public static <R> memoize(…
то копилятор напишет: invalid method declaration; return type required

@Colwin 7 июл 2010 в 06:06

public static <R> R memorize(Callable<R> fubc, final Map<Callable<R>,R> obj) {… }

Так можно )

@Colwin 6 июл 2010 в 09:56

Хабр стирает скобки, забыл, что нужно encode делать =) примите мои извинения.

@Colwin 6 июл 2010 в 10:04

Также можно добавить, что средствами AspectJ можно, немного подумав, реализовать автоматическое кеширование для методов с определенной сигнатурой.
Предлагаю освятить это в следующей статье.

@qnikst 6 июл 2010 в 15:32

скорее всего в следующей статье будет написано как можно подключить AspectJ в netbeans если я так и не найду корректных модулей для netbeans 6.(8/9).
(В случае если материал будет полезен)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий