Вообще-то есть ОДНА техника для языков со сборкой мусора, которая не вносит больших накладных расходов. Она известна давно и используется во многих динамических средах. Могу рассказать более и менее подробно, так как сам написал такой аллокатор для одного из бывших проектов.
Делается это так - когда кончается вся память в куче, аллокатор останавливает все треды программы средствами ОС (suspend thread). При этом ОС сохраняет контексты всех тредов (дампы регистров) в памяти. Так как типовая ОС (ни одна известная мне) не имеет вызова для массовой остановки тредов по списку, то останавливаем мы их в цикле. Вызов приостановки треда блокирующий и ждущий, так как иначе мы не были бы уверены, что thread остановлен и его регистры сохранены. В результате по мере остановки других тредов мы сами успеваем (как правило) потерять пару раз управление из-за переключения контекстов. Генерируется куча IPI на мультипроцессорной машине...
Наконец, все треды остановлены. Наш аллокатор запрашивает у ОС контексты всех тредов - так как ему нужно просканировать ВСЕ значения во ВСЕХ регистрах прикладной программы. Мы ищем в каждом из регистров значение, внешне ПОХОЖЕЕ на указатель на блок памяти, находящийся под контролем нашего аллокатора.
Когда находим такой "указатель" - маркируем соответствующий блок как зафиксированный, как и ВСЕ блоки, на которые он ссылается (для этого мы должны получить от компилятора или еще откуда-то описание всех структур данных в программе и рекурсивно обойти все блоки по ссылкам из данного блока).
Далее лезем во все стековые фреймы всех замороженных тредов, находим там все указатели на память и маркируем все блоки, на которые они ссылаются, как живые. И блоки на которые ссылаются эти блоки и т.д., рекурсивно. То есть, применяем классический mark-and-sweep алгоритм для разметки живых блоков и дальнейшего уничтожения мусора.
Блоки, которые маркированы как живые, но не помечены как зафиксированные - можно переместить, если мы в состоянии откорректировать ссылки на них. Это нужно если мы используем generational аллокатор. Без такого аллокатора вообще вся память при mark-and-sweep стратегии сборки мусора будет изведена в момент.
Перемещение блоков - отдельная песня, так как мы должны иметь возможность откорректировать все ссылки на перемещаемые блоки – значит нам нужно уметь трассировать их в обратную сторону.
Вот так это работает.
Требуется поддержка на уровне компилятора - но это не страшно, если у нас свой язык, а не C[++]. Очень большие накладные расходы и торможение в момент приостановки тредов - параллельность вся идет нафик. НО! Так как при использовании ХОРОШЕГО generational аллокатора сборка мусора происходит ОТНОСИТЕЛЬНО РЕДКО, то с этим можно мириться. Накладные расходы на поддержание структур тоже в целом приемлемы, на фоне выгод для программиста от языка без указателей.
Однако есть ВАЖНОЕ ограничение. Этот прием нормально работает (оправдывает себя) только с mark-and-sweep стратегией выявления мусора и подразумевает stopping the world - остановку всех тредов на время сборки.
Из-за этого данная стратегия, наиболее эффективная для исполнения кода на предельной скорости, не подходит для real-time приложений и для серверов, где нужно быстрое время отклика.
Так как в НЕПРЕДСКАЗУЕМЫЕ ЗАРАНЕЕ моменты система "зависает" на неопределенное по большому счету время и начинает собирать мусор. При этом НИ ОДНИН СОДЕРЖАТЕЛЬНЫЙ тред программы не может работать - все стоит раком. Сервер не отвечает на запросы, пока это не кончится, растут очереди. Далее все оживает и начинает снова работать быстро - до следующей сборки мусора...
Кэши все равно трешатся намного сильнее, чем в программах на C[++].
Но, тем не менее, несмотря на все эти минусы, ПРАКТИЧЕСКИ это лучший IMHO алгоритм. Несмотря на его идейную кривизну - например, на то, что иногда он случайное число в регистре какого-то треда ложно трактует как указатель на блок памяти. Все-таки это всего-лишь неэффективность, но не bug.