ksartam7 дек 2023 в 18:21

Обзор параллельных режимов работы хэш-функций

Простой

8 мин

3.3K

Сетевые технологии * IT-стандарты * Резервное копирование * Хранение данных *

Из песочницы

Комментарии 4

nin-jin 8 дек 2023 в 07:08

А что мешает просто разбить файл на число равных частей заведомо превышающее числу ядер (64?), параллельно вычислить хеш для каждой из них, соединить хеши и вычислить хеш для них? хеш-функция может быть любой.

mpa4b 8 дек 2023 в 09:26

Придумать, как считать хеш деревом в много потоков особого ума не надо (у некоторых при этом ещё и неограниченная память получается, O(log n)). А вот придумать криптостойкий и при этом реально быстрый (скажем, быстрее чем MD5) однопоточный хеш -- надо постараться. Насколько я знаю, если не считать расширение команд типа SHA-NI, быстрее MD5 в 1 поток, так ничего и не придумали, притом что у MD5 бооольшие проблемы с collision resistance (которой у него нет).

Есть ли в этом направлении какие-то разработки, интересно?

GAG 8 дек 2023 в 21:24

Если рассматривать реальную производительность на современном железе, а не исключительно однопоточные варианты, то стоит посмотреть в сторону семейства BLAKE, например, BLAKE3.

mpa4b 9 дек 2023 в 14:42

Я об этом и говорю -- что народ придумывает методы многопоточно считать хеш, и потом хвастается скоростями в статьях. Хотя для реальной жизни, например если хеши считаются в оверкомиченных виртуалках с полутора ядрами, эти многопоточные хеши никак не дадут профита. Отсюда и мой вопрос.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий