meliksetyan 12 июн 2024 в 21:47

Как хэширование поможет вам оптимизировать хранение данных?

Средний

3 мин

6.1K

Python*Серверная оптимизация*Хранение данных*

Мнение

Recovery Mode

-17

Комментарии 17

Ukrainskiy 12 июн 2024 в 22:52

И так в очередной раз мы можем убедиться, что писать статьи при помощи ChatGPT плохая идея.

aamonster 13 июн 2024 в 00:15

Вы можете отличить ChatGPT от копирайтера?

Wesha 13 июн 2024 в 01:42

Да, отличить ChatGPT от просто начитавшегося дурака достаточно непросто.

alexdora 13 июн 2024 в 04:52

У меня один вопрос к ребятам кто юзает чатгпт для технических статей. Почему еще никто не додумался после описания задачи добавлять в конце «напиши мне в стиле тарантино или типа того». Было бы интересно почитать техничку в таком формате ;)

Wesha 13 июн 2024 в 06:24

Вот когда оно научися писать статьи слогом @Milfgard...

OverThink 13 июн 2024 в 00:40

Лучше по имени файла/размер сверю, чем буду пол дня хэш вычислять

David_Osipov 13 июн 2024 в 07:50

xxHash, ну или крипто-хэш BLAKE3 ужасно быстрые.

Maksim_Fokin 13 июн 2024 в 01:02

Исключение дубликатов
Хеширование позволяет легко определить, являются ли два файла одинаковыми. Если два файла имеют один и тот же хеш, они идентичны. Это помогает избежать хранения дубликатов и экономить пространство.

Есть такое понятие, как коллизия хэш-функций, в связи с которым утверждение про "исключение дубликатов" является ложным.

meliksetyan 13 июн 2024 в 09:19

Да, это справедливое замечание, я тоже об этом думал. Мы можем легко это законтрить сравнивая метаданные файлов: например, размер. Либо можно делать 2 хеша двумя разными алгоритмами.

pfffffffffffff 13 июн 2024 в 20:35

Это не спасет от коллизий

JajaComp 13 июн 2024 в 21:01

Перекрёстный хеш может и спасет, но будет дольше вычисляться. Как минимум этого будет достаточно что бы пользователь смог принять решение

select26 14 июн 2024 в 15:15

Никакой хэш размерностью меньше хэшируемого объекта не спасет. Сведет к минимуму вероятность коллизии - да. Но не исключит её.

Ukrainskiy 14 июн 2024 в 15:36

Если не ошибаюсь, полное сопоставление содержимого файлов после срабатывания всех проверок в стратегии дедупликации никто не делает, что на практике оставляет бесконечно малую вероятность того, что после загрузки ваш файл превратится в другой, чужой файл.

select26 14 июн 2024 в 15:42

Я именно это и написал.
Более того, большинство решений на рынке - это дедупликация на уровне блочных устройств, а не файлов. По причине того, что размер блока сильно меньше размера среднего файла, то вероятность коллизии так же значительно уменьшается.
Если не ошибаюсь, только Windows Servers предлагает дедуп на уровне файлов. И как они решают с коллизиями я не знаю.
Нужно очень хорошо понимать профиль своих данных перед принятием решения о применении дедупликации

ivankudryavtsev 13 июн 2024 в 16:05

Просто меняем хранение на дисках на вычисления и хранение в памяти. Дедупликацией в Zfs не сказать что много людей пользуется:

And from the ZFS manual page zfsconcepts ; It is generally recommended that you have at least 1.25 GiB of RAM per 1 TiB of storage when you enable deduplication. Calculating the exact requirement depends heavily on the type of data stored in the pool.

select26 14 июн 2024 в 15:21

Немеряно просто людей пользуются дедупликацией. Просто не все про это знают.
Например, все пользователи сервисов Google, AWS S3 или NUTANIX - эти сервисы все используют блочную дедупликацию. Как и ZFS. У меня, кстати, положительный опыт использования. На инкрементальных бэкапах - просто колоссальный выигрыш.
Но, согласен, применять нужно с умом, ибо недешевое удовольствие.

Crystal_Development 13 июн 2024 в 16:08

Чел вот совет: Попроси ChatGPT сделать так чтобы он очеловечел текст. Попроси добавить " Ну, типо, короче" потом вырезай то что не нужно и получается статья которая была написана ИИ но не кто не догадается что это писал ИИ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий