Как стать автором
Обновить

Комментарии 17

И так в очередной раз мы можем убедиться, что писать статьи при помощи ChatGPT плохая идея.

Вы можете отличить ChatGPT от копирайтера?

Да, отличить ChatGPT от просто начитавшегося дурака достаточно непросто.

У меня один вопрос к ребятам кто юзает чатгпт для технических статей. Почему еще никто не додумался после описания задачи добавлять в конце «напиши мне в стиле тарантино или типа того». Было бы интересно почитать техничку в таком формате ;)

Вот когда оно научися писать статьи слогом @Milfgard...

Лучше по имени файла/размер сверю, чем буду пол дня хэш вычислять

xxHash, ну или крипто-хэш BLAKE3 ужасно быстрые.

Исключение дубликатов
Хеширование позволяет легко определить, являются ли два файла одинаковыми. Если два файла имеют один и тот же хеш, они идентичны. Это помогает избежать хранения дубликатов и экономить пространство.

Есть такое понятие, как коллизия хэш-функций, в связи с которым утверждение про "исключение дубликатов" является ложным.

Да, это справедливое замечание, я тоже об этом думал. Мы можем легко это законтрить сравнивая метаданные файлов: например, размер. Либо можно делать 2 хеша двумя разными алгоритмами.

Это не спасет от коллизий

Перекрёстный хеш может и спасет, но будет дольше вычисляться. Как минимум этого будет достаточно что бы пользователь смог принять решение

Никакой хэш размерностью меньше хэшируемого объекта не спасет. Сведет к минимуму вероятность коллизии - да. Но не исключит её.

Если не ошибаюсь, полное сопоставление содержимого файлов после срабатывания всех проверок в стратегии дедупликации никто не делает, что на практике оставляет бесконечно малую вероятность того, что после загрузки ваш файл превратится в другой, чужой файл.

Я именно это и написал.
Более того, большинство решений на рынке - это дедупликация на уровне блочных устройств, а не файлов. По причине того, что размер блока сильно меньше размера среднего файла, то вероятность коллизии так же значительно уменьшается.
Если не ошибаюсь, только Windows Servers предлагает дедуп на уровне файлов. И как они решают с коллизиями я не знаю.
Нужно очень хорошо понимать профиль своих данных перед принятием решения о применении дедупликации

Просто меняем хранение на дисках на вычисления и хранение в памяти. Дедупликацией в Zfs не сказать что много людей пользуется:

And from the ZFS manual page zfsconcepts ; It is generally recommended that you have at least 1.25 GiB of RAM per 1 TiB of storage when you enable deduplication. Calculating the exact requirement depends heavily on the type of data stored in the pool.

Немеряно просто людей пользуются дедупликацией. Просто не все про это знают.
Например, все пользователи сервисов Google, AWS S3 или NUTANIX - эти сервисы все используют блочную дедупликацию. Как и ZFS. У меня, кстати, положительный опыт использования. На инкрементальных бэкапах - просто колоссальный выигрыш.
Но, согласен, применять нужно с умом, ибо недешевое удовольствие.

Чел вот совет: Попроси ChatGPT сделать так чтобы он очеловечел текст. Попроси добавить " Ну, типо, короче" потом вырезай то что не нужно и получается статья которая была написана ИИ но не кто не догадается что это писал ИИ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории