Как стать автором
Обновить

Что за файл?

Время на прочтение1 мин
Количество просмотров11K
Бывает такая ситуация, когда приходят данные в непонятном виде. Если не та кодировка, это решается достаточно просто, а если неизвестные бинарные данные? Экзотический архиватор, шифрованные данные, хеш или вообще мусор?

Думаю, далеко не у всех, кто с этим сталкивается, хватает своих знаний и средств чтобы разобраться.

Отсюда вопрос / идея / предложение.

Мог бы существовать сервис, который позволял бы закачать или дать ссылку на файл и определять что это или хотя бы на что похоже.

На поверхностном уровне можно читать заголовки, применять декодеры, медиа-кодеки и предлагать версии.

На более глубоком можно рассматривать простые шифры, анализировать энтропию последовательности, частоты различных символов, проводить проверки версий (например, такой анализатор мог бы сказать, что данные — эстонский текст, ошибочно открытый как кириллица-1251 и сохраненный в koi8) или предположить что это архив rar с отрезанным заголовком.

Ну и далее фантазия безгранична, только мозги и ресурсы.

Натолкнула на мысль ситуация, когда я жду jpeg, закодированный base64, а получаю странные, но явно осмысленные данные (описание и сами файлы для интересующихся).

Есть такой сервис? Если нет, как вы оцениваете перспективы его создания?
Теги:
Хабы:
Всего голосов 44: ↑32 и ↓12+20
Комментарии35

Публикации

Истории

Ближайшие события