You are here

Na czym polegają trzy fundamentalne poziomy deduplikacji plików?

on Nov 15, 2018
Proces deduplikacji plików informatycznych, to eliminowanie powtarzających się danych i może odbywać się na trzech najważniejszych poziomach: bajtów, bloków oraz plików. Każdy z wymienionych poziomów określa inny typ fragmentu danych.


Są one następnie przy pomocy systemu sprawdzane na wypadek występowania duplikacji. Do tworzenia unikatowych identyfikatorów służy wzorzec funkcji skrótu. Tyczy się to jakiejkolwiek poddanej analizie części danych. Wymienione identyfikatory składowane są w indeksie, a potem stosowane są podczas procesu deduplikacji. Naturalnie duplikujące się fragmenty mają identyczne identyfikatory funkcji skrótu. Teoretycznie im dokładniejsza jest analiza, to tym lepszy jest parametr deduplikacji. W rzeczywistości jednak wszystkie wspomniane etapy zawsze mają swe wady i zalety. Dla przykładu deduplikacja na szczeblu plików okazuje się być w każdym przypadku najbardziej prosta do wdrożenia.




PIT


efekty


Co istotne, taka forma deduplikacji nie jest zbyt obciążająca dla serwera, gdyż wygenerowanie funkcji skrótu jest stosunkowo szybkie.

Jeżeli zaciekawiły Cię informacje podane na naszej witrynie, to z pewnością zajmą Cię również dalsze wiadomości, które znajdują się w linku pod spodem.

Niestety wadą tego typu operacji jest to, że jeżeli jakiś plik zostanie w dowolny sposób zmodyfikowany, to przekształca się też identyfikator funkcji skrótu. W wyniku obie wersje plików zostaną na serwerze zamieszczone. Deduplikacja na poziomie bloków polega oczywiście na porównywaniu bloków danych. Może wymagać ona większej mocy obliczeniowej. Analogicznej mocy wymaga deduplikacja na poziomie bajtów. Jest to w pewnej mierze najbardziej podstawowy sposób na porównywanie danych.


Wykonuje się to, jak jego nazwa sugeruje, bajt po bajcie. Przeprowadzana w taki sposób analiza jest naturalnie niezwykle dokładna. Jakimś mankamentem może okazać się czas przeprowadzania takiego rodzaju deduplikacji.