Optymalizacja wydajności tworzenia kopii zapasowych dzięki fragmentowaniu danych i deduplikacji

Optymalizacja wydajności tworzenia kopii zapasowych dzięki deduplikacji

Czy zastanawiałeś się kiedyś, ile zasobów Twojej organizacji marnuje się na nieefektywne tworzenie kopii zapasowych i przechowywanie danych? Ostatnie badania: Prognoza IDC StorageSphere na lata 2023-2028 przez International Data Corporation stwierdziło, że globalna sfera danych ma osiągnąć zasięg Zettabajty 181 do 2025 r., wskazując: a % Wzrost 64 od 2018 r. W miarę wykładniczego wzrostu ilości danych tradycyjne metody tworzenia kopii zapasowych nie są już trwałe. Dlatego warto szukać rozwiązań do tworzenia kopii zapasowych, które opierają się na optymalizacji wydajności tworzenia kopii zapasowych i procesów przywracania.

W tym artykule przyjrzymy się fragmentowaniu i deduplikacji zależnej od danych — rewolucyjnej technice optymalizacji wydajności tworzenia kopii zapasowych.

Ale najpierw…

Co jest złego w tradycyjnych metodach tworzenia kopii zapasowych w celu optymalizacji wydajności tworzenia kopii zapasowych?

Tradycyjne metody tworzenia kopii zapasowych obejmują wykonanie początkowej pełnej kopii zapasowej, a następnie wykonanie serii przyrostowych lub różnicowych kopii zapasowych w celu uchwycenia kolejnych zmian. Chociaż zapewnia to możliwość przywrócenia wszystkich niezbędnych danych, przechowuje również kilka kopii pliku bez zmian fragmenty określonych plików. Nieefektywność mnoży się, gdy w każdym systemie plików lub nawet w zestawie kopii zapasowych znajduje się kilka wystąpień tego samego pliku.

Deduplikacja i dzielenie danych zależne od danych: jak to omówić

Porcjowanie zależne od danych (DDC) i deduplikacja wymagają bardziej inteligentnego podejścia. Ta metoda polega na dzieleniu danych na mniejsze fragmenty o różnej wielkości w oparciu o rzeczywistą zawartość pliku. Ta metoda zapewnia, że ​​podczas operacji tworzenia kopii zapasowych i przywracania przetwarzane są tylko zmodyfikowane lub unikalne fragmenty danych.

Rys.: Optymalizacja wydajności tworzenia kopii zapasowych za pomocą deduplikacji

Jak działa deduplikacja i fragmentacja zależna od danych – analogia z plecakiem

Wyobraź sobie, że planujesz wyprawę z plecakiem ze znajomymi. Każdy z Was rozłożył cały swój sprzęt – namiot i kijki, kijki turystyczne, jedzenie, wodę, buty itp.

Każdy, kto kiedykolwiek podróżował z plecakiem, wie, że redukcja masy ciała jest niezbędna. Co więc zrobisz, gdy jeden z Twoich znajomych pojawi się z 25 puszkami bostońskiej fasolki po bretońsku?

Rozpocznij deduplikację.

Wyciągasz ołówek i papier i zaczynasz inwentaryzować. W przypadku każdego nowego przedmiotu zanotuj, co to jest (np. fasola lub segment masztu od namiotu) i jego przedmiot nadrzędny (np. puszka fasoli lub maszt od namiotu), zanim dodasz go do plecaka. Kiedy natkniesz się na identyczny przedmiot, po prostu podlicz obok oryginalnej notatki i odłóż duplikat na bok.

Po tym procesie Twój ekwipunek może wyglądać mniej więcej tak:

W plecaku (1 szt.)Część…Liczba duplikatów
Segment masztu namiotowegoPole namiotowe10
FasolaPuszka fasoli10,000
Aluminiowa puszka na fasolęPuszka fasoli25
Namiot ShellNamiot1
Kropla wodyDzbanek wody1,000,000
Puchowe pióroŚpiwór1,000,000

Metoda ta znacznie zmniejsza ciężar, który niesiesz – przenoszenie przedmiotów wraz z listą jest znacznie łatwiejsze w transporcie i przechowywaniu niż wszystkie przedmioty i ich duplikaty. ilustrujące istotę deduplikacji. Ale jak to się ma do tworzenia kopii zapasowych danych?

Tłumaczenie analogii na kopię zapasową danych

W kontekście zarządzania danymi pozycje w plecaku reprezentują unikalne fragmenty danych, podczas gdy odłożone na bok duplikaty są jak zbędne dane w systemie przechowywania. Tak jak nie zabrałbyś ze sobą na wycieczkę kilku identycznych puszek, tak technologia deduplikacji zapewnia, że ​​przechowywana jest tylko jedna instancja każdego fragmentu danych, niezależnie od tego, ile razy pojawia się on w plikach.

Porcjowanie zależne od danych idzie o krok dalej, analizując i przechowując dane w porcjach o różnej wielkości w zależności od ich zawartości, podobnie jak przy podejmowaniu decyzji, czy zapakować całą puszkę fasoli, czy tylko tyle, ile potrzebujesz. Takie podejście pozwala na wydajniejsze przechowywanie oraz szybsze procesy tworzenia kopii zapasowych i przywracania, ponieważ podczas tych operacji obsługiwane są tylko unikalne lub zmienione fragmenty.

3 różne poziomy deduplikacji w celu optymalizacji wydajności tworzenia kopii zapasowych

Chociaż istnieją trzy różne podejścia do deduplikacji, istnieje powód, dla którego fragmentacja zależna od danych jest najskuteczniejsza w porównaniu z innymi. Przejdźmy do każdego podejścia i wypiszmy ich zalety i wady, aby dowiedzieć się, dlaczego fragmentacja zależna od danych sprawdza się najlepiej w przypadku dużych zbiorów danych.

  1. Deduplikacja na poziomie plików– Ta metoda działa na podstawie całego pliku, identyfikując i przechowując tylko jedno wystąpienie każdego pliku, niezależnie od tego, ile razy się ono pojawiło. Przypomnij sobie naszą analogię z kempingiem: przypomina to pakowanie tylko jednej puszki fasoli, niezależnie od tego, ile możesz potrzebować lub mieć.

    Plusy:
  • Prostota: jest łatwa do wdrożenia i wymaga minimalnych zmian w istniejących systemach.
  • Skuteczność w przypadku duplikatów: Idealny dla środowisk z wieloma identycznymi plikami, zapewniający czystą, pozbawioną duplikatów przestrzeń dyskową.

    Wady:
  • Ograniczony zakres: Problem z plikami, które mają niewielkie różnice, co prowadzi do nieefektywności przechowywania często aktualizowanych plików.
  • Przeoczone szczegóły: nie można zidentyfikować zduplikowanej zawartości w pliku, co może spowodować pozostawienie zbędnych danych nietkniętych.
  1. Naprawiono deduplikację bloków– Ta metoda deduplikuje pliki w oparciu o stały rozmiar bloku. Ten rozmiar bloku może być konfigurowalny lub zakodowany na stałe, w zależności od oprogramowania i może deduplikować bloki danych w obrębie plików i pomiędzy nimi

    Plusy:
  • Szczegółowość: oferuje bardziej szczegółowe podejście niż deduplikacja na poziomie pliku, umożliwiając identyfikację zduplikowanych bloków w plikach i pomiędzy nimi.
  • Większa wydajność: ogólnie osiąga lepsze współczynniki deduplikacji, koncentrując się na mniejszych fragmentach danych o stałym rozmiarze.

    Wady:
  • Sztywna struktura: Stały rozmiar bloków może ograniczać skuteczność, ponieważ duplikaty, które nie są idealnie dopasowane do granic bloków, mogą zostać pominięte.
  • Złożoność: konfiguracja i utrzymanie optymalnego rozmiaru bloku wymaga delikatnej równowagi, aby zmaksymalizować wydajność.
  1. Blok zmienny or Deduplikacja zależna od danych – To jest metoda, o której cały czas dyskutowaliśmy. Dynamicznie dostosowuje rozmiar porcji na podstawie samych danych, zapewniając, że każdy fragment danych jest przechowywany tylko raz, niezależnie od jego rozmiaru i lokalizacji w pliku.

    Plusy:
  • Optymalna wydajność: dostosowując rozmiary porcji do danych, maksymalizuje wydajność pamięci masowej i sieci, co czyni go złotym standardem w deduplikacji.
  • Optymalizacja zasobów: zmniejsza zapotrzebowanie na przestrzeń dyskową i przepustowość, optymalizując ogólną wydajność systemu.

    con:
  • Jego wyrafinowane podejście wymaga bardziej zaawansowanej konfiguracji i zarządzania, co może powodować nadmierne komplikacje w scenariuszach, w których wystarczą prostsze metody.

Jeśli więc obsługujesz rozległe zbiory danych, elastyczność i wydajność fragmentacji zależnej od danych nie mają sobie równych. Chociaż deduplikacja na poziomie plików i deduplikacja bloków stałych ma swoje zalety, szczególnie w określonych kontekstach, adaptacyjny charakter deduplikacji bloków zmiennych płynnie dopasowuje się do złożoności i dynamiki środowisk danych na dużą skalę. Nie chodzi tylko o oszczędność miejsca; chodzi o inteligentne zarządzanie danymi w celu zapewnienia szybkiego dostępu, odzyskiwania i skalowalności.

7 zalet fragmentowania danych (DDC) i deduplikacji w celu optymalizacji wydajności tworzenia kopii zapasowych

Choć analogia polegająca na tym, że nie chcemy nosić ze sobą 60-funtowego plecaka na wędrówkę, jest trafna, koncepcja dzielenia i deduplikacji w zależności od danych przenosi tę koncepcję do przestrzeni cyfrowej.

Oto, jak te techniki zmieniają tworzenie kopii zapasowych i przechowywanie danych:

  1. Efektywne wykorzystanie pamięci: DDC i dedupe koncentrują się na eliminacji zbędnych danych, zapewniając, że przechowywane są tylko unikalne lub zmienione fragmenty danych. Takie podejście znacznie zmniejsza potrzeby magazynowania, dzięki czemu wykorzystanie zasobów magazynowych jest zarówno bardziej ekonomiczne, jak i wydajne.
  2. Szybsze przetwarzanie danych: Tylko jedna kopia każdego unikalnego fragmentu musi zostać skompresowana i zaszyfrowana w przypadku kopii zapasowych oraz odszyfrowana i zdekompresowana w celu przywrócenia. To drastycznie skraca czas i zasoby potrzebne do wykonania tych operacji.
  3. Zoptymalizowana wydajność sieci: Podczas operacji tworzenia kopii zapasowych i przywracania między źródłem a lokalizacją magazynu przesyłane są tylko unikalne fragmenty danych. Oznacza to, że dla danej operacji przenoszone są tylko te dane, których brakuje lub które uległy zmianie, co zwiększa efektywność transmisji danych i znacząco zmniejsza obciążenie sieci.
  4. Zwiększona skalowalność: Zmniejszenie nadmiarowości danych nie tylko oszczędza miejsce, ale także wspiera większą skalowalność. Organizacje często zgłaszają zmniejszenie rozmiaru danych nawet o 30% lub więcej, co przekłada się na możliwość przechowywania znacznie większej ilości danych na tej samej ilości miejsca.
  5. Zmniejszone koszty przechowywania: Może się wydawać, że się powtarzamy, i to dlatego, że tak jest. Warto jednak jeszcze raz powiedzieć, że pamięć masowa jest droga, a zmniejszenie ilości danych, które należy przechowywać, może pomóc zaoszczędzić tysiące, a nawet dziesiątki tysięcy dolarów rocznie na samych wydatkach na pamięć masową.
  6. Zminimalizowany wpływ na systemy produkcyjne: Tradycyjne procesy tworzenia kopii zapasowych mogą czasami powodować duże obciążenie systemów produkcyjnych, co prowadzi do problemów z wydajnością. Porcjowanie zależne od danych minimalizuje ten wpływ, skupiając się wyłącznie na najważniejszych fragmentach danych. Dzięki temu procesy tworzenia kopii zapasowych przebiegają sprawnie i nie wpływają nadmiernie na codzienne funkcjonowanie systemów produkcyjnych.
  7. Ulepszony RTO (cel czasu odzyskiwania): Porcjowanie zależne od danych nie tylko przyspiesza procesy tworzenia kopii zapasowych i przywracania, ale także zwiększa prędkość odzyskiwania danych. Gdy zajdzie potrzeba dostępu do konkretnych danych, podejście do selektywnego przetwarzania pozwala na szybsze ich odzyskanie, skracając całkowity czas przestojów w sytuacjach krytycznych.

Porcjowanie i deduplikacja zależne od danych w celu optymalizacji wydajności tworzenia kopii zapasowych za pomocą Zmanda

Żmanda ma doświadczenie w dostarczaniu niezawodnych i wydajnych kopii zapasowych i odzyskiwania danych dla dużych przedsiębiorstw. Nasza najnowsza wersja – Zmanda Pro jest znana z solidnej i wydajnej technologii deduplikacji oraz szybkich, niezmiennych kopii zapasowych z przerwami powietrznymi.

Sprawdź nasze macierz zgodności aby zrozumieć, jak dobrze rozwiązanie Zmanda Pro Backup można wdrożyć w istniejącym środowisku, lub skorzystaj z 14-dniowego bezpłatnego okresu próbnego aby doświadczyć produktu na własnej skórze.


Przeglądaj więcej tematów