데이터 종속 청킹 및 중복 제거를 통해 백업 효율성 최적화

중복 제거를 통한 백업 효율성 최적화

비효율적인 데이터 백업 및 저장으로 인해 조직의 리소스가 얼마나 낭비되고 있는지 생각해 본 적이 있습니까? 최근 연구: IDC StorageSphere 예측 2023-2028 International Data Corporation은 글로벌 데이터스피어가 181 제타 바이트 2025년까지 64의 % 증가 데이터가 기하급수적으로 증가함에 따라 기존 백업 방법은 더 이상 지속 가능하지 않습니다. 따라서 백업 효율성 및 복원 프로세스 최적화를 중심으로 구축된 백업 솔루션을 찾는 것이 중요합니다.

이 기사에서는 백업 효율성을 최적화하기 위한 획기적인 기술인 데이터 종속 청크 및 중복 제거에 대해 살펴보겠습니다.

하지만 먼저 ...

백업 효율성을 최적화하기 위한 기존 백업 방법의 문제점은 무엇입니까?

기존 백업 방법에는 초기 전체 백업을 수행한 후 후속 변경 사항을 캡처하기 위한 일련의 증분 또는 차등 백업이 포함됩니다. 이는 필요한 모든 데이터를 복원하는 기능을 제공하는 동시에 해당 파일의 여러 복사본도 저장합니다. 변하지 않은 특정 파일의 일부. 각 파일 시스템이나 백업 세트에 동일한 파일의 여러 인스턴스가 있는 경우 비효율성은 더욱 커집니다.

중복 제거 및 데이터 종속 청킹: 분석

DDC(데이터 종속 청크) 및 중복 제거는 보다 지능적인 접근 방식을 취합니다. 이 방법에는 실제 파일 콘텐츠를 기반으로 데이터를 더 작고 가변 크기의 청크로 나누는 작업이 포함됩니다. 이 방법을 사용하면 백업 및 복원 작업 중에 수정되거나 고유한 데이터 청크만 처리됩니다.

그림: 중복 제거를 통한 백업 효율성 최적화

중복 제거 및 데이터 종속 청킹 작동 방식 - 배낭여행 비유

친구들과 배낭여행을 계획하고 있다고 상상해 보세요. 텐트와 기둥, 하이킹 스틱, 음식, 물, 신발 등 모든 장비를 각자 배치합니다.

이제 배낭여행을 해본 사람이라면 누구나 체중 감량이 필수적이라는 것을 알고 있을 것입니다. 그렇다면 친구 중 한 명이 보스턴 구운 콩 25캔을 가지고 나타나면 어떻게 하시겠습니까?

중복 제거를 시작합니다.

연필과 종이를 꺼내고 목록 작성을 시작합니다. 각각의 새 항목에 대해 배낭에 추가하기 전에 그것이 무엇인지(예: 콩 또는 텐트 폴 부분) 및 해당 상위 항목(예: 콩 캔 또는 텐트 폴)을 기록합니다. 동일한 항목을 발견하면 원본 메모 옆에 집계를 작성하고 복사본을 따로 보관하면 됩니다.

이 프로세스가 끝나면 인벤토리는 다음과 같이 보일 수 있습니다.

배낭에(1개)부분의…중복 수
텐트 폴 세그먼트천막 장대10
콩 통조림10,000
콩용 알루미늄 캔콩 통조림25
텐트 쉘텐트1
물방울물 주전자1,000,000
다운 깃털침낭1,000,000

이 방법은 운반하는 무게를 크게 줄여줍니다. 모든 항목과 중복 항목보다 목록과 함께 항목을 운반하는 것이 훨씬 쉽게 운반하고 보관할 수 있습니다. 중복 제거의 본질을 보여줍니다. 하지만 이것이 데이터 백업과 어떤 관련이 있습니까?

비유를 데이터 백업으로 번역

데이터 관리 측면에서 배낭에 있는 항목은 고유한 데이터 덩어리를 나타내는 반면, 따로 보관된 중복 항목은 스토리지 시스템의 중복 데이터와 같습니다. 하이킹을 할 때 동일한 콩 캔을 여러 개 가지고 다니지 않는 것처럼, 중복 제거 기술은 파일 전체에 데이터가 몇 번 나타나더라도 각 데이터 조각의 인스턴스 하나만 저장되도록 합니다.

데이터 종속 청크는 콩 한 캔 전체를 포장할지 아니면 필요한 만큼만 포장할지 결정하는 것과 마찬가지로 콘텐츠에 따라 데이터를 가변 크기 청크로 분석하고 저장함으로써 한 단계 더 발전합니다. 이 접근 방식을 사용하면 이러한 작업 중에 고유하거나 변경된 청크만 처리되므로 더 효율적인 저장과 더 빠른 백업 및 복원 프로세스가 가능합니다.

3가지 다양한 수준의 중복 제거 백업 효율성 최적화를 위한

하지만 중복 제거를 달성할 수 있는 접근 방식에는 3가지가 있습니다. 데이터 종속 청킹이 다른 청킹보다 가장 효율적인 이유가 있습니다. 각 접근 방식을 살펴보고 장단점을 나열하여 데이터 종속 청크가 대규모 데이터세트에 가장 적합한 이유를 알아봅시다.

  1. 파일 수준 중복 제거– 이 방법은 전체 파일 기반으로 작동하며, 표시 횟수에 관계없이 각 파일의 인스턴스 하나만 식별하고 저장합니다. 캠핑 비유를 다시 생각해 보십시오. 필요한 양이나 갖고 있는 양에 관계없이 콩 한 캔만 포장하는 것과 비슷합니다.

    장점 :
  • 단순성: 구현이 간단하여 기존 시스템에 최소한의 변경만 필요합니다.
  • 중복에 대한 효율성: 동일한 파일이 많은 환경에 이상적이며 깨끗하고 중복이 제거된 저장 공간을 보장합니다.

    단점 :
  • 제한된 범위: 사소한 차이가 있는 파일로 인해 자주 업데이트되는 파일을 저장하는 데 어려움을 겪습니다.
  • 간과된 세부 정보: 파일 내에서 중복된 콘텐츠를 식별할 수 없으므로 중복된 데이터가 그대로 유지될 수 있습니다.
  1. 고정 블록 중복 제거– 이 방법은 고정된 블록 크기를 기준으로 파일의 중복을 제거합니다. 이 블록 크기는 소프트웨어에 따라 구성 가능하거나 하드 코딩될 수 있으며 파일 내 및 파일 간에 데이터 블록을 중복 제거할 수 있습니다.

    장점 :
  • 세분성: 파일 내 및 파일 전체에서 중복 블록을 식별할 수 있는 파일 수준 중복 제거보다 더 자세한 접근 방식을 제공합니다.
  • 향상된 효율성: 일반적으로 더 작고 고정된 크기의 데이터에 집중하여 더 나은 중복 제거 비율을 달성합니다.

    단점 :
  • 견고한 구조: 블록의 고정된 크기는 효율성을 제한할 수 있습니다. 블록 경계와 완벽하게 일치하지 않는 중복은 누락될 수 있기 때문입니다.
  • 복잡성: 최적의 블록 크기를 구성하고 유지하려면 효율성을 극대화하기 위한 섬세한 균형이 필요합니다.
  1. 가변 블록 or 데이터 종속 중복 제거 – 이것이 우리가 그동안 논의해온 방식이다. 데이터 자체를 기반으로 청크 크기를 동적으로 조정하여 파일 내의 크기나 위치에 관계없이 각 데이터 조각이 한 번만 저장되도록 합니다.

    장점 :
  • 최적의 효율성: 데이터에 맞게 청크 크기를 조정하여 스토리지 및 네트워크 효율성을 극대화하여 중복 제거의 표준이 됩니다.
  • 리소스 최적화: 저장 공간과 대역폭의 필요성을 줄여 전체 시스템 성능을 최적화합니다.

    단점 :
  • 정교한 접근 방식에는 고급 설정 및 관리가 필요하므로 더 간단한 방법으로도 충분할 수 있는 시나리오가 지나치게 복잡해질 수 있습니다.

따라서 광범위한 데이터 세트를 처리하는 경우 데이터 종속 청크의 유연성과 효율성은 비교할 수 없습니다. 파일 수준 및 고정 블록 중복 제거는 특히 특정 상황에서 장점이 있지만, 가변 블록 중복 제거의 적응형 특성은 대규모 데이터 환경의 복잡성 및 역동성과 완벽하게 조화를 이룹니다. 단지 공간을 절약하는 것만이 아닙니다. 이는 신속한 액세스, 복구 및 확장성을 지원하기 위해 데이터를 지능적으로 관리하는 것입니다.

백업 효율성 최적화를 위한 DDC(데이터 종속 청킹) 및 중복 제거의 7가지 이점

하이킹 중에 60파운드 배낭을 들고 다니고 싶지 않다는 비유는 관련성이 있지만 데이터 의존적 청킹 및 중복 제거 개념은 이러한 아이디어를 디지털 공간으로 가져옵니다.

이러한 기술이 데이터 백업 및 스토리지를 변화시키는 방법은 다음과 같습니다.

  1. 효율적인 스토리지 활용: DDC 및 중복 제거는 중복 데이터를 제거하여 고유하거나 변경된 데이터 청크만 저장되도록 하는 데 중점을 둡니다. 이 접근 방식을 사용하면 스토리지 요구 사항이 크게 줄어들어 스토리지 리소스를 더욱 경제적이고 효율적으로 사용할 수 있습니다.
  2. 더 빠른 데이터 처리: 백업을 위해 각 고유 청크의 복사본 하나만 압축 및 암호화하고 복원을 위해 암호 해독 및 압축 해제하면 됩니다. 이를 통해 이러한 작업을 수행하는 데 필요한 시간과 리소스가 크게 줄어듭니다.
  3. 최적화된 네트워크 성능: 백업 및 복원 작업 중에는 고유한 데이터 청크만 소스와 스토리지 위치 간에 전송됩니다. 즉, 특정 작업에 대해 없거나 변경된 데이터만 이동하여 데이터 전송 효율성을 높이고 네트워크 부하를 크게 줄입니다.
  4. 향상된 확장성: 데이터 중복성을 줄이면 공간이 절약될 뿐만 아니라 더 큰 확장성을 지원합니다. 조직에서는 데이터 크기가 최대 30% 이상 감소했다고 보고하는 경우가 많습니다. 이는 동일한 양의 저장 공간에 훨씬 더 많은 데이터를 저장할 수 있음을 의미합니다.
  5. 스토리지 비용 절감: 우리가 반복하는 것처럼 들릴 수도 있는데, 그것은 우리가 그렇기 때문입니다. 그러나 스토리지는 비용이 많이 들고, 저장해야 하는 데이터 양을 줄이면 스토리지 비용만 해도 매년 수천 달러, 심지어 수만 달러를 절약할 수 있다는 점을 다시 한 번 강조할 가치가 있습니다.
  6. 생산 시스템에 미치는 영향 최소화: 기존 백업 프로세스는 때때로 프로덕션 시스템에 과도한 로드를 가해 성능 문제를 일으킬 수 있습니다. 데이터 종속 청크는 특히 필수 데이터 청크만을 대상으로 하여 이러한 영향을 최소화합니다. 이를 통해 프로덕션 시스템의 일상적인 운영에 과도한 영향을 주지 않고 백업 프로세스가 원활하게 실행됩니다.
  7. 향상된 RTO(복구 시간 목표): 데이터 종속 청크는 백업 및 복원 프로세스를 가속화할 뿐만 아니라 데이터 검색 속도도 향상시킵니다. 특정 데이터에 액세스해야 하는 경우 선택적 처리 접근 방식을 통해 검색 속도를 높이고 중요한 상황에서 전체 가동 중지 시간을 줄일 수 있습니다.

Zmanda로 백업 효율성 최적화를 위한 데이터 종속 청킹 및 중복 제거

즈 만다 대기업에 안정적이고 효율적인 백업 및 복구를 제공해 온 실적을 보유하고 있습니다. 최신 버전 – Zmanda 프로 강력하고 효율적인 중복 제거 기술과 빠르고 에어갭이 있는 불변 백업으로 잘 알려져 있습니다.

체크 아웃 우리 호환성 매트릭스 Zmanda Pro Backup 솔루션이 기존 환경에서 얼마나 잘 구현될 수 있는지 이해하거나 14일 무료 평가판을 받아보세요 제품을 직접 경험해 보세요.


더 많은 주제 탐색