データに依存したチャンキングと重複排除によるバックアップ効率の最適化

重複排除によるバックアップ効率の最適化

組織のリソースのどれだけが非効率的なデータのバックアップやストレージに浪費されているかを考えたことがありますか?最近の研究: IDC StorageSphere の 2023 ~ 2028 年の予測 International Data Corporation によると、世界のデータ圏は次のような規模に達すると予測されています。 181ゼタバイト 2025 年までに、 64%の増加 データが急激に増加するにつれ、従来のバックアップ方法はもはや持続可能ではなくなりました。したがって、バックアップ効率と復元プロセスの最適化を中心に構築されたバックアップ ソリューションを検討する必要があります。

この記事では、バックアップ効率を最適化する革新的な手法である、データ依存のチャンキングと重複排除について説明します。

でもまず…

バックアップ効率を最適化するための従来のバックアップ方法の何が問題なのでしょうか?

従来のバックアップ方法では、最初に完全バックアップを作成し、その後、その後の変更をキャプチャするために一連の増分バックアップまたは差分バックアップを実行します。これにより、必要なすべてのデータを復元する機能が提供されますが、ファイルのコピーもいくつか保存されます。 変わらない 特定のファイルの一部。各ファイルシステムまたはバックアップセットに同じファイルのインスタンスが複数ある場合、非効率はさらに増大します。

重複排除とデータ依存のチャンク化: 細分化

データ依存チャンク (DDC) と重複排除には、よりインテリジェントなアプローチが採用されています。この方法では、実際のファイルの内容に基づいて、データをより小さな可変サイズのチャンクに分割します。この方法により、バックアップおよび復元操作中に、変更されたデータ チャンクまたは一意のデータ チャンクのみが処理されることが保証されます。

図: 重複排除によるバックアップ効率の最適化

重複排除とデータ依存チャンキングの仕組み - バックパッキングのたとえ

友達とバックパッキング旅行を計画していると想像してください。テントやポール、登山用のステッキ、食料、水、靴など、すべての装備を各自で並べます。

さて、バックパッキングをしたことがある人なら誰でも、軽量化が不可欠であることを知っています。では、友達の一人がボストン ベイクド ビーンズの缶を 25 個持って現れたら、あなたはどうしますか?

重複排除を開始します。

あなたは鉛筆と紙を取り出して棚卸しを始めます。新しいアイテムごとに、バックパックに追加する前に、それが何であるか (豆、テント ポールのセグメントなど) とその親アイテム (豆の缶やテント ポールなど) をメモします。同一のアイテムを見つけた場合は、元のメモの隣に集計を作成し、重複したメモを脇に置いておきます。

このプロセスの後、インベントリは次のようになります。

バックパックの中に (数量 1)一部の…重複の数
テントポールセグメントテントポール10
ビーン豆の缶詰10,000
豆用アルミ缶豆の缶詰25
テントシェルテント1
水滴水差し1,000,000
羽毛寝袋1,000,000

この方法では、運ぶ重量が大幅に軽減されます。すべてのアイテムとその複製をすべて運ぶよりも、リストと一緒にアイテムを運ぶ方がはるかに簡単に輸送および保管できます。重複排除の本質を説明します。しかし、これはデータのバックアップとどのように関係するのでしょうか?

アナロジーをデータバックアップに置き換える

データ管理の観点から見ると、バックパック内のアイテムは固有のデータの塊を表し、保管されている重複はストレージ システム内の冗長データのようなものです。ハイキングに複数の同一の豆の缶を持ち歩かないのと同じように、重複排除テクノロジーにより、ファイル全体で何回出現しても、各データのインスタンスが 1 つだけ保存されることが保証されます。

データ依存チャンクでは、豆の缶全体を詰めるか、必要な量だけを詰めるかを決定するのと同じように、内容に基づいてデータを分析して可変サイズのチャンクに保存することで、これをさらに一歩進めます。このアプローチでは、これらの操作中に一意のチャンクまたは変更されたチャンクのみが処理されるため、より効率的なストレージとより高速なバックアップおよび復元プロセスが可能になります。

3 つの異なるレベルの重複排除 バックアップ効率を最適化するための

ただし、重複排除を実現するには 3 つの異なるアプローチがあります。データ依存のチャンキングが他のアプローチよりも最も効率的であるのには理由があります。それぞれのアプローチに飛び込んで、その長所と短所をリストアップして、データ依存のチャンキングが巨大なデータセットに最適である理由を理解しましょう。

  1. ファイルレベルの重複排除– この方法はファイル全体をベースとして動作し、出現回数に関係なく、各ファイルのインスタンスを 1 つだけ識別して保存します。キャンプのたとえを思い出してください。必要な豆の数や持っている豆の缶詰を 1 缶だけ詰めるのに似ています。

    長所:
  • シンプルさ: 実装は簡単で、既存のシステムへの変更は最小限で済みます。
  • 重複に対する効果: 同一のファイルが多数ある環境に最適で、クリーンで重複排除されたストレージ スペースを確保します。

    短所:
  • 限定された範囲: わずかな違いがあるファイルに問題があり、頻繁に更新されるファイルのストレージ効率が低下します。
  • 見落とされた詳細: ファイル内の重複コンテンツを識別できないため、冗長データがそのまま残される可能性があります。
  1. 固定ブロック重複排除– この方法では、固定ブロック サイズに基づいてファイルの重複を排除します。このブロック サイズは、ソフトウェアに応じて構成可能またはハードコード化でき、ファイル内およびファイル間でデータ ブロックの重複を排除できます。

    長所:
  • 粒度: ファイルレベルの重複排除よりも詳細なアプローチを提供し、ファイル内およびファイル間の重複ブロックを識別できます。
  • 効率の向上: 一般に、より小さな固定サイズのデータ​​に焦点を当てることで、より優れた重複排除率を実現します。

    短所:
  • 剛構造: ブロックの境界に完全に一致していない重複が見逃される可能性があるため、ブロックの固定サイズでは効果が制限される可能性があります。
  • 複雑さ: 最適なブロック サイズを構成および維持するには、効率を最大化するための微妙なバランスが必要です。
  1. 変数ブロック or データに依存した重複排除 – これは私たちがずっと議論してきた方法です。データ自体に基づいてチャンク サイズを動的に調整し、サイズやファイル内の場所に関係なく、各データが 1 回だけ保存されるようにします。

    長所:
  • 最適な効率: データに合わせてチャンク サイズを調整することで、ストレージとネットワークの効率を最大化し、重複排除のゴールド スタンダードとなります。
  • リソースの最適化: ストレージ容量と帯域幅の必要性を減らし、システム全体のパフォーマンスを最適化します。

    コン:
  • その洗練されたアプローチには、より高度な設定と管理が必要であり、より単純な方法で十分なシナリオが過度に複雑になる可能性があります。

したがって、大規模なデータセットを処理している場合、データ依存のチャンク化の柔軟性と効率性は比類のないものになります。ファイルレベルの固定ブロック重複排除には、特に特定の状況において利点がありますが、可変ブロック重複排除の適応性は、大規模なデータ環境の複雑さとダイナミズムにシームレスに調和します。単にスペースを節約するだけではありません。それは、データをインテリジェントに管理して、迅速なアクセス、回復、拡張性をサポートすることです。

バックアップ効率を最適化するためのデータ依存チャンキング (DDC) と重複排除の 7 つの利点

ハイキングで 60 ポンドのバックパックを持ち歩きたくないというたとえは共感できるものですが、データ依存のチャンキングと重複排除の概念は、このアイデアをデジタル空間にもたらします。

これらの技術がデータのバックアップとストレージをどのように変革するかを次に示します。

  1. ストレージの効率的な利用: DDC と重複排除は、冗長データを排除し、一意のデータ チャンクまたは変更されたデータ チャンクのみが保存されるようにすることに重点を置いています。このアプローチにより、ストレージの必要性が大幅に削減され、ストレージ リソースの使用がより経済的かつ効率的になります。
  2. より高速なデータ処理: バックアップの場合は、一意の各チャンクのコピーを 1 つだけ圧縮して暗号化し、復元の場合は復号化して解凍する必要があります。これにより、これらの操作の実行に必要な時間とリソースが大幅に削減されます。
  3. 最適化されたネットワークパフォーマンス: バックアップおよび復元操作中に、一意のデータ チャンクのみがソースとストレージの場所の間で転送されます。これは、特定の操作において、存在しないデータまたは変更されたデータのみが移動されることを意味し、データ送信の効率が向上し、ネットワーク負荷が大幅に軽減されます。
  4. 拡張性の向上: データの冗長性の削減により、スペースが節約されるだけでなく、拡張性の向上もサポートされます。多くの組織は、データ サイズが最大 30% 以上削減されたと報告しています。これは、同じ量のストレージ スペースに大幅に多くのデータを保存できることを意味します。
  5. ストレージコストの削減: 繰り返しているように聞こえるかもしれませんが、実際にそうなのです。ただし、ストレージは高価であり、保存する必要があるデータの量を減らすことで、ストレージ費用だけで毎年数千ドル、場合によっては数万ドルを節約できることをもう一度言っておきます。
  6. 実稼働システムへの影響を最小限に抑える: 従来のバックアップ プロセスでは、実稼働システムに大きな負荷がかかり、パフォーマンスの問題が発生する場合があります。データ依存のチャンク化は、重要なデータ チャンクのみを特にターゲットにすることで、この影響を最小限に抑えます。これにより、運用システムの日常業務に過度の影響を与えることなく、バックアップ プロセスがスムーズに実行されます。
  7. RTO (目標復旧時間) の向上: データ依存のチャンク化により、バックアップと復元のプロセスが高速化されるだけでなく、データの取得速度も向上します。特定のデータにアクセスする必要が生じた場合、選択的処理アプローチにより迅速な取得が可能になり、重大な状況での全体的なダウンタイムが削減されます。

Zmanda を使用してバックアップ効率を最適化するためのデータ依存のチャンク化と重複排除

ズマンダ は、大企業向けに信頼性が高く効率的なバックアップとリカバリを提供してきた実績があります。最新バージョン – ズマンダプロ は、堅牢で効率的な重複排除テクノロジーと、高速でエアギャップの不変バックアップで知られています。

ご確認ください> 互換性マトリックス Zmanda Pro Backup ソリューションが既存の環境にどの程度うまく実装できるかを理解するため、または 14 日間の無料トライアルを利用する 製品を直接体験していただけます。


他のトピックを探す