Оптимизация эффективности резервного копирования с помощью зависящего от данных разделения и дедупликации

Задумывались ли вы когда-нибудь о том, сколько ресурсов вашей организации тратится на неэффективное резервное копирование и хранение данных? Недавнее исследование: Прогноз IDC StorageSphere на 2023-2028 гг. Международная корпорация данных обнаружила, что глобальная сфера данных, по прогнозам, достигнет 181 зетабайт к 2025 году, что указывает на 64% больше с 2018 года. Поскольку данные растут в геометрической прогрессии, традиционные методы резервного копирования больше не являются устойчивыми. Поэтому вам следует обратить внимание на решения для резервного копирования, основанные на оптимизации эффективности резервного копирования и процессов восстановления.

В этой статье мы рассмотрим зависящее от данных разделение и дедупликацию — революционный метод оптимизации эффективности резервного копирования.

Но сначала…

Что не так с традиционными методами резервного копирования для оптимизации эффективности резервного копирования?

Традиционные методы резервного копирования включают создание первоначальной полной резервной копии, за которой следует серия инкрементных или дифференциальных резервных копий для фиксации последующих изменений. Хотя это и дает возможность восстановить все необходимые данные, но также сохраняет несколько копий файла. без изменений части конкретных файлов. Неэффективность увеличивается, когда в каждой файловой системе или даже в наборе резервных копий имеется несколько экземпляров одного и того же файла.

Дедупликация и фрагментирование, зависящее от данных: разбираемся

В зависимости от данных (DDC) и дедупликации используется более интеллектуальный подход. Этот метод предполагает разбиение данных на более мелкие фрагменты переменного размера в зависимости от фактического содержимого файла. Этот метод гарантирует, что во время операций резервного копирования и восстановления обрабатываются только измененные или уникальные фрагменты данных.

Рис. Оптимизация эффективности резервного копирования с помощью дедупликации.

Как работает дедупликация и группирование в зависимости от данных – аналогия с рюкзаком

Представьте, что вы планируете поход с друзьями. Каждый из вас раскладывает все свое снаряжение – палатку и палки, походные палки, еду, воду, обувь и т. д.

Теперь любой, кто занимался пешим туризмом, знает, что снижение веса имеет важное значение. Итак, что вы будете делать, если один из ваших друзей придет с 25 банками печеной фасоли по-бостонски?

Вы начинаете дедупликацию.

Вы достаете карандаш и бумагу и начинаете инвентаризацию. Для каждого нового предмета вы отмечаете, что это такое (например, боб или сегмент палаточного шеста) и его родительский предмет (например, банка фасоли или палаточный шест), прежде чем добавлять его в свой рюкзак. Когда вы встречаете идентичный предмет, вы просто подсчитываете его рядом с исходной заметкой и откладываете дубликат в сторону.

После этого процесса ваш инвентарь может выглядеть примерно так:

В вашем рюкзаке (1 шт.)Часть…Количество дубликатов
Сегмент палаточного столбаПалаточный столб10
бобБанка бобов10,000
Алюминиевая банка для фасолиБанка бобов25
Палатка Shellпалатка1
Капля водыКувшин с водой1,000,000
Пуховое пероСпальный мешок1,000,000

Этот метод значительно снижает вес, который вы переносите – переноску предметов вместе со списком гораздо проще транспортировать и хранить, чем все предметы и их дубликаты. иллюстрирующий суть дедупликации. Но как это связано с резервным копированием данных?

Перевод аналогии с резервным копированием данных

В контексте управления данными предметы в вашем рюкзаке представляют собой уникальные фрагменты данных, а отложенные дубликаты подобны избыточным данным в вашей системе хранения. Точно так же, как вы не будете носить с собой в поход несколько одинаковых банок с фасолью, технология дедупликации гарантирует, что будет сохранен только один экземпляр каждого фрагмента данных, независимо от того, сколько раз он встречается в ваших файлах.

Разделение на зависимости от данных идет еще дальше, анализируя и сохраняя данные в фрагментах переменного размера в зависимости от их содержимого, во многом аналогично решению, упаковывать ли всю банку бобов или только то количество, которое вам нужно. Этот подход обеспечивает более эффективное хранение и более быстрые процессы резервного копирования и восстановления, поскольку во время этих операций обрабатываются только уникальные или измененные фрагменты.

3 различных уровня дедупликации для оптимизации эффективности резервного копирования

Хотя существует три различных подхода, с помощью которых можно достичь дедупликации, есть причина, по которой фрагментирование в зависимости от данных является наиболее эффективным по сравнению с другими. Давайте рассмотрим каждый подход и перечислим их плюсы и минусы, чтобы понять, почему фрагментирование на основе данных лучше всего работает для огромных наборов данных.

  1. Дедупликация на уровне файлов– Этот метод работает для всего файла, идентифицируя и сохраняя только один экземпляр каждого файла, независимо от того, сколько раз он появляется. Вспомните нашу аналогию с кемпингом: это все равно, что взять с собой только одну банку фасоли, независимо от того, сколько вам может понадобиться или иметь.

    Плюсы:
  • Простота: его легко реализовать, требуя минимальных изменений в существующих системах.
  • Эффективность для дубликатов: идеально подходит для сред с большим количеством одинаковых файлов, обеспечивая чистое и дедуплицированное пространство хранения.

    Минусы:
  • Ограниченная область применения: борьба с файлами, имеющими незначительные различия, что приводит к неэффективности хранения часто обновляемых файлов.
  • Пропущенные детали: невозможно идентифицировать дублирующийся контент в файле, что потенциально может оставить избыточные данные нетронутыми.
  1. Фиксированная дедупликация блоков– Этот метод выполняет дедупликацию файлов на основе фиксированного размера блока. Этот размер блока может быть настраиваемым или жестко запрограммированным в зависимости от программного обеспечения и может дедуплицировать блоки данных внутри и между файлами.

    Плюсы:
  • Детализация: предлагает более детальный подход, чем дедупликация на уровне файлов, способный выявлять повторяющиеся блоки внутри файлов и между ними.
  • Повышенная эффективность: обычно достигается лучший коэффициент дедупликации за счет сосредоточения внимания на небольших фрагментах данных фиксированного размера.

    Минусы:
  • Жесткая структура: фиксированный размер блоков может ограничивать эффективность, поскольку могут быть пропущены дубликаты, которые не идеально совпадают с границами блоков.
  • Сложность: настройка и поддержание оптимального размера блока требует тонкого баланса для максимизации эффективности.
  1. Переменный блок or Зависимая от данных дедупликация – Это метод, о котором мы все время говорили. Он динамически регулирует размер фрагмента на основе самих данных, гарантируя, что каждый фрагмент данных сохраняется только один раз, независимо от его размера или местоположения в файле.

    Плюсы:
  • Оптимальная эффективность. Регулируя размеры фрагментов в соответствии с данными, он максимизирует эффективность хранения и сети, что делает его золотым стандартом дедупликации.
  • Оптимизация ресурсов. Уменьшает потребность в дисковом пространстве и пропускной способности, оптимизируя общую производительность системы.

    Минусы:
  • Его сложный подход требует более сложной настройки и управления, что потенциально усложняет сценарии, в которых могут быть достаточны более простые методы.

Таким образом, если вы работаете с обширными наборами данных, гибкость и эффективность фрагментации в зависимости от данных не имеют себе равных. Хотя дедупликация на уровне файлов и дедупликация фиксированных блоков имеют свои преимущества, особенно в определенных контекстах, адаптивный характер дедупликации переменных блоков легко согласуется со сложностью и динамизмом крупномасштабных сред данных. Речь идет не только об экономии места; речь идет об интеллектуальном управлении данными для поддержки быстрого доступа, восстановления и масштабируемости.

7 преимуществ разделения данных (DDC) и дедупликации для оптимизации эффективности резервного копирования

Хотя аналогия с нежеланием таскать с собой в поход 60-фунтовый рюкзак вполне уместна, концепция фрагментирования и дедупликации в зависимости от данных переносит эту идею в цифровое пространство.

Вот как эти методы преобразуют резервное копирование и хранение данных:

  1. Эффективное использование хранилища: DDC и дедупликация направлены на устранение избыточных данных, обеспечивая сохранение только уникальных или измененных фрагментов данных. Такой подход значительно снижает потребности в хранении, делая использование ресурсов хранения более экономичным и эффективным.
  2. Более быстрая обработка данных: Только одна копия каждого уникального фрагмента должна быть сжата и зашифрована для резервного копирования и расшифрована и распакована для восстановления. Это радикально сокращает время и ресурсы, необходимые для выполнения этих операций.
  3. Оптимизированная производительность сети: Во время операций резервного копирования и восстановления между источником и местом хранения передаются только уникальные фрагменты данных. Это означает, что при любой данной операции перемещаются только те данные, которые отсутствуют или были изменены, что повышает эффективность передачи данных и значительно снижает нагрузку на сеть.
  4. Расширенная масштабируемость: Уменьшение избыточности данных не только экономит место, но и обеспечивает большую масштабируемость. Организации часто сообщают об уменьшении размера данных на 30% и более, что означает возможность хранить значительно больше данных в том же объеме дискового пространства.
  5. Снижение затрат на хранение: Может показаться, что мы повторяемся, и это потому, что так оно и есть. Но стоит еще раз сказать, что хранение стоит дорого, и сокращение объема данных, которые необходимо хранить, может сэкономить вам тысячи или даже десятки тысяч долларов каждый год только на расходах на хранение.
  6. Минимальное воздействие на производственные системы: Традиционные процессы резервного копирования иногда могут создавать большую нагрузку на производственные системы, что приводит к проблемам с производительностью. Разбиение на блоки, зависящие от данных, сводит это влияние к минимуму, уделяя особое внимание только самым важным фрагментам данных. Это гарантирует бесперебойную работу процессов резервного копирования без чрезмерного влияния на повседневную работу производственных систем.
  7. Улучшенное RTO (целевое время восстановления): Разбиение на блоки в зависимости от данных не только ускоряет процессы резервного копирования и восстановления, но также повышает скорость извлечения данных. Когда возникает необходимость доступа к конкретным данным, подход выборочной обработки позволяет ускорить их извлечение, сокращая общее время простоя в критических ситуациях.

Разделение на части и дедупликация в зависимости от данных для оптимизации эффективности резервного копирования с помощью Zmanda

Zmanda имеет опыт предоставления надежного и эффективного резервного копирования и восстановления для крупных предприятий. Наша последняя версия – Зманда Про известна своей надежной и эффективной технологией дедупликации, а также быстрым, изолированным неизменяемым резервным копированием.

Проверьте наши матрица совместимости чтобы понять, насколько хорошо решение Zmanda Pro Backup может быть реализовано в вашей существующей среде, или пройти 14-дневную бесплатную пробную версию испытать продукт на собственном опыте.


Исследуйте другие темы