Освоение аварийного восстановления. Часть 1: семь уровней

аварийное восстановление

При обсуждении планов обеспечения непрерывности бизнеса важно понимать концепции высокой доступности (HA) и аварийного восстановления. Высокая доступность — это способность системы оставаться устойчивой к единичным сбоям, обеспечивая стабильную производительность и время безотказной работы. Однако одной ГК недостаточно. Организации также должны иметь надежную стратегию аварийного восстановления, позволяющую быстро восстанавливать инфраструктуру и данные с минимальной потерей данных в случае сбоя.

В этом блоге я представлю обзор аварийного восстановления и представлю семь уровней аварийного восстановления, подготавливая почву для более глубокого изучения в будущих блогах.

Аварийное восстановление

Аварийное восстановление является важнейшим аспектом поддержания или восстановления жизненно важной инфраструктуры и систем после стихийного бедствия или антропогенного бедствия, такого как ураган или кибератака. Это важно для поддержания функционирования всех критически важных аспектов бизнеса, несмотря на значительные разрушительные события. Эффективное аварийное восстановление требует хорошо продуманных политик, процедур и инструментов для обеспечения непрерывности бизнеса.

Измерение потери данных и времени восстановления

В случае катастрофы основной целью организации является быстрое восстановление всех систем при минимизации потери данных. Эти цели количественно выражаются как Целевое время восстановления (РТО) и Цель точки восстановления (РПО):

  • Целевое время восстановления (RTO): это продолжительность, необходимая для восстановления инфраструктуры и данных для возобновления бизнес-операций.
  • Целевая точка восстановления (RPO): представляет собой приемлемый объем потери данных, измеренный во времени, с момента катастрофы.
Пример, показывающий более длительное «фактическое» время, которое НЕ соответствует ни RPO, ни RTO («целям»). На диаграмме схематически представлены термины RPO и RTO.

Необходимость вторичного сайта

Вторичное место, оснащенное сопоставимой инфраструктурой, такой как вычислительные ресурсы, хранилище и сеть, необходимо, особенно когда первичный сайт невозможно восстановить немедленно. Данные, восстановленные на этом вторичном сайте, имеют решающее значение для продолжения бизнес-операций.

Состояния инфраструктуры и уровней данных

Вторичный сайт может быть активным или пассивным. Например, хотя компьютеры, сеть и хранилище могут быть активными, восстановление данных необходимо, если на сайте отсутствуют необходимые данные (или состояние) для функционирования в качестве основного сайта. В этом сценарии уровень данных находится в пассивном состоянии, что влияет на RTO во время аварийного восстановления.

Рекомендации по плану аварийного восстановления (DRP)

Чтобы эффективно установить DRP, предприятия должны обсудить свои потребности в конкретной области, чтобы определить соответствующие требования RPO и RTO. Например, банки обычно требуют очень низких значений RPO и RTO, стремясь к минимальному времени простоя, тогда как университеты или исследовательские организации могут допустить некоторую потерю данных и более длительный период восстановления.

От резервного копирования к непрерывной репликации данных: 7 уровней аварийного восстановления

Достижение желаемых целей RPO и RTO предполагает понимание различных уровней аварийного восстановления: от уровня 0 до уровня 6. Каждый уровень предлагает различную защиту данных и скорость восстановления с увеличением стоимости и сложности.

Уровень 0: Нет внешних данных

Этот базовый уровень предполагает хранение данных исключительно на месте, без резервного копирования за пределы предприятия. Это наиболее экономичный вариант, но он несет в себе самый высокий риск полной потери данных в случае сбоев на месте. Идеально подходит для небольших, некритичных установок.

Уровень 1: Резервные ленты за пределами объекта

Это предполагает резервное копирование данных на магнитные ленты, хранящиеся за пределами объекта. Это более безопасный вариант, чем уровень 0, но восстановление данных может быть медленным. Он подходит для учреждений, где скорость восстановления данных не является критическим фактором.

Уровень 2: Резервное копирование диска за пределами объекта

Возможно более быстрое восстановление, поскольку резервные копии данных сохраняются на дисковых системах за пределами объекта. Это дороже, чем резервное копирование на ленту, но позволяет выполнять резервное копирование более часто. Подходит для предприятий среднего бизнеса, которым важна скорость восстановления.

Уровень 3: Электронное хранилище

Данные отправляются пакетами в удаленное место через регулярные промежутки времени. Он обеспечивает баланс между частотой резервного копирования и затратами, что идеально подходит для организаций с умеренной скоростью изменения данных.

Уровень 4: Копии на определенный момент времени

Предлагает частые снимки данных, обеспечивая несколько точек восстановления. Этот уровень требует большого объема хранилища и идеально подходит для предприятий с высокой скоростью транзакций или тех, кто обслуживает критически важные системы.

Уровень 5: Целостность транзакции

Гарантирует, что все транзакции фиксируются вплоть до момента сбоя, обеспечивая высокую целостность данных. Он технически сложен и идеально подходит для организаций, где согласованность транзакций имеет решающее значение, например, для финансовых учреждений.

Уровень 6: Нулевой или почти нулевой RPO

Обеспечивает непрерывную защиту данных с практически мгновенным восстановлением и минимальной потерей данных. Это самое сложное и дорогостоящее решение, подходящее для крупных предприятий или критически важных государственных систем.

Заключение

При планировании аварийного восстановления точное определение целевой точки восстановления (RPO) и целевого времени восстановления (RTO) имеет решающее значение для устойчивости бизнеса. Эти цели определяют, насколько быстро и эффективно компания сможет оправиться от сбоев. Однако реализация этих целей посредством соответствующих уровней аварийного восстановления требует тщательного баланса затрат и возможностей. Успешный план аварийного восстановления согласуется с терпимостью к рискам и бюджетом организации, гарантируя, что уровень инвестиций пропорционален потенциальным рискам и воздействиям. По сути, хорошо продуманный план аварийного восстановления не только защищает критически важные бизнес-функции, но и согласуется с финансовой стратегией организации, обеспечивая долгосрочную стабильность и рост.


Исследуйте другие темы