Освоение семи уровней аварийного восстановления. Часть 1.

Объяснение семи уровней аварийного восстановления

При обсуждении планов обеспечения непрерывности бизнеса важно понимать концепции высокой доступности (HA) и семи уровней аварийного восстановления. Высокая доступность — это способность системы оставаться устойчивой к единичным сбоям, обеспечивая стабильную производительность и время безотказной работы. Однако одной ГК недостаточно. Организации также должны иметь надежную стратегию аварийного восстановления, позволяющую быстро восстанавливать инфраструктуру и данные с минимальной потерей данных в случае сбоя.

В этом блоге я представлю обзор аварийного восстановления и представлю семь уровней аварийного восстановления, подготавливая почву для более глубокого изучения в будущих блогах.

Чтобы понять семь уровней аварийного восстановления, сначала нам необходимо понять основную концепцию аварийного восстановления и понять, почему оно необходимо. Давайте вскочим.

Аварийное восстановление

Аварийное восстановление является важнейшим аспектом поддержания или восстановления жизненно важной инфраструктуры и систем после стихийного бедствия или антропогенного бедствия, такого как ураган или кибератака. Это важно для поддержания функционирования всех критически важных аспектов бизнеса, несмотря на значительные разрушительные события. Эффективное аварийное восстановление требует хорошо продуманных политик, процедур и инструментов для обеспечения непрерывности бизнеса.

Измерение потери данных и времени восстановления

В случае катастрофы основной целью организации является быстрое восстановление всех систем при минимизации потери данных. Эти цели количественно выражаются как Целевое время восстановления (РТО) и Цель точки восстановления (РПО):

  • Целевое время восстановления (RTO): это продолжительность, необходимая для восстановления инфраструктуры и данных для возобновления бизнес-операций.
  • Целевая точка восстановления (RPO): представляет собой приемлемый объем потери данных, измеренный во времени, с момента катастрофы.
Пример, показывающий более длительное «фактическое» время, которое НЕ соответствует ни RPO, ни RTO («целям»). На диаграмме схематически представлены термины RPO и RTO.

Необходимость вторичного сайта

Вторичное место, оснащенное сопоставимой инфраструктурой, такой как вычислительные ресурсы, хранилище и сеть, необходимо, особенно когда первичный сайт невозможно восстановить немедленно. Данные, восстановленные на этом вторичном сайте, имеют решающее значение для продолжения бизнес-операций.

Состояния инфраструктуры и уровней данных

Вторичный сайт может быть активным или пассивным. Например, хотя компьютеры, сеть и хранилище могут быть активными, восстановление данных необходимо, если на сайте отсутствуют необходимые данные (или состояние) для функционирования в качестве основного сайта. В этом сценарии уровень данных находится в пассивном состоянии, что влияет на RTO во время аварийного восстановления.

Рекомендации по плану аварийного восстановления (DRP)

Чтобы эффективно установить DRP, предприятия должны обсудить свои потребности в конкретной области, чтобы определить соответствующие требования RPO и RTO. Например, банки обычно требуют очень низких значений RPO и RTO, стремясь к минимальному времени простоя, тогда как университеты или исследовательские организации могут допустить некоторую потерю данных и более длительный период восстановления.

От резервного копирования к непрерывной репликации данных: семь уровней аварийного восстановления

Достижение желаемых целей RPO и RTO предполагает понимание семи уровней аварийного восстановления, от уровня 0 до уровня 6. Каждый уровень предлагает различную защиту данных и скорость восстановления с увеличением стоимости и сложности.

Аварийное восстановление уровня 0: никаких внешних данных

Этот первый из семи уровней аварийного восстановления предполагает хранение данных исключительно на месте, без резервного копирования за пределы предприятия. Это наиболее экономичный вариант, но он несет в себе самый высокий риск полной потери данных в случае сбоев на месте. Идеально подходит для небольших, некритичных установок.

Tier 1 Аварийное восстановление: Ленты резервного копирования за пределами объекта

Это предполагает резервное копирование данных на магнитные ленты, хранящиеся за пределами объекта. Это более безопасный вариант, чем уровень 0, но восстановление данных может быть медленным. Он подходит для учреждений, где скорость восстановления данных не является критическим фактором.

Tier 2 Аварийное восстановление: Резервное копирование диска за пределами объекта

Возможно более быстрое восстановление, поскольку резервные копии данных сохраняются на дисковых системах за пределами объекта. Это дороже, чем резервное копирование на ленту, но позволяет выполнять резервное копирование более часто. Подходит для предприятий среднего бизнеса, которым важна скорость восстановления.

Tier 3 Аварийное восстановление: Электронные своды

Этот четвертый из семи уровней аварийного восстановления включает в себя пакетную отправку данных в удаленное место через регулярные промежутки времени. Он обеспечивает баланс между частотой резервного копирования и затратами, что идеально подходит для организаций с умеренной скоростью изменения данных.

Tier 4 Аварийное восстановление: Копии на определенный момент времени

Предлагает частые снимки данных, обеспечивая несколько точек восстановления. Этот уровень требует большого объема хранилища и идеально подходит для предприятий с высокой скоростью транзакций или тех, кто обслуживает критически важные системы.

Tier 5 Аварийное восстановление: Целостность транзакции

Этот шестой из семи уровней аварийного восстановления включает в себя обеспечение фиксации всех транзакций вплоть до момента сбоя, обеспечивая высокую целостность данных. Он технически сложен и идеально подходит для организаций, где согласованность транзакций имеет решающее значение, например, для финансовых учреждений.

Tier 6 Аварийное восстановление: Нулевой или почти нулевой RPO

Этот последний из всех семи уровней аварийного восстановления включает обеспечение непрерывной защиты данных с практически мгновенным восстановлением и минимальной потерей данных. Это самое сложное и дорогостоящее решение, подходящее для крупных предприятий или критически важных государственных систем.

Семь уровней аварийного восстановления: тщательный баланс затрат и возможностей

При планировании аварийного восстановления точное определение целевой точки восстановления (RPO) и целевого времени восстановления (RTO) имеет решающее значение для устойчивости бизнеса. Эти цели определяют, насколько быстро и эффективно компания сможет оправиться от сбоев. Однако реализация этих целей посредством соответствующих уровней аварийного восстановления требует тщательного баланса затрат и возможностей. Успешный план аварийного восстановления согласуется с терпимостью к рискам и бюджетом организации, гарантируя, что уровень инвестиций пропорционален потенциальным рискам и воздействиям. По сути, хорошо продуманный план аварийного восстановления не только защищает критически важные бизнес-функции, но и согласуется с финансовой стратегией организации, обеспечивая долгосрочную стабильность и рост.


Исследуйте другие темы