10 вещей, которые нужно включить в контрольный список плана аварийного восстановления

A План аварийного восстановления (DRP) - это документ, который нужно держать под рукой, чтобы справиться с неожиданными инцидентами, которые могут привести к отключению ИТ-систем вашей компании и нарушить ее работу в целом.
DRP направлен на наладить свой бизнес как можно быстрее во время аварии или утечки данных. С эффективное аварийное восстановление план, у вас меньше шансов потерять прибыль слишком долго. Кроме того, в нем должны быть созданы резервные копии, чтобы предотвратить компрометацию конфиденциальных данных (номеров социального страхования или информации о кредитных картах).

Есть ли у вашего бизнеса план аварийного восстановления?

Потери данных, простои и технические нарушения - вот некоторые из новых ужасных историй, с которыми в наши дни сталкиваются даже ведущие компании. Всякий раз, когда в компании случается катастрофа, инженерные группы спешат устранить ущерб, а с другой стороны, команды по связям с общественностью работают сверхурочно, чтобы восстановить доверие клиентов. Вам не кажется, что это требует много времени и денег? Конечно, это является! Но некоторые организации справляются с этими бедствиями наиболее эффективно и с меньшим сопутствующим ущербом. Хотите знать, как? Все просто: у них есть исчерпывающий, понятный и регулярно тестируемый план аварийного восстановления.

Бедствия приходят без приглашения, с множеством сложных проблем, на преодоление которых организациям могут уйти месяцы или годы. Кибер-атаки, торнадо, террористические атаки, ураганы и наводнения - вот некоторые из бедствий, которые могут вызвать утечку данных. План действий на случай чрезвычайных ситуаций - это долгосрочная гарантия работоспособности бизнеса, поскольку он разработан таким образом, что позволяет предприятиям уменьшить ущерб от непредвиденных отключений.

У вас есть план аварийного восстановления или вы только начинаете процесс его создания для своей организации? В любом из этих случаев приведенный ниже контрольный список плана аварийного восстановления поможет вам добавить все важные компоненты в свой план.

1. Проанализируйте потенциальные угрозы и возможные реакции

Во-первых, найдите время и проанализируйте все возможные факторы, которые могут помешать вашему бизнесу. После того, как вы закончите исследование, пришло время создать отдельный план восстановления для каждого из этих сценариев. Например, кибератаки становятся все более распространенными и вероятными, и, к сожалению, средний брандмауэр не настолько силен, чтобы защитить от большинства из них.

Поэтому посмотрите на возможность кибератаки более пристально, чем, скажем, на цунами. Вы можете выбрать шифрование данных и защиту оборудования. Попытайтесь понять уязвимости, которые есть в ваших системах, поскольку это точки входа, которые хакер будет использовать для получения доступа.

Лучший способ - быть в курсе многих схем, которые используют хакеры. Вы можете избежать большинства фишинговых и вредоносных программ.

2. Исправьте цели аварийного восстановления.

Аварийное восстановление помогает поддерживать нормальную работу вашего бизнеса, поэтому вам необходимо исправить ИТ-услуги, которые наиболее важны для работы вашей организации. Кроме того, для этих служб / машин требуется целевое время восстановления (RTO) и целевое время восстановления (RPO). Но знаете ли вы о RTO и RPO?

RPO: время, необходимое для восстановления после аварии после уведомления о сбое в работе. В случае какой-либо катастрофы, если ваш бизнес не может выдержать хотя бы час простоя, не теряя клиентов в пользу конкурентов, это критически важно. Вам нужен надежный план аварийного восстановления с четко указанным разрешенным RTO.

RPO: временное окно, в течение которого данные принимаются. Если после аварийного удара ваш бизнес может пережить потерю данных только в течение четырех часов после полного рабочего дня, это может привести к катастрофической потере важных данных, поэтому ваша RPO составит четыре часа.

RTO и RPO организации обязательно повлияют на ее стратегию восстановления и связанные с этим расходы. Чтобы снизить общую стоимость стратегии аварийного восстановления, лучше разделить приложения на уровни. Самый высокий уровень, зарезервированный для критически важных приложений, потребует технологии аварийного восстановления, основанной на непрерывной репликации данных в реальном времени. Для среднего уровня может потребоваться приложение на основе моментальных снимков, и, наконец, самый нижний уровень может обойтись простой системой резервного копирования на уровне файлов.

3. Определите заинтересованные стороны в вашем плане аварийного восстановления.

Следующим и важным шагом является выявление тех, кого нужно обновлять после бедствия. Инженеры, служба поддержки, руководители и т. Д. Будут вовлечены в выполнение фактического аварийного восстановления. Тем не менее, вам также необходимо идентифицировать других, например поставщиков, членов группы по связям с общественностью и маркетингу, сторонних поставщиков и ключевых клиентов. Большинство компаний ведут реестр заинтересованных сторон в документации своего проектного офиса для уведомления в случае бедствия.

4. Создайте сайт аварийного восстановления.

Существует высокая вероятность того, что авария серьезно повредит ваш производственный центр, что сделает невозможным возобновление работы на основном сайте и, таким образом, миграцию критических рабочих нагрузок в другое место. Согласно плану аварийного восстановления, вам потребуется контрольный список для создания сайта аварийного восстановления, который будет использоваться в случае экстренного перемещения критически важных данных, персонала, физических ресурсов, рекламных приложений. Кроме того, вы должны оснастить сайт достаточным количеством оборудования и программного обеспечения, чтобы справиться с основными рабочими нагрузками.

5. Соберите всю документацию по инфраструктуре.

Когда случается катастрофа, все идет наперекосяк, все оказываются под давлением. Действительно, у вас есть инженерные группы с необходимыми навыками и знаниями для активации процедур аварийного восстановления, но документация по инфраструктуре является обязательной. Даже высококвалифицированные инженеры при выполнении аварийного восстановления предпочтут использовать команду за командой из документации по инфраструктуре.

Итак, из чего состоит эта документация? Полная настройка систем и их использование (установка, процедуры восстановления, запущенные приложения, ОС и конфигурация), облачные шаблоны, хранилище и базы данных (как и где сохраняются данные, как восстанавливаются резервные копии, как данные проверяются на точность) и все ваши подключенные сетевые подключения (с работающими устройствами и их конфигурацией).

6. Выбирайте Cherry Precise Technology

Аварийное восстановление как услуга (DRaaS) и локальное аварийное восстановление - это не только возможные решения для обеспечения непрерывности бизнеса. Следующий вариант - использовать облачное аварийное восстановление, чтобы развернуть ваш сайт аварийного восстановления в общедоступном облаке. Microsoft AzureAWS и Google Cloud за считанные минуты с помощью автоматизированного решения для аварийного восстановления.

Прежде чем сделать выбор решения, убедитесь, что вы учли общую стоимость владения, требования к обслуживанию, масштабируемость, восстановление до предыдущего момента времени и простоту тестирования. Когда дело доходит до решения для аварийного восстановления, существует множество вариантов, поэтому вы должны тщательно изучить и сделать правильный выбор.

7. Запустите каналы связи.

Никто не знает, когда катастрофа может постучать в вашу дверь, поэтому, будучи организацией, вы должны вести список команд (вместе с их ролями и контактной информацией) для аварийного восстановления. Постарайтесь создать всеобъемлющую цепочку команд, в которую входят ответственные лица из каждой группы инженеров (например, база данных, системы, сеть, хранилище) и соответствующее исполнительное руководство. Кроме того, настройте выделенные каналы связи и концентраторы или онлайн-инструмент для обмена информацией, который будет использоваться для обмена мгновенными сообщениями.

8. Опишите процедуру реагирования на инциденты.

Если у вас есть план аварийного восстановления, то «процедура реагирования на инциденты» просто необходима. Здесь компании детально определят, какие события следует признать катастрофой. Например, если ваша система выйдет из строя, вы сочтете это катастрофой? Кроме того, в плане также должно быть указано, как проверить аварию и как о ней будет сообщаться - с помощью автоматической системы мониторинга, по вызовам групп инженеров по обеспечению надежности (SRE) или по сообщениям клиентов?

Чтобы убедиться, что катастрофа действительно происходит, вам необходимо проверить состояние критических сетевых устройств, журналов приложений, серверного оборудования или любых других критических компонентов в вашей производственной системе, которые вы отслеживаете проактивно. Если что-то странное или не работает, то наверняка у вас на руках беда.

9. Опишите процедуру реагирования на действия.

В случае возникновения аварии среду аварийного восстановления необходимо активировать как можно скорее. Процедура реагирования на действия описывает, как переключиться на сайт аварийного восстановления со всеми необходимыми шагами. Независимо от того, использует ли ваш процесс восстановления DRaaS или инструмент аварийного восстановления для автоматического запуска аварийного сайта, вам необходимо подготовить процедуру реагирования на действия в письменной форме, чтобы гарантировать, как необходимые службы будут запускаться, проверяться и контролироваться.

Кроме того, развертывания производственных сервисов в другом месте недостаточно, также важно обеспечить наличие всех необходимых данных и правильного функционирования всех необходимых бизнес-приложений.

10. Будьте готовы к отказу от основной инфраструктуры.

Восстановление после сбоя - это восстановление операций в основном производственном центре после того, как они были перенесены на площадку аварийного восстановления во время аварийного переключения. Сайты аварийного восстановления не предназначены для повседневной работы; вместо этого их можно использовать только в экстренных случаях. Сайты аварийного восстановления создаются на очень короткий период (пока не будет восстановлен основной сайт или пока не будет построен новый производственный центр).

После того, как авария закончится, потребуется приложить много усилий, чтобы осуществить перемещение данных и бизнес-сервисов обратно в основное место - спланировать возможное частичное нарушение работы вашего бизнеса во время процесса восстановления. К счастью, существуют решения для аварийного восстановления, которые обеспечивают унифицированное восстановление после сбоя в основное местоположение, активируемое автоматически или вручную после завершения проверки основного местоположения ИТ.

11. Сообщите об инциденте заинтересованным сторонам.

При возникновении бедствия сначала уведомите не только тех, кто отвечает за выполнение мероприятий по аварийному восстановлению, но и ключевых заинтересованных сторон, таких как поставщики, клиенты, члены группы по связям с общественностью и маркетингу, а также сторонние поставщики. Также рассмотрите возможность информирования каждой из этих групп и сформулируйте ответы для решения их проблем. Лучше написать пресс-релиз заранее, чтобы не терять время во время реальной катастрофы и подготовить его к публикации.

12. Проведите обширные тесты.

Тестирование плана аварийного восстановления является обязательным, но обычно им пренебрегают. Тесты на отказоустойчивость обычно сложны и приводят к потере данных и нарушению обслуживания продукта. Таким образом, большинство компаний не проверяют свои планы аварийного восстановления на регулярной основе.

Чтобы понять, насколько хорошо будет работать ваш план аварийного восстановления, вы должны запланировать регулярные тесты аварийного переключения. Игнорирование тестов плана аварийного восстановления может поставить под угрозу весь ваш бизнес во время аварийного удара, в результате чего восстановление будет невозможно вовремя или вообще не будет выполнено. Тесты производительности также помогут вам оценить, достаточно ли вашего вторичного местоположения, чтобы выдержать бизнес-нагрузку.

13. Регулярно обновляйте свой план аварийного восстановления.

И последнее, но не менее важное: тестирование плана аварийного восстановления является обязательным, поэтому необходимо постоянно обновлять все документы аварийного восстановления. В конце каждого теста просмотрите, что произошло, как ваши команды справляются с тестом, и задокументируйте свои результаты.

Выход из системы:

Вы можете либо выполнить аварийное восстановление своими силами (дешевый, но подверженный ошибкам вариант), либо иметь под рукой хороший план аварийного восстановления, который поможет вашей компании восстановить все потерянные данные и ускорить возвращение вашей организации к нормальным бизнес-операциям. В дополнение к этому, это также гарантирует, что катастрофа не вызовет неблагоприятных финансовых последствий и серьезных сбоев в работе.

Убедитесь, что вы приняли во внимание все аспекты вашей организации (например, количество сотрудников, доступный бюджет, факторы риска, размер ИТ-инфраструктуры и т. Д.), Чтобы определить, что лучше всего подойдет вам и вашей команде.


Исследуйте другие темы