10 rzeczy, które należy uwzględnić w liście kontrolnej planu odzyskiwania po awarii

A plan odzyskiwania po awarii (DRP) to dokument, który musisz mieć pod ręką, aby radzić sobie z nieoczekiwanymi incydentami, które mogą spowodować zamknięcie systemów informatycznych Twojej firmy i utrudnić jej ogólne funkcjonowanie.
DRP ma na celu uruchom i uruchom swoją firmę tak szybko, jak to możliwe w przypadku katastrofy lub naruszenia danych. Z skuteczne odzyskiwanie po awarii plan, istnieje mniejsze prawdopodobieństwo, że zbyt długo stracisz zyski. Powinien również mieć ustawione kopie zapasowe, aby zapobiec zagrożeniu poufnych danych (numerów ubezpieczenia społecznego lub informacji o karcie kredytowej).

Czy Twoja firma ma plan odtwarzania po awarii?

Utrata danych, przestoje i oburzenia technologiczne to tylko niektóre z nowych horrorów, z którymi spotykają się obecnie nawet największe firmy. Za każdym razem, gdy w firmie dochodzi do katastrofy, zespoły inżynierów spieszą się, aby naprawić szkody, az drugiej strony zespoły PR pracują w godzinach nadliczbowych, aby przywrócić zaufanie klientów. Nie sądzisz, że to czasochłonny i kosztowny wysiłek? Oczywiście, że jest! Jednak niektóre organizacje najskuteczniej radzą sobie z tymi katastrofami, a także z mniejszymi stratami ubocznymi. Zastanawiasz się, jak to zrobić? Proste, mają kompleksowy, łatwy do przestrzegania i regularnie testowany plan odtwarzania po awarii.

Katastrofy przychodzą bez zaproszenia z mnóstwem złożonych wyzwań, których pokonanie może zająć organizacjom miesiące lub lata. Cyberatakitornada, ataki terrorystyczne, huragany i powodzie to tylko niektóre z katastrof, które mogą powodować naruszenia bezpieczeństwa danych. Plan na wypadek katastrofy to długoterminowe zapewnienie operacyjności biznesowej, ponieważ został zaprojektowany w taki sposób, aby umożliwić firmom zmniejszenie szkód wynikających z nieprzewidzianych przestojów.

Czy masz plan odtwarzania po awarii, czy dopiero zaczynasz proces tworzenia go dla swojej organizacji? W każdym z tych przypadków poniższa lista kontrolna planu odtwarzania po awarii pomoże Ci dodać wszystkie kluczowe elementy do planu.

1. Analiza potencjalnych zagrożeń i możliwych reakcji

Pierwszą rzeczą jest poświęcenie czasu i przeanalizowanie wszystkich możliwych czynników, które mogą zakłócić przepływ Twojej firmy. Po zakończeniu badań nadszedł czas, aby utworzyć inny plan odzyskiwania dla każdego z tych scenariuszy. Na przykład ataki cybernetyczne stają się coraz bardziej powszechne i prawdopodobne. Niestety, przeciętny firewall nie jest wystarczająco silny, aby chronić się przed większością z nich.

Dlatego przyjrzyj się możliwości cyberataku bardziej intensywnie niż, powiedzmy, tsunami. Możesz zdecydować się na szyfrowanie danych i zabezpieczenie sprzętu. Spróbuj zrozumieć luki w twoich systemach, ponieważ są to punkty dostępu, których haker użyje, aby uzyskać do nich dostęp.

Najlepszym sposobem jest zapoznawanie się z wieloma schematami wykorzystywanymi przez hakerów. Możesz uniknąć większości infekcji typu phishing i malware.

2. Napraw cele odzyskiwania po awarii

Odzyskiwanie po awarii pomaga w utrzymaniu firmy w normalnym, ciągłym trybie, więc musisz naprawić usługi IT, które są najbardziej krytyczne dla funkcjonowania Twojej organizacji. Ponadto docelowy czas odzyskiwania (RTO) i docelowy punkt odzyskiwania (RPO) wymagane dla tych usług / maszyn. Ale czy jesteś świadomy RTO i RPO?

RPO: czas potrzebny do przywrócenia sprawności po awarii po powiadomieniu o zakłóceniu działalności. W przypadku jakiejkolwiek katastrofy, jeśli Twoja firma nie jest w stanie wytrzymać co najmniej godziny przestoju bez utraty klientów na rzecz konkurencji, to jest to kluczowe. Potrzebujesz niezawodnego planu odtwarzania po awarii, który obejmuje jasno określony dozwolony RTO.

RPO: okno czasowe, w którym dane są akceptowalne. Jeśli po wystąpieniu katastrofy Twoja firma może przetrwać utratę danych tylko przez cztery godziny po całym dniu pracy, może to doprowadzić do katastrofalnej utraty ważnych danych, więc RPO wyniesie cztery godziny.

RTO i RPO organizacji z pewnością wpłyną na jej strategię odzyskiwania i związane z nią wydatki. Aby zmniejszyć całkowity koszt strategii odtwarzania po awarii, lepiej jest podzielić aplikacje na warstwy. Najwyższy poziom zarezerwowany dla aplikacji o znaczeniu krytycznym wymagałby technologii odtwarzania po awarii opartej na ciągłej replikacji danych w czasie rzeczywistym. Warstwa średniego poziomu może wymagać aplikacji opartej na migawkach, a na koniec najniższy poziom może uzyskać prosty system tworzenia kopii zapasowych na poziomie plików.

3. Rozpoznaj interesariuszy w swoim planie odtwarzania po awarii

Następnym i kluczowym krokiem jest zidentyfikowanie tych, którzy muszą zostać zaktualizowani po wystąpieniu katastrofy. Inżynierowie, wsparcie, kierownictwo itp. Będą zaangażowani w przeprowadzanie rzeczywistego odtwarzania po awarii. Mimo to musisz również zidentyfikować innych, takich jak dostawcy, członkowie zespołu PR i marketingu, dostawcy zewnętrzni i kluczowi klienci. Większość firm prowadzi rejestr interesariuszy w dokumentacji biura projektowego, aby powiadomić o katastrofie.

4. Utwórz witrynę odzyskiwania po awarii

Istnieje duże prawdopodobieństwo, że katastrofa poważnie uszkodzi centrum produkcyjne, uniemożliwiając w ten sposób wznowienie operacji w siedzibie głównej, a tym samym migrację krytycznych obciążeń do innej lokalizacji. Zgodnie z planem odtwarzania po awarii, lista kontrolna potrzebna do zbudowania witryny DR do wykorzystania w przypadku awaryjnego przeniesienia krytycznych danych, personelu, zasobów fizycznych, aplikacji reklamowych. Ponadto należy wyposażyć witrynę w wystarczającą ilość sprzętu i oprogramowania, aby przejmować podstawowe obciążenia.

5. Zbierz całą dokumentację infrastruktury

Kiedy dochodzi do katastrofy, wszystko idzie na rzut oka, wszyscy są pod presją. Rzeczywiście, masz zespoły inżynierów posiadające umiejętności i wiedzę wymagane do aktywacji procedur odtwarzania po awarii, ale dokumentacja infrastruktury jest obowiązkowa. Nawet wysoce biegli inżynierowie podczas odtwarzania po awarii woleliby wydawać polecenia z dokumentacji infrastruktury.

Z czego więc składa się ta dokumentacja? Cała konfiguracja systemów i ich wykorzystanie (instalacja, procedury odzyskiwania, uruchamianie aplikacji, system operacyjny i konfiguracja), szablony chmury, przechowywanie i bazy danych (jak i gdzie dane są zapisywane, jak przywracane są kopie zapasowe, jak dane są weryfikowane pod kątem dokładności) i wszystkie zmapowane połączenia sieciowe (z działającymi urządzeniami i ich konfiguracją).

6. Wybierz precyzyjną technologię

Odzyskiwanie po awarii jako usługa (DRaaS) i lokalne odzyskiwanie po awarii to nie tylko wykonalne rozwiązania dostępne dla ciągłości biznesowej. Następną opcją jest skorzystanie z odzyskiwania po awarii w chmurze, aby uruchomić witrynę odzyskiwania po awarii w publicznej chmurze podobnej do Azure firmy MicrosoftAWS i Google Cloud w kilka minut za pomocą automatycznego rozwiązania do odzyskiwania po awarii.

Przed dokonaniem wyboru rozwiązania należy wziąć pod uwagę całkowity koszt posiadania, wymagania konserwacyjne, skalowalność, przywrócenie do poprzedniego punktu w czasie i łatwość testowania. Istnieje wiele możliwości wyboru rozwiązania do odzyskiwania po awarii, dlatego należy dokładnie zbadać i wybrać mądrze.

7. Uruchom kanały komunikacyjne

Nikt nie wie, kiedy katastrofa może zapukać do twoich drzwi, więc będąc organizacją, musisz przechowywać listę zespołów (wraz z ich rolami i danymi kontaktowymi) do odtwarzania po awarii. Spróbuj ustanowić kompleksowy łańcuch dowodzenia, który obejmuje odpowiedzialne osoby z każdego z zespołów inżynieryjnych (np. Bazy danych, systemy, sieć, pamięć masowa) oraz odpowiednie kierownictwo wykonawcze. Skonfiguruj również dedykowane kanały i centra komunikacyjne lub narzędzie do udostępniania informacji online, które będzie używane do przesyłania wiadomości błyskawicznych.

8. Przedstaw procedurę reagowania na incydenty

Jeśli masz plan odtwarzania po awarii, „procedura reagowania na incydenty” jest koniecznością. W tym miejscu firmy szczegółowo określą, które zdarzenia należy uznać za klęskę. Na przykład, jeśli twój system ulegnie awarii, czy uznasz to za katastrofę? Plan powinien również wskazywać, w jaki sposób weryfikować awarię i w jaki sposób zostanie ona zgłoszona - przez automatyczny system monitorowania, zgłaszany przez zespoły inżynierów niezawodności obiektu (SRE) lub zgłaszany przez klientów?

Aby zweryfikować, że katastrofa naprawdę ma miejsce, musisz sprawdzić stan krytycznych urządzeń sieciowych, dzienników aplikacji, sprzętu serwerowego lub innych krytycznych komponentów w systemie produkcyjnym, które aktywnie monitorujesz. Jeśli coś jest dziwne lub nie działa, na pewno masz katastrofę.

9. Przedstaw procedurę działania i reagowania

Po wystąpieniu katastrofy należy jak najszybciej aktywować środowisko odzyskiwania po awarii. Procedura reagowania na akcję przedstawia sposób przełączania awaryjnego na lokalizację odzyskiwania po awarii wraz ze wszystkimi wymaganymi krokami. Bez względu na to, czy proces odzyskiwania używa DRaaS, czy narzędzia do odzyskiwania po awarii do automatycznego uruchamiania witryny po awarii, musisz przygotować pisemną procedurę reagowania na działanie, aby upewnić się, że niezbędne usługi zostaną uruchomione, zweryfikowane i kontrolowane.

Ponadto, nie wystarczy przestawienie usług produkcyjnych w inną lokalizację, ponieważ zapewnienie, że wszystkie wymagane dane są na miejscu, a wszystkie wymagane aplikacje biznesowe działają poprawnie, jest równie krytyczne.

10. Przygotuj się na powrót po awarii do infrastruktury podstawowej

Powrót po awarii to przywracanie operacji w głównym centrum produkcyjnym po przeniesieniu ich do ośrodka odzyskiwania po awarii podczas przełączania awaryjnego. Witryny DR nie są przeznaczone do wykonywania codziennych operacji; zamiast tego mogą być używane tylko w sytuacjach awaryjnych. Witryny DR są budowane przez bardzo krótki czas (do przywrócenia głównej lokalizacji lub do zbudowania nowego centrum produkcyjnego).

Po zakończeniu katastrofy potrzeba wiele wysiłku, aby zaimplementować przeniesienie danych i usług biznesowych z powrotem do lokalizacji podstawowej - zaplanuj potencjalne częściowe zakłócenie działalności podczas procesu przywracania. Na szczęście istnieją rozwiązania do odtwarzania po awarii, które zapewniają ujednolicony powrót po awarii do podstawowej lokalizacji, aktywowane automatycznie lub ręcznie po zakończeniu weryfikacji podstawowej lokalizacji IT.

11. Zgłoś incydent interesariuszom

Gdy dojdzie do katastrofy, najpierw powiadom nie tylko tych, którzy są odpowiedzialni za wykonywanie działań DR, ale także kluczowych interesariuszy, takich jak dostawcy, klienci, członkowie zespołu PR i marketingu oraz dostawcy zewnętrzni. Rozważ także poinformowanie każdej z tych grup i sformułowanie odpowiedzi, aby rozwiązać ich obawy. Lepiej jest napisać komunikat prasowy z wyprzedzeniem, aby nie tracić czasu podczas rzeczywistej katastrofy i przygotować go do publikacji.

12. Wykonaj szczegółowe testy

Testowanie planu odzyskiwania po awarii jest obowiązkowe, ale zwykle jest pomijane. Testy przełączania awaryjnego są zwykle złożone i prowadzą do utraty danych i zakłócenia usług produktu. Dlatego większość firm nie testuje regularnie swojego planu odtwarzania po awarii.

Aby zrozumieć, jak dobrze będzie działał plan odzyskiwania po awarii, należy zaplanować regularne testy przełączania awaryjnego. Zignorowanie testów planu odzyskiwania po awarii może narazić całą firmę na ryzyko podczas ataku katastrofy, uniemożliwiając przywrócenie na czas lub w ogóle. Testy wydajności pomagają również ocenić, czy Twoja dodatkowa lokalizacja jest wystarczająca, aby wytrzymać obciążenie biznesowe.

13. Aktualizuj swój plan odzyskiwania po awarii

Wreszcie, ponieważ testowanie planu odzyskiwania po awarii jest obowiązkowe, aktualizowanie wszystkich dokumentów odzyskiwania po awarii jest również. Pod koniec każdego testu sprawdź, co się stało, jak Twoje zespoły radziły sobie z testem i udokumentuj swoje wyniki.

Wylogowywanie się:

Możesz albo samodzielnie wykonać odzyskiwanie po awarii (opcja tania, ale podatna na błędy), albo mieć pod ręką dobry plan odzyskiwania po awarii, który pomoże Twojej firmie odzyskać wszystkie utracone dane i przyspieszyć powrót organizacji do normalnych operacji biznesowych. Oprócz tego zagwarantuje również, że katastrofa nie wywoła negatywnych konsekwencji finansowych i poważnych zakłóceń w działalności.

Upewnij się, że bierzesz pod uwagę każdy aspekt swojej organizacji (np. Liczbę pracowników, dostępny budżet, czynniki ryzyka, rozmiar infrastruktury IT itp.), Aby określić, co będzie najlepsze dla Ciebie i Twojego zespołu.


Przeglądaj więcej tematów