Blog

13 punktów, które należy uwzględnić w planie odzyskiwania po awarii

ZA plan odtwarzania po awarii (DRP) is a document you need to keep handy to handle unexpected incidents that could shut down your company’s IT systems and hinder its overall operation.
A DRP aims to get your business up and running as quickly as possible during a disaster or data breach. With an skuteczne odzyskiwanie po awarii plan, istnieje mniejsze prawdopodobieństwo, że zbyt długo stracisz zyski. Powinien również mieć ustawione kopie zapasowe, aby zapobiec ujawnieniu wrażliwych danych (numery ubezpieczenia społecznego lub informacje o karcie kredytowej).

Czy Twoja firma ma plan odtwarzania po awarii?

Utrata danych, przestoje i oburzenia technologiczne to tylko niektóre z nowych horrorów, z którymi spotykają się obecnie nawet największe firmy. Za każdym razem, gdy w firmie dochodzi do katastrofy, zespoły inżynierów spieszą się, aby naprawić szkody, z drugiej strony zespoły PR pracują po godzinach, aby przywrócić zaufanie klientów. Nie sądzisz, że to czasochłonny i kosztowny wysiłek? Oczywiście, że jest! Jednak niektóre organizacje najskuteczniej radzą sobie z tymi katastrofami i to również przy mniejszych stratach ubocznych. Zastanawiasz się jak? Proste, mają kompleksowy, łatwy do wykonania i regularnie testowany plan odtwarzania po awarii.

Disasters come uninvited with loads of complex challenges, which organizations might take months or years to overcome. Cyber attacks, tornadoes, terrorist attacks, hurricanes, and floods are some of the disasters that can cause data breaches. A disaster plan is a long-term assurance of business operability as it is designed in such a way that it enables businesses to reduce damages of unpredicted outages.

Czy masz plan odtwarzania po awarii, czy dopiero zaczynasz proces tworzenia go dla swojej organizacji? W każdym z tych przypadków poniższa lista kontrolna planu odtwarzania po awarii pomoże Ci dodać wszystkie kluczowe elementy do planu.

1. Analiza potencjalnych zagrożeń i możliwych reakcji

Pierwszą rzeczą jest poświęcenie czasu i przeanalizowanie wszystkich możliwych czynników, które mogą zakłócić przepływ biznesowy. Po zakończeniu badań nadszedł czas, aby utworzyć inny plan odzyskiwania dla każdego z tych scenariuszy. Na przykład ataki cybernetyczne stają się coraz bardziej powszechne i prawdopodobne, i niestety przeciętny firewall nie jest wystarczająco mocny, aby chronić się przed większością z nich.

Dlatego przyjrzyj się możliwości cyberataku bardziej intensywnie niż, powiedzmy, tsunami. Możesz zdecydować się na szyfrowanie danych i zabezpieczenie sprzętu. Spróbuj zrozumieć luki w twoich systemach, ponieważ są to punkty wejścia, przez które haker może uzyskać dostęp.

Najlepszym sposobem jest na bieżąco informowanie o wielu schematach wykorzystywanych przez hakerów. Możesz uniknąć większości infekcji typu phishing i malware.

2. Napraw cele odzyskiwania po awarii

Odzyskiwanie po awarii pomaga w utrzymaniu firmy w normalnym, ciągłym trybie, więc musisz naprawić usługi IT, które są najbardziej krytyczne dla działania Twojej organizacji. Ponadto docelowy czas odzyskiwania (RTO) i docelowy punkt odzyskiwania (RPO) wymagane dla tych usług / maszyn. Ale czy jesteś świadomy RTO i RPO?

RPO: ilość czasu wymagana do przywrócenia sprawności po awarii po powiadomieniu o zakłóceniu działalności. W przypadku jakiejkolwiek katastrofy, jeśli Twoja firma nie jest w stanie wytrzymać co najmniej godziny przestoju bez utraty klientów na rzecz konkurencji, to jest to kluczowe. Potrzebujesz niezawodnego planu odtwarzania po awarii, który zawiera jasno określony dozwolony RTO.

RPO: przedział czasu, w którym dane są akceptowalne. Jeśli po wystąpieniu katastrofy Twoja firma może przetrwać utratę danych tylko przez cztery godziny po całym dniu pracy, może to doprowadzić do katastrofalnej utraty ważnych danych, więc RPO wyniesie cztery godziny.

RTO i RPO organizacji z pewnością wpłyną na jej strategię odzyskiwania i związane z nią wydatki. Aby zmniejszyć całkowity koszt strategii odtwarzania po awarii, lepiej jest podzielić aplikacje na warstwy. Najwyższy poziom zarezerwowany dla aplikacji o znaczeniu krytycznym wymagałby technologii odtwarzania po awarii opartej na ciągłej replikacji danych w czasie rzeczywistym. Warstwa średniego poziomu może wymagać aplikacji opartej na migawkach, a na koniec najniższy poziom może uzyskać prosty system tworzenia kopii zapasowych na poziomie plików.

3. Rozpoznaj interesariuszy w swoim planie odtwarzania po awarii

Następnym i kluczowym krokiem jest zidentyfikowanie tych, którzy muszą zostać zaktualizowani po wystąpieniu katastrofy. Inżynierowie, wsparcie, kierownictwo itp. Będą zaangażowani w przeprowadzanie rzeczywistego odtwarzania po awarii. Mimo to musisz również zidentyfikować innych, takich jak dostawcy, członkowie zespołu PR i marketingu, dostawcy zewnętrzni i kluczowi klienci. Większość firm prowadzi rejestr interesariuszy w dokumentacji biura projektowego, aby powiadomić o katastrofie.

4. Utwórz witrynę odzyskiwania po awarii

Istnieje duże prawdopodobieństwo, że katastrofa poważnie uszkodzi centrum produkcyjne, uniemożliwiając w ten sposób wznowienie operacji w siedzibie głównej, a tym samym migrację krytycznych obciążeń do innej lokalizacji. Zgodnie z planem odtwarzania po awarii, lista kontrolna potrzebna do zbudowania witryny DR do wykorzystania w przypadku awaryjnego przeniesienia krytycznych danych, personelu, zasobów fizycznych, aplikacji reklamowych. Ponadto należy wyposażyć witrynę w wystarczającą ilość sprzętu i oprogramowania, aby przejmować podstawowe obciążenia.

5. Zbierz całą dokumentację infrastruktury

Kiedy dochodzi do katastrofy, wszystko idzie na rzut oka, wszyscy są pod presją. Rzeczywiście, masz zespoły inżynierów posiadające umiejętności i wiedzę wymagane do aktywacji procedur odtwarzania po awarii, ale dokumentacja infrastruktury jest obowiązkowa. Nawet wysoce biegli inżynierowie podczas odtwarzania po awarii woleliby wydawać polecenia z dokumentacji infrastruktury.

Więc z czego składa się ta dokumentacja? Cała konfiguracja systemów i ich wykorzystanie (instalacja, procedury odzyskiwania, uruchamianie aplikacji, system operacyjny i konfiguracja), szablony chmury, przechowywanie i bazy danych (jak i gdzie dane są zapisywane, jak przywracane są kopie zapasowe, jak dane są weryfikowane pod kątem dokładności) i wszystkie zmapowane połączenia sieciowe (z działającymi urządzeniami i ich konfiguracją).

6. Wybierz precyzyjną technologię

Disaster Recovery as a Service (DRaaS) and on-premise disaster recovery is not just the feasible solutions available for business continuity. The next option is to make use of cloud-based disaster recovery in order to spin up your disaster recovery site on a public cloud-like Microsoft AzureAWS i Google Cloud in minutes using an automated disaster recovery solution.

Przed dokonaniem wyboru rozwiązania należy wziąć pod uwagę całkowity koszt posiadania, wymagania dotyczące konserwacji, skalowalność, przywrócenie do poprzedniego punktu w czasie i łatwość testowania. Istnieje wiele możliwości wyboru rozwiązania do odzyskiwania po awarii, dlatego dokładnie zbadaj i wybierz mądrze.

7. Uruchom kanały komunikacyjne

Nikt nie wie, kiedy katastrofa może zapukać do twoich drzwi, więc będąc organizacją, musisz przechowywać listę zespołów (wraz z ich rolami i danymi kontaktowymi) do odtwarzania po awarii. Spróbuj ustanowić kompleksowy łańcuch dowodzenia, który obejmuje odpowiedzialne osoby z każdego z zespołów inżynieryjnych (np. Bazy danych, systemy, sieć, pamięć masowa) oraz odpowiednie kierownictwo. Skonfiguruj również dedykowane kanały i centra komunikacyjne lub narzędzie do udostępniania informacji online, które będzie używane do przesyłania wiadomości błyskawicznych.

8. Przedstaw procedurę reagowania na incydenty

Jeśli masz plan odtwarzania po awarii, „procedura reagowania na incydenty” jest koniecznością. W tym miejscu firmy szczegółowo określą, które zdarzenia należy uznać za katastrofę. Na przykład, jeśli twój system ulegnie awarii, czy uznasz to za katastrofę? Plan powinien również wskazywać, w jaki sposób weryfikować awarię i w jaki sposób zostanie ona zgłoszona - przez automatyczny system monitorowania, zgłaszany przez zespoły inżynierów niezawodności obiektu (SRE) lub zgłaszany przez klientów?

Aby zweryfikować, że katastrofa naprawdę ma miejsce, musisz sprawdzić stan krytycznych urządzeń sieciowych, dzienników aplikacji, sprzętu serwerowego lub innych krytycznych komponentów w systemie produkcyjnym, które aktywnie monitorujesz. Jeśli coś jest dziwne lub nie działa, na pewno masz katastrofę.

9. Przedstaw procedurę działania i odpowiedzi

Po wystąpieniu katastrofy należy jak najszybciej aktywować środowisko odzyskiwania po awarii. Procedura reagowania na akcję przedstawia sposób przełączania awaryjnego na miejsce odzyskiwania po awarii wraz ze wszystkimi wymaganymi krokami. Bez względu na to, czy proces odzyskiwania używa DRaaS, czy narzędzia do odzyskiwania po awarii do automatycznego uruchamiania witryny po awarii, musisz przygotować pisemną procedurę reagowania na działanie, aby upewnić się, że niezbędne usługi zostaną uruchomione, zweryfikowane i kontrolowane.

Ponadto, nie wystarczy przestawienie usług produkcyjnych w inną lokalizację, ponieważ zapewnienie, że wszystkie wymagane dane są na miejscu, a wszystkie wymagane aplikacje biznesowe działają poprawnie, jest równie krytyczne.

10. Przygotuj się na powrót po awarii do infrastruktury podstawowej

Powrót po awarii to przywracanie operacji w głównym centrum produkcyjnym po przeniesieniu ich do ośrodka odzyskiwania po awarii podczas przełączania awaryjnego. Witryny DR nie są przeznaczone do wykonywania codziennych operacji; zamiast tego mogą być używane tylko do celów awaryjnych. Witryny DR są budowane przez bardzo krótki czas (do przywrócenia głównej lokalizacji lub do zbudowania nowego centrum produkcyjnego).

Po zakończeniu katastrofy potrzeba dużo wysiłku, aby wdrożyć przeniesienie danych i usług biznesowych z powrotem do lokalizacji podstawowej - zaplanuj potencjalne częściowe zakłócenie działalności podczas procesu przywracania. Na szczęście istnieją rozwiązania do odtwarzania po awarii, które zapewniają ujednolicony powrót po awarii do podstawowej lokalizacji, aktywowane automatycznie lub ręcznie po zakończeniu weryfikacji podstawowej lokalizacji IT.

11. Zgłoś incydent interesariuszom

Gdy dojdzie do katastrofy, najpierw powiadom nie tylko tych, którzy są odpowiedzialni za wykonywanie działań DR, ale także kluczowych interesariuszy, takich jak dostawcy, klienci, członkowie zespołu PR i marketingu oraz dostawcy zewnętrzni. Rozważ także poinformowanie każdej z tych grup i sformułowanie odpowiedzi, aby rozwiązać ich obawy. Lepiej jest napisać komunikat prasowy z wyprzedzeniem, aby nie tracić czasu podczas rzeczywistej katastrofy i przygotować go do publikacji.

12. Wykonaj szczegółowe testy

Testowanie planu odzyskiwania po awarii jest obowiązkowe, ale zwykle jest pomijane. Testy przełączania awaryjnego są zwykle złożone i prowadzą do utraty danych i zakłócenia usług produktu. Dlatego większość firm nie testuje regularnie swojego planu odtwarzania po awarii.

Aby zrozumieć, jak dobrze będzie działał plan odtwarzania po awarii, należy zaplanować regularne testy przełączania awaryjnego. Zignorowanie testów planu odzyskiwania po awarii może narazić całą firmę na ryzyko w przypadku wystąpienia awarii, uniemożliwiając przywrócenie na czas lub w ogóle. Testy wydajności pomagają również ocenić, czy Twoja dodatkowa lokalizacja jest wystarczająca, aby wytrzymać obciążenie biznesowe.

13. Aktualizuj swój plan odzyskiwania po awarii

Wreszcie, ponieważ testowanie planu odzyskiwania po awarii jest obowiązkowe, aktualizowanie wszystkich dokumentów odzyskiwania po awarii jest również. Pod koniec każdego testu sprawdź, co się stało, jak Twoje zespoły radziły sobie z testem i udokumentuj swoje wyniki.

Wylogowywanie się:

Możesz albo samodzielnie wykonać odzyskiwanie po awarii (opcja tania, ale podatna na błędy), albo skorzystać z dobrego planu odzyskiwania po awarii, który pomoże Twojej firmie odzyskać wszystkie utracone dane i przyspieszyć powrót organizacji do normalnej działalności. Oprócz tego zagwarantuje również, że katastrofa nie wywoła negatywnych konsekwencji finansowych i poważnych zakłóceń w działalności.

Upewnij się, że bierzesz pod uwagę każdy aspekt swojej organizacji (np. Liczbę pracowników, dostępny budżet, czynniki ryzyka, rozmiar infrastruktury IT itp.), Aby określić, co będzie najlepsze dla Ciebie i Twojego zespołu.

Zostaw odpowiedź

pl_PLPolish