Základy disaster recovery v IT

Disaster recovery (obnovení provozu po havárii) řeší, co se stane, když vypadnou firemní IT systémy. Stačí si položit otázku: Jak dlouho vydrží společnost fungovat bez IT systémů? – jako jsou pošta, CRM, ERP, intranet a další. Pro některé společnosti může být kritický výpadek v řádu minut (např. banky, burzy, letecký provoz nebo velké e-shopy) a někde bude provoz fungovat klidně i několik dní bez IT. Na základě analýzy, jak dlouhý může být výpadek IT systémů, o kolik peněz daná společnost přichází, versus cena řešením disaster recovery se určuje a plánuje finální podoba řešení disaster recovery. Disaster recovery více-méně znamená zálohování, replikaci a synchronizaci dat IT prostředí do jiné lokality.

Prevence výpadků firemních systémů v provozním prostředí

Než začneme řešit disaster recovery, připomenu pár základních bodů, jak by každá společnost měla předcházet výpadkům. V centrále společnosti, kde jsou firemní servery a další důležité prvky IT, by nemělo chybět následující:

  • Zabezpečení proti ztrátě dat díky vadě pevného disku – používat RAID
  • Využívat přepěťovou ochranu proti bleskům a výkyvům v elektrické síti
  • Lokální UPS – zajišťuje souvislou dodávku elektrické energie pro spotřebiče, které nesmějí být neočekávaně vypnuty. Chrání před krátkodobými výpadky napájení
  • Ochrana před požárem – alarmy a hasicí přístroje by měly být přítomné ve firemní „servrovně“
  • Zabezpečení firemních dat pomocí antiviru a IPS/IDS například používáním UTM Firewallu

 

Možnosti disaster recovery od základní levné varianty po variantu s vysokou dostupností

Disaster recovery má více scénářů řešení, byť pro každou firmu bude ještě daný scénář upraven na míru. Tyto scénáře jsou seřazené od nejjednoduššího a nejlevnějšího, ale s nejdelší dobou obnovy po nejdražší scénář s nejkratší dobou obnovy.

  1. Zálohy dat na lokální disk a následné odesílání záloh do jiné lokality – například druhé pobočky nebo do datacentra, podobné jako s páskami. Máme data, ale potřebujeme znovu nainstalovat servery. Často se zálohuje pomocí „snapshotů“, kdy se obnovují celé disk(y)
  2. Zálohování dat na pásku a následné odesílání pásky mimo lokalitu – například do bankovní schránky, nebo na druhou pobočku společnosti. IT oddělení si v případě havárie vyzvedne pásky, nainstaluje znovu operační systémy, aplikace a obnoví databáze ze zálohy
  3. Replikace dat na externí lokalitu – většinou replikuje data s malým časovým zpožděním na rozdíl od varianty 1 a 2, které většinou probíhají přes noc.
  4. Private cloud řešení – replikuje nejen data, ale i servery, šablony a další do externího datacentra. Toto datacentrum se aktivuje v případě výpadku primárního datacentra, s malou ztrátou dat a v rámci desítek minut až hodin, dle zadání
  5. Hybridní cloudové řešení, které je rozloženo ve dvou lokalitách – také známé pod pojmem “geo cluster” či “geo cloud”

Plánování disaster recovery (zjednodušeně)

disaster recovery

Plánování disaster recovery je velmi rozsáhlá činnost, která kromě volby řešení disaster recovery a jeho následné definice, vyžaduje analýzu procesů, kontaktů a dalších bodů. U předchozích variant 1,2 a 3 řešíme pouze zálohování dat na jinou lokalitu, ale neřešíme spuštění firemních systémů ze záložní lokality. My se v následujícím postupu podíváme na plánování variant 4 a 5 a to spíše z technické stránky, bez plánování procesů.

  1. Počet serverů – v prvním kroku je třeba zjistit, kolik má společnost serverů  a zda využívá virtualizaci. Poté vezmete seznam (virtuálních) serverů a definujete, jaké servery se mají zálohovat do disaster recovery lokality. Kromě počtů serverů, které potřebuje zálohovat, se ještě domluvíme na druhé lokalitě, jestli to bude jiná pobočka společnosti, rack v datacentru nebo public cloud.
  2. Licence operačních systémů, databází a aplikací – ke každému serveru, který bude v disaster recovery, kontrolujte licence operačního systému, protože pokud máte Windows server, ten musíte licencovat. Dále kontrolujeme, jestli společnost využívá placenou databázi jako je například MS SQL nebo Oracle a řešíme se zákazníkem, jak se budou licencovat. Pokud zákazník využívá Oracle databázi, může to zasáhnout do koncepce disaster recovery. Oracle totiž neuznává cloudové prostředí a musíte licencovat celé prostředí (fyzické servery). Velmi jednoduše se pak může stát, že licence databází budou jednou z dražších položek disaster recovery. Stejně společnost upozorněte na aplikace, které má nainstalované nad operačním systémem a databází. Ať prověří, jestli je třeba extra licence pro disaster recovery.
  3. Výpočetní výkon – už jsme v situaci, kdy víme počet (virtuálních) serverů, víme jaké jsou použity operační systémy, databáze a aplikace. Víme, kde bude umístěno disaster recovery a pro kolik uživatelů bude dimenzováno. Nyní potřebujeme definovat výpočetní výkon. Zde řešíme:
    • Počet procesorů nebo součet výkonu procesorů (CPU) v GHz
    • Velikost operační paměti (RAM) v GB
    • Velikost diskového pole v GB – zde zjišťujeme náročnost na výkon disku, (IOPS) zda dostačují SAS disky nebo potřebujeme rychlejší SSD disky

    Většinou není třeba výpočetní výkon dimenzovat 1:1, tedy výkon, který společnost  využívá v provozním prostředí nyní, ale stačí méně výkonu respektive procesorů a paměti. Místo na disku je třeba většinou domluvit minimálně 1:1. Záleží na principu zálohování či synchronizace.

  4. Zálohování dat z provozního prostředí do disaster recovery lokality – jeden z nejdůležitějších bodů řešení disaster recovery je volba principu, jak se budou data odlévat z provozního prostředí do disaster recovery. Pro lepší pochopení vyžadujeme odpovědi na následující dvě otázky:
    • Jak velký výpadek IT firma snese? Jsou to minuty, hodiny nebo den a více?
    • Jak dlouho mě bude trvat obnovení provozu?

    Existuje několik způsobů, jak firemní data zálohovat do disaster recovery lokality a poté data obnovit a spustit. Zde jsou nejpoužívanější:

    • Replikační software – umí replikovat data tak, že na druhé straně není třeba nic obnovovat ručně.
    • Zálohovací agenti – dokážou zálohovat konkrétní aplikaci, databázi či operační systém samostatně, poté je třeba data ručně obnovit ze zálohy
    • Snapshoty – většinou v neděli večer se provede snaphot (kopie celého disku) a v pondělí až do soboty se udělají jen rozdílové zálohy. V tomto případě se obnovuje ze zálohy celý disk + rozdílová záloha.
    • Synchronizace souborů – může se použít na soubory. Proces synchronizace adresářů může být součástí operačního systému nebo lze použít aplikaci či si napsat script. Používá se spíše na zálohu souborů (fotky, smlouvy, scany atd.). Synchronizaci znáte například z aplikace Dropbox.com
  5. Aktivní prvky a jejich konfigurace – zřejmě budete potřebovat firewall (hw nebo virtuální), který by měl mít stejná pravidla jako v provozním prostředí společnosti. Dále zde bude třeba nastavit networking pravidla (switch), která by měla kopírovat provozní prostředí. Pokud uděláte změnu konfigurace v provozním prostředí, měli byste změnu udělat i v disaster recovery prostředí
  6. Přepnutí provozu do disaster recovery lokality – zde řešíme, jak se zaměstnanci firmy budou připojovat do disaster recovery prostředí po výpadku hlavních systémů ve společnosti. Zde existuje více řešení, některá z nich jsou:
    • Zaměstnanci se budou připojovat na jinou IP adresu
    • Změna IP adresy ze strany ISP – musíte mít internet a disaster recovery řešení od jednoho poskytovatele
    • Vytvořením IPSec tunelu
    • Konfigurací virtualizace – například geo cluster
    • a další
  7. Pořadí spouštění systémů v disaster recovery – zde se definuje pořadí, v jakém se budou operační systémy, aplikace a databáze spouštět respektive obnovovat
  8. Prostory pro zaměstnance v disaster recovery lokalitě – občas se najde společnost, která v rámci disaster recovery řeší i náhradní prostory pro své zaměstnance. Jedná se o katastrofické scénáře, kdy  nelze využívat stávající prostory společnosti, ale ta musí fungovat dále
  9. Obnovení provozního prostředí – v poslední řadě, pokud společnost plně přešla na “záložní chod systémů” díky disaster recovery, se následně  řeší postupná obnova provozního prostředí firmy.

Zkratky

Podívejme se na přehled zkratek, s kterými se můžete setkat v disaster recovery plánování.

  • DR – Disaster Recovery
  • BC – (Business continuity) Disaster recovery je součástí většího plánu, který je nazývá Business Continuity a řeší i ostatní oblasti, nejen IT prostředí.
  • RPO (Recovery Point Objective) – znamená, jak staré mám zálohy, jinak řečeno, ze kdy jsou záložní data v disaster recovery řešení? O kolik dat přijdu?
  • RTO (Recovery Time Objective) – definuje, za jak dlouho obnovím data ze zálohy. Jakou jste si zvolili variantu řešení zálohu na pásky a čekání na nový server další den nebo cloudové řešení a obnovu v řádu minut či hodin?

Zdroje

Author: Radek

Fanoušek WordPressu, se zájmem o dění okolo internetu a přírody.

Share This Post On

Submit a Comment

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Přihlašte se k odběru nových článků!

Přihlašte se o odběru a budete dostávat informace o nových článcích emailem.

Hotovo, děkuji za přihlášení.

Share This