Notfallplanung

Die Notfallplanung gibt einen Überblick über die zu erwartenden Notfälle und wie die Cusy GmbH mit ihnen umgeht.

Für jedes Szenario wird beschrieben

  • präventive Maßnahmen
  • die Wiederherstellungsaktion
  • die Wiederherstellungszeit und der maximal tolerierbare Datenverlust
  • Maßnahmen um das Szenario zukünftig zu verhindern

Terminologie

Wiederherstellungszeit (Recovery Time Objective: RTO)
Die geplante Zeit, die benötigt wird von der Entdeckung des Notfalls bis zur Wiederherstellung des Dienstes.
Maximal tolerierbarer Datenverlust (Recovery Point Objective: RPO)
Der Zeitpunkt, zu dem Daten nach der Wiederherstellung des Dienstes zur Verfügung stehen.

Hardware-Fehler

Verlust von aktiven Netzwerkkomponenten

Schutzmaßnahmen
Wir setzen Hot-Standby-Router und Warm-Standby-Switches ein
Wiederherstellungsmaßnahmen

Tauschen der defekten Komponente durch Standby-Komponente. Dies geschieht für Router automatisch, für Switches manuell.

  • RTO für Hot-Standby-Router: weniger als 30 Sekunden
  • RTO für Warm-Standby-Switch: 4 Stunden
  • RPO: entfällt

Verlust der VM-Server

Schutzmaßnahmen
Professionelle Hardware mit Komponenten, die häufig redundant aufgebaut ist mit mehreren Festplatten in RAID und redundanter Stromversorgung.
Wiederherstellungsmaßnahmen

Starten der virtuellen Maschinen aus dem ausgefallenen Host auf dem Ersatz-Host.

  • RTO: 1 Stunde
  • RPO: 0

Verlust eines einzelnen Storage-Server

Schutzmaßnahmen
Alle Images virtueller Maschinen auf einem verteilten Speichersystem (Ceph) mit n + 1 Redundanz. Der Verlust eines einzigen Server kann also transparent maskiert werden.
Wiederherstellungsmaßnahmen

Automatische Rekonfiguration von Ceph. I/O wait kann sich in dieser Zeit auf diesen VMs bemerkbar machen.

  • RTO: 5 Minuten
  • RPO: 0

Verlust mehrerer Speicherserver

Schutzmaßnahmen
Professionelle Hardware mit Komponenten, die häufig redundant aufgebaut ist mit mehreren Festplatten in RAID und redundanter Stromversorgung.
Wiederherstellungsmaßnahmen

Wiederherstellung der virtuellen Maschinen aus dem Backup.

  • RTO: 4 Stunden
  • RPO: 24 Stunden

Verlust eines Server-Racks

Schutzmaßnahmen
Das wahrscheinlichste Szenario ein Server-Rack zu verlieren ist durch Überhitzung und Feuer. Die Racks sind daher locker belegt um eine optimale Luftströmung und Dichte zu ermöglichen ohne zu Überhitzen. Außerdem verwendet das Rechenzentrum ein Rauchmeldesystem für die Früherkennung eines Brandes.
Wiederherstellungsmaßnahmen

Kaufen und installieren neuer Hardware sowie die Bereitstellung des neuen Racks im Rechenzentrum.

  • RTO: 2 Wochen
  • RPO: nicht verfügbar

Höhere Gewalt

Stromausfall im Rechenzentrum

Schutzmaßnahmen
Redundante Stromleitungen, UPS-Backup und Dieselgeneratoren im Rechenzentrum.
Wiederherstellungsmaßnahmen

Rechenzentrumspersonal stellt Stromversorgung wieder her.

  • RTO: nicht verfügbar, abgedeckt durch 3rd-Party-SLA
  • RPO: nicht verfügbar

Verlust der Netzwerkverbindung im Rechenzentrum

Schutzmaßnahmen
Das Rechenzentrum bietet redundante Uplinks an das Internet zusammen mit separaten Erdkabel aus unterschiedlichen Richtungen.
Wiederherstellungsmaßnahmen

Rechenzentrum stellt Konnektivität wieder her.

  • RTO: nicht verfügbar, abgedeckt durch 3rd-Party-SLA
  • RPO: nicht verfügbar

Verlust des Rechenzentrums

Schutzmaßnahmen
Unser Rechenzentrum implementiert eine Reihe von Sicherheitsmaßnahmen: Kamp IT-Sicherheitsstandards.
Wiederherstellungsmaßnahmen

Bewerten der Wiederherstellung des Rechenzentrums, wenn möglich zusammen mit dem Rechenzentrumsbetreiber.

Alternativ können neue Rechenzentrum gefunden und die Infrastruktur dort wieder aufgebaut werden.

  • RTO: nicht verfügbar
  • RPO: nicht verfügbar

Software-Fehler

Korruptes Dateisystem

Schutzmaßnahmen
Es werden Journaling-Dateisysteme verwendet und der Einsatz von Caching im Storage-Netzwerk wird vermieden, die zu Inkonsistenzen bei Ausfallszenarien führen könnten.
Wiederherstellungsmaßnahmen

Wiederherstellen des Dateisystems oder fehlender Dateien aus den Backups.

  • RTO: 4 Stunden
  • RPO: 1 Tag

Konfigurationsfehler

Schutzmaßnahmen
Weitgehend automatisiertes, reproduzierbares und versionsverwaltetes Konfigurationssystem.
Wiederherstellungsmaßnahmen

Zurückrollen der Konfigurationsänderungen und Wiederherstellung aus Backups, wenn Daten verloren gegangen sind.

  • RTO: 4 Stunden während der Bürozeiten
  • RPO für reversible Konfigurationsänderungen: 4 Stunden
  • RPO für die Wiederherstellung: 1 Tag

Anwendungsfehler

Schutzmaßnahmen
Weitgehend automatisierte, reproduzierbare und versionsverwaltete Bereitstellung der Anwendungen.
Wiederherstellungsmaßnahmen

Erneute Installation der Anwendung und Wiederherstellen der Daten aus dem Backup.

  • RTO: 4 Stunden während der Bürozeiten
  • RPO für die Neuinstallation: 4 Stunden während der Bürozeiten
  • RPO für die Wiederherstellung: 1 Tag

Benutzerfehler

Zufälliges Löschen von Dateien

Schutzmaßnahmen
Durchführen von Backups.
Wiederherstellungsmaßnahmen

Wiederherstellen der gelöschten Dateien aus dem Backup.

  • RTO: 4 Stunden während der Bürozeiten
  • RPO: 1 Tag

Zufälliges Löschen von Datenbanken/Verzeichnisbäumen

Schutzmaßnahmen
Backups und Einschränken des Root-Zugriffs
Wiederherstellungsmaßnahmen

Wiederherstellen gelöschter Dateien aus dem Backup.

  • RTO: 4 Stunden während der Bürozeiten
  • RPO: 1 Tag