Notfallplanung
Die Notfallplanung gibt einen Überblick über die zu erwartenden Notfälle und wie die Cusy GmbH mit ihnen umgeht.
Für jedes Szenario wird beschrieben
- präventive Maßnahmen
- die Wiederherstellungsaktion
- die Wiederherstellungszeit und der maximal tolerierbare Datenverlust
- Maßnahmen um das Szenario zukünftig zu verhindern
Terminologie
- Wiederherstellungszeit (Recovery Time Objective: RTO)
- Die geplante Zeit, die benötigt wird von der Entdeckung des Notfalls bis zur Wiederherstellung des Dienstes.
- Maximal tolerierbarer Datenverlust (Recovery Point Objective: RPO)
- Der Zeitpunkt, zu dem Daten nach der Wiederherstellung des Dienstes zur Verfügung stehen.
Hardware-Fehler
Verlust von aktiven Netzwerkkomponenten
- Schutzmaßnahmen
- Wir setzen Hot-Standby-Router und Warm-Standby-Switches ein
- Wiederherstellungsmaßnahmen
Tauschen der defekten Komponente durch Standby-Komponente. Dies geschieht für Router automatisch, für Switches manuell.
- RTO für Hot-Standby-Router: weniger als 30 Sekunden
- RTO für Warm-Standby-Switch: 4 Stunden
- RPO: entfällt
Verlust der VM-Server
- Schutzmaßnahmen
- Professionelle Hardware mit Komponenten, die häufig redundant aufgebaut ist mit mehreren Festplatten in RAID und redundanter Stromversorgung.
- Wiederherstellungsmaßnahmen
Starten der virtuellen Maschinen aus dem ausgefallenen Host auf dem Ersatz-Host.
- RTO: 1 Stunde
- RPO: 0
Verlust eines einzelnen Storage-Server
- Schutzmaßnahmen
- Alle Images virtueller Maschinen auf einem verteilten Speichersystem (Ceph) mit n + 1 Redundanz. Der Verlust eines einzigen Server kann also transparent maskiert werden.
- Wiederherstellungsmaßnahmen
Automatische Rekonfiguration von Ceph. I/O wait kann sich in dieser Zeit auf diesen VMs bemerkbar machen.
- RTO: 5 Minuten
- RPO: 0
Verlust mehrerer Speicherserver
- Schutzmaßnahmen
- Professionelle Hardware mit Komponenten, die häufig redundant aufgebaut ist mit mehreren Festplatten in RAID und redundanter Stromversorgung.
- Wiederherstellungsmaßnahmen
Wiederherstellung der virtuellen Maschinen aus dem Backup.
- RTO: 4 Stunden
- RPO: 24 Stunden
Verlust eines Server-Racks
- Schutzmaßnahmen
- Das wahrscheinlichste Szenario ein Server-Rack zu verlieren ist durch Überhitzung und Feuer. Die Racks sind daher locker belegt um eine optimale Luftströmung und Dichte zu ermöglichen ohne zu Überhitzen. Außerdem verwendet das Rechenzentrum ein Rauchmeldesystem für die Früherkennung eines Brandes.
- Wiederherstellungsmaßnahmen
Kaufen und installieren neuer Hardware sowie die Bereitstellung des neuen Racks im Rechenzentrum.
- RTO: 2 Wochen
- RPO: nicht verfügbar
Höhere Gewalt
Stromausfall im Rechenzentrum
- Schutzmaßnahmen
- Redundante Stromleitungen, UPS-Backup und Dieselgeneratoren im Rechenzentrum.
- Wiederherstellungsmaßnahmen
Rechenzentrumspersonal stellt Stromversorgung wieder her.
- RTO: nicht verfügbar, abgedeckt durch 3rd-Party-SLA
- RPO: nicht verfügbar
Verlust der Netzwerkverbindung im Rechenzentrum
- Schutzmaßnahmen
- Das Rechenzentrum bietet redundante Uplinks an das Internet zusammen mit separaten Erdkabel aus unterschiedlichen Richtungen.
- Wiederherstellungsmaßnahmen
Rechenzentrum stellt Konnektivität wieder her.
- RTO: nicht verfügbar, abgedeckt durch 3rd-Party-SLA
- RPO: nicht verfügbar
Verlust des Rechenzentrums
- Schutzmaßnahmen
- Unser Rechenzentrum implementiert eine Reihe von Sicherheitsmaßnahmen: Kamp IT-Sicherheitsstandards.
- Wiederherstellungsmaßnahmen
Bewerten der Wiederherstellung des Rechenzentrums, wenn möglich zusammen mit dem Rechenzentrumsbetreiber.
Alternativ können neue Rechenzentrum gefunden und die Infrastruktur dort wieder aufgebaut werden.
- RTO: nicht verfügbar
- RPO: nicht verfügbar
Software-Fehler
Korruptes Dateisystem
- Schutzmaßnahmen
- Es werden Journaling-Dateisysteme verwendet und der Einsatz von Caching im Storage-Netzwerk wird vermieden, die zu Inkonsistenzen bei Ausfallszenarien führen könnten.
- Wiederherstellungsmaßnahmen
Wiederherstellen des Dateisystems oder fehlender Dateien aus den Backups.
- RTO: 4 Stunden
- RPO: 1 Tag
Konfigurationsfehler
- Schutzmaßnahmen
- Weitgehend automatisiertes, reproduzierbares und versionsverwaltetes Konfigurationssystem.
- Wiederherstellungsmaßnahmen
Zurückrollen der Konfigurationsänderungen und Wiederherstellung aus Backups, wenn Daten verloren gegangen sind.
- RTO: 4 Stunden während der Bürozeiten
- RPO für reversible Konfigurationsänderungen: 4 Stunden
- RPO für die Wiederherstellung: 1 Tag
Anwendungsfehler
- Schutzmaßnahmen
- Weitgehend automatisierte, reproduzierbare und versionsverwaltete Bereitstellung der Anwendungen.
- Wiederherstellungsmaßnahmen
Erneute Installation der Anwendung und Wiederherstellen der Daten aus dem Backup.
- RTO: 4 Stunden während der Bürozeiten
- RPO für die Neuinstallation: 4 Stunden während der Bürozeiten
- RPO für die Wiederherstellung: 1 Tag
Benutzerfehler
Zufälliges Löschen von Dateien
- Schutzmaßnahmen
- Durchführen von Backups.
- Wiederherstellungsmaßnahmen
Wiederherstellen der gelöschten Dateien aus dem Backup.
- RTO: 4 Stunden während der Bürozeiten
- RPO: 1 Tag
Zufälliges Löschen von Datenbanken/Verzeichnisbäumen
- Schutzmaßnahmen
- Backups und Einschränken des Root-Zugriffs
- Wiederherstellungsmaßnahmen
Wiederherstellen gelöschter Dateien aus dem Backup.
- RTO: 4 Stunden während der Bürozeiten
- RPO: 1 Tag