Sicherung großer Dateibestände

Herausforderungen und Lösungsmöglichkeiten für die Sicherung großer Datenbestände

Immer mehr Forschungsbereiche sehen sich mit dem Problem extrem großer und vor allem sehr schnell wachsender Datenmengen konfrontiert. Neben den fachspezifischen Fragen, wie z.B. aus diesen Daten neue wissenschaftliche Erkenntnisse gezogen werden können, müssen Sie sich mehr denn je auch mit Fragen zur darunterliegenden IT-Infrastruktur beschäftigen. Ein oftmals sehr stiefmütterlich behandeltes Thema ist dabei die Sicherung Ihrer Daten gegen Datenverlust. Im vorliegenden Artikel wollen wir näher auf die Herausforderung und mögliche Lösungsansätze für die Sicherung großer Datenbestände eingehen.

Die klassische Datensicherungsstrategie der wöchentlichen Voll- und täglichen differentiellen Sicherung steht vor dem Problem, dass sie mit den schnell wachsenden Datenmengen nicht mehr skaliert. Deshalb setzt das LRZ schon seit Jahrzenten auf das sogenannte Incremental Forever Verfahren des Tivoli Storage Managers. Dabei ist nur die erste Sicherung eine Vollsicherung und bei allen folgenden Sicherungsläufen werden jeweils nur die Änderungen zum vorherigen Sicherungspunkt übertragen. Dadurch müssen für den Sicherungsvorgang viel weniger Daten bewegt werden als bei der traditionellen Methode. Für den Wiederherstellungsfall haben jedoch beide Konzepte das Problem, dass sämtliche Daten aus dem Backup zuerst zurückkopiert werden müssen. Selbst bei leistungsfähigen Systemen und optimalen Bedingungen bedeutet das bei großen Datenbeständen mehrere Stunden Ausfallzeit.

Neben den Datenbeständen wachsen auch die Anforderungen der Nutzer an die Wiederherstellungszeit (Recovery Time Objective RTO) und den Wiederaufsetz-Zeitpunkt des Systems nach einem Ausfall (Recovery Point Objective RPO).

DAR-01

Während es in der Vergangenheit oftmals akzeptabel war im Falle eines Datenverlusts auf dem Backup der letzten oder vorletzten Nacht aufzusetzen und für die Wiederherstellung bis zum nächsten oder übernächsten Tag zu warten, stehen IT-Verantwortliche heute nicht selten vor der Forderung von RPO und RTOs im Stunden- oder sogar Minutenbereich. Dies lässt sich natürlich mit den traditionellen Backupverfahren nicht mehr erfüllen.

Im Zuge der gesteigerten Anforderungen haben Speichersystemhersteller neue Sicherungsverfahren entwickelt. Diese lassen sich in folgende Kategorien einordnen:

  • Snapshots
  • Synchrone Replikation
  • Asynchrone Replikation
  • Replikation von Snapshots

Leider wird oftmals übersehen, dass diese Verfahren – anders als das traditionelle Backup – nicht gegen alle Formen des Datenverlustes schützen können. Datenverlustszenarien lassen sich grob in folgende Kategorien einordnen:

  1. Hardwaredefekt
  2. Softwaredefekt
  3. Bedienfehler bzw. mutwilliges Löschen (Hacker/Virus)
  4. Defekt in der Software des Speichersystems

Folgende Tabelle gibt eine Übersicht, welche Sicherungsverfahren gegen welche Datenverlustarten schützen können:

 

Hardware

Software

User/Evil

Storage SW

Snapshots

 

X

X

 

Sync Repl

X

 

 

 

Async Repl

X

 

 

 

Snap + Repl

X

X

X

 

Wie wir sehen, kann die Kombination von Snapshots und deren Replikation auf ein Sekundärsystem – insbesondere wenn es räumlich weit genug getrennt vom Primärsystem steht – einen guten Schutz gegen viele Datenverlustszenarien bieten. Allerdings stehen die genannten Sicherungsverfahren i.d.R. nur innerhalb der gleichen Speichersystemfamilie zur Verfügung. Das heißt Primär- und Sekundärsystem laufen mit der gleichen Software. Wenn es nun zu einem Fehler in der Software des Speichersystems kommt, kann es durchaus sein, dass beide Systeme davon betroffen sind und es somit auf beiden Seiten zu einem Datenverlust kommt.

In letzter Konsequenz bedeutet das, dass auch moderne Backupkonzepte noch eine traditionelle Sicherungskopie mit System- und Medienbruch als sog. „Letzte Verteidigungslinie“ vorsehen müssen.  

Das LRZ bietet dazu allen Lehrstühlen der TU und LMU die Möglichkeit der kostenlosen Nutzung unseres Backupsystems, welches mit der Software IBM Tivoli Storage Manager betrieben wird. Näheres hierzu können Sie unter Backup und Archivierung erfahren.

Sie planen die Anschaffung eines großen Storagesystems für Ihren Lehrstuhl und wollen unser Backupsystem für die Sicherung verwenden? Wenden Sie möglichst frühzeitig über den LRZ-Servicedesk so können wir Ihnen bereits in der Planungsphase wertvolle Tipps und Hinweise geben und die vom LRZ betriebene Infrastruktur auf mögliche Bottlenecks prüfen und entsprechende Maßnahmen ergreifen.

Sie benötigen für Ihre Forschungsaufgaben einen leistungsfähigen, hochverlässlichen Datenspeicher, möchten sich aber lieber nicht um dessen Betrieb kümmern sondern sich ganz auf Ihr Forschungsvorhaben konzentrieren? Dann könnte evtl. der LRZ Storage Cloud Dienst für Sie interessant sein. Näheres zu diesem Angebot finden Sie hier: Online-Speicher (NAS) .