Informationen und Tipps zum Aufbau eines Datenarchivs mit TSM

Die langfristige, sichere Aufbewahrung von Daten aufgrund von Compliance-Richtlinien ist nicht nur im Wirtschaftsumfeld ein wichtiges Thema. Auch im Forschungsbereich schreibt z.B. die DFG in ihren Regeln zur Sicherung der guten wissenschaftlichen Praxis vor, dass wissenschaftliche Primärdaten für mindestens 10 Jahre aufzubewahren sind. In immer mehr Forschungsbereichen entsteht darüber hinaus zunehmend die Anforderung, Daten „für immer“ zu speichern. Das LRZ bietet mit seinem Backup- und Archivsystem die technische Infrastruktur zur langfristigen Speicherung der Daten. Allerdings müssen Sie als Anwender ob der – aus IT Sicht – langen Zeiträume einige Dinge von Anfang an beachten, damit Ihr Archivierungsprojekt Erfolg haben kann.

Zu den Begriffen „Archivierung“ und „Langzeitarchivierung“ am LRZ

Das LRZ verwendet die Begriffe Archivierung und Langzeitarchivierung, um die unterschiedliche Aufbewahrungsdauer der archivierten Daten zu kennzeichnen. Wenn Sie als Kunde bei der Registrierung Ihres TSM-Nodes nichts weiter angegeben haben, so folgt dieser den „normalen“ Archivierungsrichtlinien. Diese orientieren sich an den DFG-Richtlinien zur guten wissenschaftlichen Praxis, und deshalb bewahren wir Ihre Daten für 10 Jahre auf. Nach 10 Jahren werden sie automatisch aus dem Archiv gelöscht. Wollen Sie Daten länger als 10 Jahre aufbewahren, so gibt es die Möglichkeit, bei der Registrierung des Nodes als Kommentar mit anzugeben, dass es sich um ein Langzeitarchiv handeln solle. In diesem Fall ist Ihr Node mit einer Richtlinie assoziiert, bei der Archivdaten nie automatisch gelöscht werden, also „für immer“ aufbewahrt werden.

Die Begriffe „Backup“ und „Archivierung“ im Tivoli Storage Manager (TSM)

Die vom LRZ bereitgestellte Softwaresuite „TSM“ unterscheidet zwischen den zwei Speicherarten Backup und Archivierung.

Die Backup-Funktion arbeitet inkrementell und versionsbasiert. Das bedeutet, dass die Backup-Funktion eine Datei nur dann speichert, wenn es die gleiche Version dieser Datei noch nicht im Backup-System gibt. Zudem wird nur eine gewisse Anzahl an Versionen einer Datei (am LRZ i.d.R. 3 Versionen) gespeichert. Auch werden z.B. symbolische Links als symbolische Links gespeichert und wiederhergestellt.

Die Archivierungsfunktion dagegen arbeitet rein zeitorientiert. Das bedeutet, dass die Archivierungsfunktion eine Datei auch dann speichert, wenn es die gleiche Version der Datei schon im Archivsystem gibt, und es speichert auch eine unendliche Anzahl von Versionen dieser Datei für die entsprechend in den Richtlinien eingestellte Dauer. Wenn Sie also ein und dieselbe Datei 10 mal hintereinander archivieren, wird diese beim Backup 1 mal und beim Archiv 10 mal übertragen und gespeichert. Zudem speichert die Archivierungsfunktion bei symbolischen Links nicht den Link selbst, sondern die damit verknüpfte Datei. Ferner erlaubt die Archivierungsfunktion für jede Datei eine Beschreibung zu hinterlegen.

Auf Wunsch bieten wir auch eine spezielle – für die langfristige Aufbewahrung geeignete – Backup-Richtlinie an, bei der eine einzige Version einer Datei „für immer“ aufbewahrt wird. Dies kann z.B. nützlich sein, wenn Sie automatisch alle „neuen“ Dateien in einem Dateisystem archivieren wollen, ohne selbst eine Funktion bereitzustellen, welche die „neuen“ Dateien findet. Falls Sie Bedarf daran haben, melden Sie sich bitte vor der Beantragung des Nodes über den LRZ-Servicedesk.

Best Practice 1: Trennen von Backup und Archiv

Auf den ersten Blick erscheint es praktisch, dass man mit ein und demselben TSM-Node sowohl sein System gegen Ausfälle sichern (Backup) als auch Daten langfristig archivieren kann. Allerdings empfiehlt es sich, für diese Anwendungsszenarien getrennte TSM-Nodes zu verwenden. Der Grund ist, dass das Backup sich auf den aktuell von Ihnen verwendeten Rechner bezieht und das Archiv auch über viele Rechnergenerationen hinweg bestehen kann. Das heißt, dass Sie i.d.R. für jeden neuen Rechner einen neuen Node für das Backup verwenden sollten, um nicht die Systemdaten des alten mit dem des neuen im Backup zu vermischen. Das funktioniert aber nicht mehr, sobald Sie Archivdaten über mehrere Rechnergenerationen hinweg in einem Node aufbewahren wollen. Deshalb empfehlen wir, von Anfang an verschiedene TSM-Nodes für Archiv und Backup zu verwenden.

Best Practice 2: Ordnung halten

Allzu oft kommt es vor, dass Archive als „digitaler Dachboden“ betrieben werden. Das bedeutet, dass Daten, die man noch aufbewahren möchte, achtlos ohne Struktur und Ordnung ins Archiv gesteckt werden. Das hat dann oftmals die Folge, dass es sehr zeitaufwändig werden kann, will man Jahre später etwas Bestimmtes wiederfinden.

Deshalb sollten Sie sich von Anfang an eine Struktur für Ihr Archiv überlegen, dass es Ihnen – und auch dem Nachfolger des Nachfolgers des Nachfolgers Ihres Nachfolgers – erlaubt, in mehreren Jahrzenten noch Ihre Daten wiederzufinden. Leider ist TSM kein vollumfängliches Dokumentenmanagementsystem, welches umfangreiche Verschlagwortung und sonstige Metadaten speichert. Die einzige Möglichkeit der Strukturierung der Daten ist also die Verzeichnisstruktur und die zusätzliche Beschreibung, die Sie jeder Archivdatei geben können und nach der Sie auch suchen können. Bei großen Archivprojekten lohnt sich die Überlegung, ob nicht ein Dokumentenmanagementsystem mit entsprechenden Möglichkeiten zur Speicherung von Metadaten und Referenzierung der Daten nach TSM von Vorteil ist. Diesen Weg beschreiten schon mehrere – am LRZ gehostete – Archivierungsprojekte im Bibliotheks- und Museumsumfeld.

Um möglichen Verwirrungen vorzubeugen, sollten Sie beachten, dass Sie die Verzeichnisstruktur auf Ihrem System möglichst über die Rechnergenerationen hinweg gleich halten. Dabei ist besonders zu beachten, dass TSM in sogenannten Filespaces „denkt“. Ein Filespace entspricht i.d.R. einem Dateisystem. Das kann zum Problem werden, wenn Sie z.B. auf der Rechnergeneration 1 ein separates Dateisystem /archive betrieben haben und auf Rechnergeneration 2 /archive nur noch als „normales“ Verzeichnis im Dateisystem / existiert. Dann haben Sie nämlich plötzlich Archivdaten im Filespace /archive und im Filespace / unter dem Verzeichnis /archive. Das führt dazu, dass Sie bei der Suche den Filespace, in dem Sie suchen wollen, explizit angeben und so an zwei Stellen nach Ihren Daten suchen müssen. Optimalerweise definieren Sie Ihren Archivbereich von vorneherein als separaten Filespace über die TSM-Option VIRTUALMOUNTPOINT.

Best Practice 3: Technologiewechsel im Auge behalten

Der rasend schnelle Wandel in der IT-Welt stellt eine der größten Herausforderungen dar, wenn es darum geht, Daten für lange Zeit aufzubewahren. Vor noch gar nicht allzu langer Zeit war die Speicherung von Daten auf Disketten üblich. Heutzutage stellt es eine nicht unerhebliche Herausforderung dar, Daten von einer Diskette zu lesen. Einerseits, weil die nötige Laufwerkshardware fehlt, um die Bits auszulesen, andererseits, weil gar nicht klar ist, ob noch Software existiert, welche die Datenbits interpretieren kann. Und selbst wenn die Software noch vorhanden ist, ist nicht klar, ob die Software auf modernen Systemen überhaupt noch lauffähig ist.

Deshalb ist es äußerst wichtig, den Technologiewandel im Auge zu behalten. Wenn Sie das LRZ-TSM-Archivsystem verwenden, ist diese Aufgabe zweigeteilt. Das LRZ kümmert sich durch kontinuierliche Migration Ihrer Daten auf aktuelle Hardware darum, dass Ihre Bits über die Zeit lesbar bleiben. Ihre Aufgabe ist es, dafür zu sorgen, dass die Bits interpretierbar bleiben. Dies kann einerseits dadurch geschehen, dass Sie die nötigen Hardware- und Softwaresysteme lauffähig halten oder, sobald sich ein entsprechender Technologiewandel abzeichnet, die Daten aus dem Archiv holen, diese in ein neues Datenformat konvertieren und die neuen Daten wieder archivieren.

Wir sind für Sie da

Sie planen den Aufbau eines digitalen Archivs oder haben Fragen rund um das Thema Archivierung mit TSM? Bitte zögern Sie nicht, uns über den LRZ-Servicedesk zu kontaktieren. Wir beraten Sie gerne.