{"id":12785,"date":"2022-09-21T12:00:18","date_gmt":"2022-09-21T10:00:18","guid":{"rendered":"https:\/\/blog.rwth-aachen.de\/itc\/?p=12785"},"modified":"2023-02-10T14:26:35","modified_gmt":"2023-02-10T13:26:35","slug":"projektverzug-archivmigration","status":"publish","type":"post","link":"https:\/\/blog.rwth-aachen.de\/itc\/2022\/09\/21\/projektverzug-archivmigration\/","title":{"rendered":"Projektverzug Archivmigration"},"content":{"rendered":"<div class=\"twoclick_social_bookmarks_post_12785 social_share_privacy clearfix 1.6.4 locale-de_DE sprite-de_DE\"><\/div><div class=\"twoclick-js\"><script type=\"text\/javascript\">\/* <![CDATA[ *\/\njQuery(document).ready(function($){if($('.twoclick_social_bookmarks_post_12785')){$('.twoclick_social_bookmarks_post_12785').socialSharePrivacy({\"txt_help\":\"Wenn Sie diese Felder durch einen Klick aktivieren, werden Informationen an Facebook, Twitter, Flattr, Xing, t3n, LinkedIn, Pinterest oder Google eventuell ins Ausland \\u00fcbertragen und unter Umst\\u00e4nden auch dort gespeichert. N\\u00e4heres erfahren Sie durch einen Klick auf das <em>i<\\\/em>.\",\"settings_perma\":\"Dauerhaft aktivieren und Daten\\u00fcber-tragung zustimmen:\",\"info_link\":\"http:\\\/\\\/www.heise.de\\\/ct\\\/artikel\\\/2-Klicks-fuer-mehr-Datenschutz-1333879.html\",\"uri\":\"https:\\\/\\\/blog.rwth-aachen.de\\\/itc\\\/2022\\\/09\\\/21\\\/projektverzug-archivmigration\\\/\",\"post_id\":12785,\"post_title_referrer_track\":\"Projektverzug+Archivmigration\",\"display_infobox\":\"on\"});}});\n\/* ]]> *\/<\/script><\/div><p><div id=\"attachment_12786\" style=\"width: 310px\" class=\"wp-caption alignright\"><a href=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-12786\" class=\"wp-image-12786 size-medium\" src=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920-300x200.png\" alt=\"Coming Soon mit Sanduhr\" width=\"300\" height=\"200\" srcset=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920-300x200.png 300w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920-1024x683.png 1024w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920-768x512.png 768w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920-1536x1024.png 1536w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/coming-soon-hour-glass-g547b23fd4_1920.png 1920w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-12786\" class=\"wp-caption-text\">Quelle: <a href=\"https:\/\/pixabay.com\/de\/illustrations\/coming-soon-stunden-glas-4721933\/\">Pixabay<\/a><\/p><\/div><\/p>\n<h3><em><span style=\"color: #00549f;\">**Update**<\/span><\/em><\/h3>\n<p><em>Derzeit dauert die Migration der Archivdaten noch an und dauert \u00fcber das verl\u00e4ngerte Projektziel hinaus. Nutzende, deren Daten noch nicht migriert wurden, werden per E-Mail kontaktiert. Auf unserer <a href=\"https:\/\/archivemigration.pages.rwth-aachen.de\/archiveanalysis\/python-report.html\">Reporting-Seite<\/a> k\u00f6nnt ihr den aktuellen Stand der Migration nachsehen. (*)<\/em><\/p>\n<p>&nbsp;<\/p>\n<p>Das Projekt \u201eArchivmigration\u201c, in dem wir archivierte Daten aus dem Bestandssystem TSM in die neuen Zielsysteme <a href=\"https:\/\/help.itc.rwth-aachen.de\/service\/44830fa165f14469be64823f6016cd9e\/\">DigitalArchiv<\/a> und <a href=\"https:\/\/help.itc.rwth-aachen.de\/service\/7ab6210773b04ef28a1a8cb33628be67\/article\/da644c2defb9492ea2eb82bbae5ea0d6\/\">Coscine<\/a> \u00fcberf\u00fchren, entwickelt sich mehr und mehr zu einem Mammut-Projekt. Trotz ausgiebiger Planung der f\u00fcnf Teilprojekte und umfassender Kommunikation zur Klassifizierung der archivierten Knoten, kam und kommt es in der technischen Umsetzung der Migration zu unvorhersehbaren Problemen, die nun zu einem Projektverzug f\u00fchren.<\/p>\n<p><!--more--><\/p>\n<h3><span style=\"color: #00549f;\">Geplantes Projektende 31.12.2022<\/span><\/h3>\n<p>Aufgrund der geh\u00e4uften Probleme und st\u00e4ndig notwendigen Anpassungen unserer Arbeitsabl\u00e4ufe, wird sich das Projektende voraussichtlich auf den 31. Dezember 2022 verschieben. Ganz wichtig ist es uns aber an dieser Stelle allen Betroffenen mitzuteilen, dass die archivierten Daten sicher bei uns sind. Die oberste Pr\u00e4misse in der Archivmigration ist es, die Integrit\u00e4t der zu migrierenden Daten zu wahren.<\/p>\n<p>Mit diesem Blogbeitrag m\u00f6chten wir transparent Einblick geben in die Herausforderungen und technischen Probleme, die uns bislang bei der Archivmigration begegnet sind.<\/p>\n<p>Auch wenn wir heute nur einen Zwischenschritt beschreiben k\u00f6nnen, bedanken wir uns bei allen Knotenansprechpersonen und Backup-Admins, die stellvertretend f\u00fcr u.a. ausgeschiedene Knotenansprechpersonen die Klassifikation von Archivknoten (Daten aus der Forschung oder Lehrveranstaltung oder sonstige Daten) \u00fcbernommen haben. Damit haben sie die Grundlage geschaffen, um die Archivknoten in die richtigen Zielsysteme migrieren zu k\u00f6nnen. Dennoch waren in vielen F\u00e4llen auch hier Nacharbeiten notwendig, sodass es auch jetzt noch zum Einholen von Metadaten individueller Knoten kommt.<\/p>\n<p>Dabei haben wir festgestellt, dass auch Knoten klassifiziert worden sind, obwohl sie gar keine Daten enthalten. Da es technisch nicht m\u00f6glich ist, diese zu migrieren, weil keine Daten vorhanden sind, die migriert werden k\u00f6nnen, werden diese Knoten mit dem Status \u201eNo Migration\u201c versehen.\u00a0 Die jeweiligen Knotenansprechpersonen werden dar\u00fcber per E-Mail informiert.<\/p>\n<h3><span style=\"color: #00549f;\">Laufend neue Probleme mit dem Start der technischen Migration<\/span><\/h3>\n<p>Der urspr\u00fcngliche Plan, die archivierten Daten automatisiert aus dem Bestandssystem TSM in die neuen Zielsysteme DigitalArchiv und Coscine zu \u00fcberf\u00fchren, hat aufgrund einer Vielzahl von technischen Problemen nicht wie geplant funktioniert. Dieser Umstand beschreibt den prim\u00e4ren Grund f\u00fcr den Projektverzug. Aufgrund des gro\u00dfen Umfangs der zu migrierenden Daten von \u00fcber 1.690.722 GB (ca. 1,7 PB) mit \u00fcber 785 Mio. Objekten, ergibt sich zwangsl\u00e4ufig eine gewisse Datenheterogenit\u00e4t, sodass wir laufend in neue Probleme seit dem Start der technischen Migration gelaufen sind, die wir so nicht absehen konnten.<\/p>\n<p>Die gr\u00f6\u00dften Herausforderungen und Probleme, die uns bisher begegnet sind, m\u00f6chten wir etwas n\u00e4her ausf\u00fchren.<\/p>\n<ul>\n<li><strong>Plattformprobleme auf dem Altsystem:<\/strong><br \/>\nIn das Bestandsystem TSM konnten Daten in einen Windows- oder Linux-Knoten eingespielt werden. Beide Systeme erfordern ganz unterschiedliche Anpassungen und jeder \u201eAusnahmefall\u201c, der uns bei den Archivknoten begegnet, muss stets f\u00fcr beide Plattformen korrigiert werden.<\/li>\n<li><strong>Heterogenit\u00e4t der vorgehaltenen Daten, bspw. Encoding der Dateinamen:<\/strong><br \/>\nDas Bestandsystem TSM operiert nicht nach dem Encoding-Standard UTF-8, sodass Dateinamen mit Sonderzeichen o.\u00e4. nicht korrekt ausgegeben werden und wir diese so auch nicht korrekt migrieren k\u00f6nnten. Da das Zeichenkodiersystem des TSM nicht dokumentiert ist, mussten wir zun\u00e4chst viel Zeit f\u00fcr das Dekodieren aufbringen, um eine korrekte Migration zu erm\u00f6glichen. F\u00fcr die Zielsysteme arbeiten wir mit dem Standard UTF-8, sodass zuk\u00fcnftig dieses Problem nicht mehr auftaucht.<\/li>\n<li><strong>Verschl\u00fcsselte Knoten:<\/strong><br \/>\nIm Bestandsystem gab es die M\u00f6glichkeit, Knoten \u00fcber den TSM zu verschl\u00fcsseln. Nur, wer im Besitz des Schl\u00fcssels ist, kann auf die Daten zugreifen. Auch uns im IT Center ist dieser Schl\u00fcssel nicht bekannt und es gibt f\u00fcr uns *keine* M\u00f6glichkeit, auf diese Daten zuzugreifen und sie zu migrieren. Wir werden die Knotenansprechpersonen, f\u00fcr deren Knoten wir eine solche Verschl\u00fcsselung feststellen, individuell kontaktieren und \u00fcber die M\u00f6glichkeit der \u201eeigeninitiierten Migration\u201c informieren.<\/li>\n<li><strong>Leere Knoten, die dennoch klassifiziert wurden:<\/strong><br \/>\nDankeswerterweise wurde dem Aufruf zur Klassifikation von Archivknoten gefolgt. Dabei wurden allerdings auch Knoten klassifiziert, bei denen wir jetzt festgestellt haben, dass diese *keine* Dateien enthalten, die wir migrieren k\u00f6nnen. Aus diesem Grund kontaktieren wir hierzu noch einmal individuell die entsprechenden Knotenansprechpersonen dar\u00fcber, dass wir ihre leere Knoten mit dem Status \u201eNo Migration\u201c versehen werden und keine Migration stattfindet. Wo keine Daten vorhanden sind, k\u00f6nnen auch keine Daten migriert werden. Nat\u00fcrlich haben die Betroffenen noch einmal die M\u00f6glichkeit diesen Zustand zu \u00fcberpr\u00fcfen. Genaueres wird in der entsprechenden E-Mail an die Betroffenen kommuniziert.<\/li>\n<li><strong>Abschlussbenachrichtigung \u00fcber migrierte Knoten:<\/strong><br \/>\nAufgrund eines falsch eingestellten Skripts wurden im Juni Knotenansprechpersonen \u00fcber eine vermeintlich erfolgte Migration ihrer Daten informiert. Der Link in der E-Mail f\u00fchrte in das Zielsystem Coscine, jedoch aber nur auf die oberste\u00a0Ebene des pers\u00f6nlichen Bereichs, ohne dass erkennbar war, welche Daten migriert worden seien. Wir konnten den Fehler schnell erkennen und beheben, sodass wir auf verschiedenen Wegen die entsprechenden Personen kontaktieren konnten. Wir bitten nochmals das E-Mail-Aufkommen sowie die Irritationen zu entschuldigen. Damit schneller ersichtlich wird, welche Daten des Archivknotens erfolgreich migriert wurden, werden wir den Projektnamen in die Benachrichtigungsmail integrieren.<\/li>\n<li><strong>Zugriffsfehler auf Archivknoten (Fehlercode 500):<\/strong><br \/>\nDie migrierten Forschungsdaten werden in den sog. RDS-NRW-Share migriert, der dank einer Georedundanz \u00fcber verschiedene Standorte in NRW eine sehr hohe Absicherung hat. Bei einem Update der Firewall-Firmware dieses RDS-NRW-Shares Ende August kam es zu einer fehlerhaften Konfiguration. Dies f\u00fchrte dazu, dass in Coscine der Fehlercode 500 angezeigt wurde. Mittlerweile ist das System korrekt konfiguriert und auf migrierte Forschungsdaten kann wieder zugegriffen werden.<\/li>\n<li><strong>Sehr gro\u00dfe Archivknoten:<\/strong><br \/>\nDass in einem Forschungskontext sehr viele und gro\u00dfe Daten zusammenkommen, zeigen Archivknoten, die mit \u00fcber 90 TB bis 190 TB unsere \u201eGro\u00dfkandidaten\u201c darstellen. Diese Knoten k\u00f6nnen wir nicht im Zuge des anvisierten automatisierten Workflows migrieren, sondern wir m\u00fcssen die Schritte des Herunterladens aus dem TSM und des Hochladens ins Zielsystem h\u00e4ndisch vornehmen. Dies beinhaltet, dass auch der Migrationsfortschritt konsequent betreut werden muss. Da wir es bei dem Bestandssystem TSM mit einem Bandspeichersystem zu tun haben, handelt es sich beim Auslesen der B\u00e4nder um einen mechanischen Vorgang, der bei derart gro\u00dfen Knoten entsprechend viel Zeit in Anspruch nimmt. [Wer wissen m\u00f6chte, wie ein solches Bandspeichersystem funktioniert, schaut sich das <a href=\"https:\/\/www.youtube.com\/watch?v=CVN93H6EuAU\">Video<\/a> dazu an.]<\/li>\n<li><strong>Archivknoten mit sehr vielen Objekten:<\/strong><br \/>\nNeben riesigen Archivknoten bereiten uns auch Archivknoten mit sehr vielen einzelnen Objekten Probleme. Fast 100 Knoten haben mehr als 10 Mio. Objekte, was nicht nur zeitintensiv ist (Daten aus dem TSM lesen und wieder hochladen), sondern auch technisch herausfordernd ist.<\/li>\n<\/ul>\n<p>Diese Probleme sind an sich in der Einzelerscheinung zu handlen, jedoch haben sie uns in der technischen Migration entsprechend gebremst.<\/p>\n<p>Durch die wunderbare Unterst\u00fctzung und dem vielf\u00e4ltigen Know-How unserer Kolleg*innen haben wir Mittel und Wege gefunden, um die Archivmigration weiter voranzutreiben. Neben laufenden Anpassungen an Skripten und Workarounds, Staffelung der Migrationsphasen und dem Einsatz von mehr Personal, sind wir nun auf einem sehr guten Weg und zuversichtlich, dass wir laufend mehr und mehr Abschlussbenachrichtigungen an die Knotenansprechpersonen versenden k\u00f6nnen.<\/p>\n<h3><span style=\"color: #00549f;\">Einsehbares Reporting verf\u00fcgbar<\/span><\/h3>\n<p>Zus\u00e4tzlich arbeiten wir stetig an der Bearbeitung von Anfragen zur Archivmigration sowie daran, unser Reporting zur Archivmigration auszubauen. Wir bitten alle Nutzenden um ein wenig Nachsicht und Geduld bei der Bearbeitung. Das Archiv steht weiterhin lesend zur\u00a0Verf\u00fcgung (Read Only). Im Bedarfsfall k\u00f6nnen Daten aus dem Archiv heruntergeladen werden. Lediglich der Upload ist nur noch \u00fcber das DigitalArchiv und Coscine m\u00f6glich.<\/p>\n<p>Nat\u00fcrlich ist das Interesse hoch, wie weit die jeweiligen Archivknoten in der Migration sind. Aus diesem Grund haben wir f\u00fcr alle Interessierten ein Reporting entwickelt. Die <a href=\"https:\/\/archivemigration.pages.rwth-aachen.de\/archiveanalysis\/python-report.html\">Reporting-Seite<\/a> wird st\u00fcndlich aktualisiert und zeigt die Fortschritte der letzten Stunde sowie gegen\u00fcber dem vorherigen Tag an. Um m\u00f6glichst effizient zu arbeiten, haben wir ein System der Klassifikation und des Status eingef\u00fchrt, das anhand von Abk\u00fcrzungen wie bspw. \u201emigcResearch\u201c (erfolgreiche Migration nach Coscine, noch keine Abschlussbenachrichtigung verschickt) funktioniert. Auf der Seite f\u00fchren wir aus, was sich dahinter verbirgt und, wie man das Reporting lesen muss.<\/p>\n<div id=\"attachment_12787\" style=\"width: 905px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Reporting.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-12787\" class=\"wp-image-12787 size-full\" src=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Reporting.png\" alt=\"Ansicht Reporting\" width=\"895\" height=\"564\" srcset=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Reporting.png 895w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Reporting-300x189.png 300w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Reporting-768x484.png 768w\" sizes=\"auto, (max-width: 895px) 100vw, 895px\" \/><\/a><p id=\"caption-attachment-12787\" class=\"wp-caption-text\">Ansicht der Reporting-Seite<br \/>Quelle:\u00a0Eigene Darstellung<\/p><\/div>\n<p>In der \u00dcbersicht \u201eIndividual Node Report\u201c k\u00f6nnt ihr anhand der ID, die aus der URL des Metadatenformulars abgelesen werden kann, den Status eures Archivknotens einsehen.<\/p>\n<div id=\"attachment_12788\" style=\"width: 891px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Individual-Node-Report.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-12788\" class=\"wp-image-12788 size-full\" src=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Individual-Node-Report.png\" alt=\"Ansicht Individual Node Report\" width=\"881\" height=\"308\" srcset=\"https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Individual-Node-Report.png 881w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Individual-Node-Report-300x105.png 300w, https:\/\/blog.rwth-aachen.de\/itc\/files\/2022\/09\/Uebersicht-Individual-Node-Report-768x268.png 768w\" sizes=\"auto, (max-width: 881px) 100vw, 881px\" \/><\/a><p id=\"caption-attachment-12788\" class=\"wp-caption-text\">Ansicht &#8222;Individual Node Report&#8220;<br \/>Quelle: Eigene Darstellung<\/p><\/div>\n<p>Wir bitten alle, die sich in der Zwischenzeit um ihre Archivknoten gesorgt haben, um Entschuldigung f\u00fcr die Verz\u00f6gerung. Dieses Mal hat es leider\u00a0etwas l\u00e4nger gedauert, aber es sieht gut aus und wir tun unser M\u00f6glichstes, um alle Daten sicher und zuverl\u00e4ssig in die designierten Zielsysteme zu \u00fcberf\u00fchren.<\/p>\n<p>&nbsp;<\/p>\n<p>Verantwortlich f\u00fcr die Inhalte dieses Beitrags sind <a href=\"https:\/\/www.itc.rwth-aachen.de\/cms\/IT-Center\/IT-Center\/Team\/~epvp\/Mitarbeiter-CAMPUS-\/?gguid=0x741F3A251551044BB9047AF649DED3B4&amp;allou=1\">Lukas C. Bossert<\/a> und <a href=\"https:\/\/www.itc.rwth-aachen.de\/cms\/IT-Center\/IT-Center\/Team\/~epvp\/Mitarbeiter-CAMPUS-\/?gguid=0x076EFD6C62ADCF4D868FB7134A14B07C&amp;allou=1\">Nicole Filla<\/a>.<\/p>\n<h6>(*) Der Absatz wurde am 09.02.2023 aktualisiert.<\/h6>\n<p><\/p>","protected":false},"excerpt":{"rendered":"<p>**Update** Derzeit dauert die Migration der Archivdaten noch an und dauert \u00fcber das verl\u00e4ngerte Projektziel hinaus. Nutzende, deren Daten noch nicht migriert wurden, werden per E-Mail kontaktiert. Auf unserer Reporting-Seite [&hellip;]<\/p>\n","protected":false},"author":1859,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"c2c_always_allow_admin_comments":false,"footnotes":""},"categories":[315],"tags":[42,459,43,46,163],"class_list":["post-12785","post","type-post","status-publish","format-standard","hentry","category-services-support","tag-archiv","tag-archivknoten","tag-archivmigration","tag-coscine","tag-simplearchive"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts\/12785","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/users\/1859"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/comments?post=12785"}],"version-history":[{"count":7,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts\/12785\/revisions"}],"predecessor-version":[{"id":13949,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/posts\/12785\/revisions\/13949"}],"wp:attachment":[{"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/media?parent=12785"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/categories?post=12785"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.rwth-aachen.de\/itc\/wp-json\/wp\/v2\/tags?post=12785"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}