Die Verwaltungseinheit für ein Medium (d.h. ein Heft einer Zeitschrift oder ein Buch mit mehreren Beiträgen) ist in DSpace die "Sammlung".

Sammlungen sind hierarchisch in Bereichen. In Sammlungen werden ein oder mehrere Dokumente angelegt, welche dann die Metadaten und Volltexte zu einzelnen Beiträgen in der Sammlung speichern. Siehe hierzu auch die allgemeine Beschreibung der Struktur hinter DSpace / der DL.

1A) Daten vorbereiten - Teil 1

Im ersten Schritt sind aus der digitalen Publikation die Metadaten sowie die PDFs zu Einzelbeiträgen zu gewinnen.

Ein beispielhaftes Vorgehen dazu bei der Erschließung eines Rundbriefs / Heftes, das nur als ein PDF vorliegt:

  • Metadatentabelle anlegen (von einem Beispiel)
  • In Metadatentabelle eintragen (Spalten):
    • Name der Veröffentlichung, ISSN, Editoren, Daten zur Tagung (falls eine Tagung dahinter steckt)
    • Eine Zeile zur Gesamtveröffentlichung (mit filename = PDF-File der Gesamtpublikation)
    • Eine Zeile zu jedem Einzelbeitrag, der separat erscheinen soll
  • Einzelbeiträge als separate PDFs aus dem Gesamt-PDF herausschneiden (z.B. mit Adobe Acrobat)

Metadatentabelle überprüfen / anpassen

Für die Weiterverarbeitung werden in der ersten Zeile der Metadatentabelle die korrekten Dublin Core und GI/MCI-Attributbezeichner erwartet.

Möglich als Attributnamen sind die Attribute des Datenschemas - sowie "filename" für den Namen der Datei mit dem PDF-Volltext zum Dokument.

Folgende Formatierrichtlinien sind in der Metadatentabelle zu beachten:

  • dc.contributor.author: Format: "Nachname, Vorname(n)", mehrere Autoren durch ";" getrennt 
  • dc.title
  • dc.language.iso: z.B. "de", "en"
  • dc.relation.ispartof: Wenn eine Zeitschrift angegeben wird, dann Format "Zeitschriftenname: Vol. xx, No. xx"
  • dc.contributor.editor - wie Autoren
  • dc.relation.ispartofseries
  • dc.publisher
  • dc.pubPlace
  • dc.date.issued: Einfache Jahreszahl
  • dc.description.abstract
  • dc.subject: Durch Komma, Strichpunkt oder Doppel-Tilde getrennte Schlüsselworte
  • dc.identifier.doi
  • dc.identifier.issn
  • dc.identifier.isbn
  • gi.publisher.uri - Hier ist ein Link auf die Beitragsseite in der DL des herausgebenden Verlags (falls relevant) anzugeben - notwendig für Single-Sign-On-Weiterleitung
  • mci.reference.pages
  • mci.conference.date
  • mci.conference.location
  • mci.conference.sessiontitle
  • filename

Bitte prüfen Sie die Tabelle auch auf Vollständigkeit der Attribute - so sind minimal anzugeben: dc.title, dc.contributor.author, dc.date.issued, dc.type, filename

1B) Daten vorbereiten - Teil 2

Diesen Schritt (Erstellung des SAF-Archivs) können Sie machen oder auch uns überlassen. In letzterem Fall bitte einfach die Metadatentabelle und falls relevant die PDF-Dateien an dl@gi.de senden. Bitte legen Sie aber die Ziel-Sammlung selbst an (Schritt 2) und teilen Sie uns diese in der Mail mit.

Grundidee des Imports kompletter Medien (d.h. mehrer Dokument in einer Sammlung), ist die Nutzung des Simple Archive Formats (SAF) - D.h. die Bereitstellung und das Hochladen der Metadaten und der Volltexte in der folgenden Form:

archive_directory/
    item_000/
        dublin_core.xml         -- qualified Dublin Core metadata for metadata fields belonging to the dc schema
        metadata_[prefix].xml   -- metadata in another schema, the prefix is the name of the schema as registered with the metadata registry
        contents                -- text file containing one line per filename
        collections             -- text file that contains the handles of the collections the item will belong two. Optional. Each handle in a row.
                                -- Collection in first line will be the owning collection
        file_1.doc              -- files to be added as bitstreams to the item
        file_2.pdf
    item_001/
        dublin_core.xml
        contents
        file_1.png
        ...

(Siehe hierzu z.B. auch eine ausführlichere Beschreibung unter https://wiki.duraspace.org/display/DSDOC5x/Importing+and+Exporting+Items+via+Simple+Archive+Format)

Die Dateistruktur mit den Metadaten und den Volltexten kann von Hand erstellt und dann in ein ZIP-File gepackt werden, oder man verwendet ein Werkzeug, das aus Metadaten in CSV oder Tabellenform und separaten Volltextdateien automatisch die richtige SAF-Struktur erzeugt.

Im folgenden beschreiben wir die Nutzung eines eigenen Java-Werkzeuges, das speziell das für die GI-Bibliothek gewählte Metadatenschema unterstützt.

Werkzeug beschaffen

Die aktuellen Quellen des Metadaten-Tools sind im GIT-Server der GI Geschäftsstelle zu finden - unter https://bitbucket.gi.de/projects/DL/repos/dspacetools/browse

Für die einfache Nutzung reicht aber vermutlich ein halbwegs aktuelles JAR-File des Tools - wie es auf der Seite zu DL-Tools zu finden ist.

SAF-Archiv erzeugen

Das Werkzeug ist als Java-Anwendung auf verschiedenen Betriebssystemplattformen ausführbar.

Nutzung unter MacOS / Unix:

-- Vorbedingung: 
-- Metadatentabelle liegt zusammen mit den Volltextdateien in einem Verzeichnis (hier /Users/kochm/gi/dl/)
java -jar MetaDataTool.jar -c gensaf -f /Users/kochm/gi/dl/informatik-spektrum-40-2.xlsx
-- Nachbedingung / Resultat: 
-- im Verzeichnis der Metadatentabelle ist ein neues Verzeichnis SimpleArchiveFormat mit der notwendigen Dateistruktur erzeugt worden
-- nun noch das Verzeichnis zum Hochladen in ein ZIP-File packen
cd /Users/kochm/gi/dl
zip -r informatik-spektrum-40-2-saf.zip SimpleArchiveFormat

Achtung!

Aktuell (Stand April 2018) funktioniert das MetaDataTool nur mit JDK 1.8 oder früher - Bei der Nutzung mit JDK 9 oder JDK 10 wird die als Eingabedatei angegebene Metadatendatei zerschossen. Das Problem liegt in einer Apache-Bibliothek, die noch nicht mit JDK 9 oder JDK 10 funktioniert.

2) Sammlung anlegen

In der Web-UI der DL zum Bereich navigieren, in dem das Medium als neue Sammlung angelegt werden soll.

Im Admin-Menü (rechts) den Punkt "Sammlung anlegen" auswählen.

Mindestens einen Namen angeben - und wenn möglich ein Logo (Cover-Bild) angeben.

Optional kann noch ein einleitender Text angegeben werden - so eine Art Vorwort, der auf der Einstiegsseite des Mediums / der Sammlung angezeigt wird.

3) Metadaten importieren

Jetzt im Admin-Menü (rechts) den Punkt "Batch Import (ZIP)" anwählen.

Aktuell kann der Batch-Import nur von den GI-Administratoren durchgeführt werden - Senden Sie als Fachbereichsadministrator also die Metadatentabelle oder das gezippte SAF-Archiv einfach an dl@gi.de und wir machen das für Sie.

Hier die korrekte Sammlung auswählen (collection) und dann das unter 1) erzeugte ZIP-File auswählen - und "Upload SimpleArchiveFormat ZIP" auswählen.

Wenn man beim Überprüfen der in der Sammlung angelegten Dokumente feststellt, dass etwas mit den Metadaten nicht passt, dann hat man nun die folgenden Möglichkeiten:

Es ist auch möglich, die Sammlung selbst zu löschen (und mit ihr alle darin angelegten Dokumente) - Dann muss allerdings Schritt 2 wiederholt werden.

Schritt 3) erfordert ein Upload eventuell größerer ZIP-Dateien über das HTTP-Protokoll vom Web-Browser aus. Je nach Internet-Verbindung und Browser ist dieser Schritt sehr fehleranfällig. Sollte es auch bei wiederholtem Versuch nicht gelingen die ZIP-Datei hochzuladen, ist immer noch möglich (für GI Administratoren) die Datei direkt auf den Server zu laden (per scp) und dann über die Kommandozeile zu importieren.

4) Zugriffsrechte anpassen

Sind die Metadaten eines Zeitschriftenheftes mit gi.publisher.uri-Attributen importiert worden, über die eine Single-Sign-On-Weiterleitung in Verlags-DLs realisiert werden soll, dann sind final noch Zugriffsrechte auf dieses Attribut in der DL anzupassen:

  • Setzen des Rechtes HIDDEN_METADATA_READ für die Gruppe, die Zugriff auf die Single-Sign-On-Funktionalität haben soll - z.B. LE_Zeitschrift_Informatik-Spektrum

Es kann sein, dass Sie keine Berechtigung zum Anpassen der Zugriffsrechte haben - In diesem Fall bitte kurz an dl@gi.de melden, welches Heft Sie importiert haben, damit die DL-Admins sich um die Anpassung der Zugriffsrechte kümmern.


  • No labels