In der Dokumentation sind einige Werkzeuge erwähnt, die zur Unterstützung der Arbeiten an der DL benutzt werden können - insbesondere zum Importieren und Aufbereiten von Daten. Auf dieser Seite (und den Unterseiten) findet sich die Dokumentation zu diesen Tools.

Allgemeines / Typen von Tools

Der Import-Prozess sieht normalerweise folgendermaßen aus:

  • Metadaten in Tabelle (Excel, CSV) und PDFs der Volltexte der einzelnen Artikel werden entweder von Hand erzeugt oder über ein Tool aus vorhandenen Datenquellen generiert; hier bieten wir aktuell ein Tool an, das Metadaten über die Springer API einliest, eines das Metadaten von der de Gruyter Website ausliest, und eines, das Metadaten aus der DBLP ausliest.
  • Diese Tabelle kann (muss) teilweise noch etwas ergänzt und/oder sonstwie qualitätsgesichert werden - Handarbeit
  • Dann kann das MetaDataTool genutzt werden um Metadaten und Volltexte in das SimpleArchiveFormat zu bringen, welche für den Import in die DL benötigt wird. Hierbei werden auch gleich die Metadaten korrekt auf die Metadatenschemata in der DL aufgeteilt und bei Bedarf die Volltext-Dateien noch mal umbenannt.
  • Wenn der Web-Import genutzt werden soll, dann ist das vom MetaDataTool generierte SimpleArchiveFormat-Verzeichnis noch zu zippen
  • Das Ergebnis kann dann direkt in eine Sammlung in der DL importiert werden (über die Web-UI oder über die Kommandozeilen-UI) - Vorher ist natürlich händisch in der Web-UI die Sammlung anzulegen, in die importiert werden soll

Werkzeuge zum Laden von Metadaten aus verschiedenen Repositories

Springer Import Tool

Hauptsächliche Funktion: Export einer kompletten Zeitschrift nach Jahrgängen über die Springer API zum Import in die Digitale Bibliothek (via SAFBuilder)

Zum Betrieb wird ein API Key für die Springer API benötigt. Dieser kann kostenlos bei Springer bezogen werden: https://dev.springernature.com

Hinweis: Die API-Zugriffe werden von Springer begrenzt. Es gibt ein Tageslimit. Sollte beim Export ein Fehler auftreten, wurde das API-Limit erreicht. In dem Fall muss einen Tag gewartet (oder ein anderer API-Key) verwendet werden.

-- Aufruf: 
java -jar SpringerAPIReader.jar <issn> <api key> [<volume> [<issue>]]
ISSN: Ist die ISSN der zu exportierenden Zeitschrift (Format: xxxx-xxxx)
VOLUME, ISSUE: Optionale Einschränkung auf einen Jahrgang der Zeitschrift bzw. zusätzlich auf ein Heft des Jahrgangs
API KEY: Der von Springer erzeugte Key für die API

-- Ausgabe: 
Im aktuellen Verzeichnis wird pro Jahrgang eine CSV-Datei mit den benötigten Spalten und Metadaten für GI-DL und SAFBuilder erstellt.

De Gruyter Import Tool

Laden der Metadaten zu einem Zeitschriftenheft von der Website degruyter.com

Als Eingabe erwartet das Tool die URL der Seite für das Zeitschriftenheft auf degruyter.com - also z.B. https://www.degruyter.com/view/journals/icom/19/1/icom.19.issue-1.xml

java -classpath BibTools.jar org.sociotech.tools.bib.degruyter.DeGruyterMetaDataReader -u URL -o outputfile.csv


DBLP Import Tool

Laden der Metadaten zu einem Zeitschriftenheft oder einem Proceedingsband von dblp.uni-trier.de 

Als Eingabe erwartet das Tool den BHT-Key des Heftes / Bandes - Dazu z.B. Homepage der Zeitschrift auf dblp, dann auf die Homepage des Zeitschriftenheftes und dort unter Export (Icon rechts neben dem Titel) den BHT-Key suchen (z.B. "db/journals/icom/icom18.bht"). Diesen Key dann ohne die Endung ".bht" als Eingabeparameter angeben.

java -classpath BibTools.jar org.sociotech.tools.bib.dblp.DblpMetaDataReader -i ID -o outputfile.csv

EndNote Converter Tool

Konvertieren einer Menge von EndNote-Referenzen (z.B. von der ACM-DL heruntergeladen) in eine CSV-Datei für den Import in den GI DL.

java -classpath BibTools.jar org.sociotech.tools.bib.endnote.EndnoteCoverter -i inputfile.enw -o outputfile.csv


MetaDataTool

Hauptsächliche Funktion: Generierung von SimpleArchiveFormat-Verzeichnissen aus einer Metadatentabelle und einer Menge von Volltextdateien - zum anschließenden Import als neue Sammlung (oder als Ergänzung einer Sammlung) in der DL.

-- Vorbedingung: 
-- Metadatentabelle liegt zusammen mit den Volltextdateien in einem Verzeichnis (hier /Users/kochm/gi/dl/)
java -jar MetaDataTool.jar -c gensaf -f /Users/kochm/gi/dl/informatik-spektrum-40-2.xlsx
-- Nachbedingung / Resultat: 
-- im Verzeichnis der Metadatentabelle ist ein neues Verzeichnis SimpleArchiveFormat mit der notwendigen Dateistruktur erzeugt worden
-- nun noch das Verzeichnis zum Hochladen in ein ZIP-File packen
cd /Users/kochm/gi/dl
zip -r informatik-spektrum-40-2-saf.zip SimpleArchiveFormat

Siehe auch Import von Sammlungen (z.B. neuen Heften einer Zeitschrift) zur Nutzung.

Aktuelle Sourcen im GI Bitbucket unter DSpaceTools.

Eine aktuelle Version des JAR-Files mit dem Tool finden Sie unter https://www.dropbox.com/s/h05s5ggo3lsactj/MetaDataTool.jar?dl=0

  File Modified
Java Archive SpringerAPIReader.jar May 24, 2018 by Michael Koch
Java Archive BibTools.jar Jun 11, 2021 by GI Admin


  • No labels