Library Ideas (Jun 2022)
Big Scholarly Data im Open Access Monitor: ein Werkstattbericht
Abstract
Im Zusammenhang mit der Open-Access-Transformation rückt die Auswertung großer Datenmengen immer mehr in den Fokus von Bibliotheken, da die Anzahl der wissenschaftlichen Publikationen beständig ansteigt. Diese stetig anwachsende Datenmenge muss zuerst nutzbar gemacht werden, bevor fundierte Aussagen beispielsweise zu einrichtungsbezogenen Publikationsoutputs möglich sind. Hier setzt der Open Access Monitor (OAM) an, welcher als Schnittstelle zur Zusammenführung diverser Quellsysteme wie Unpaywall, Dimensions, Web of Science und Scopus fungiert. Dazu ist der OAM strukturell dreigeteilt: Die Daten befinden sich in der Datenbank (Backend), welche über die REST-Schnittstelle (API) abgefragt oder über die Weboberfläche (Frontend) präsentiert und visualisiert werden können. Durch die Nachnutzung einer Vielzahl an Quellsystemen müssen die Daten homogenisiert werden, um vollständige Datenbestände ohne Dubletten zu realisieren. Dafür müssen Zeitschriftentitel oder Einrichtungsbezeichnungen vereinheitlicht werden, um die ursprünglichen Einträge aus den Quellsysteme den entsprechenden Datensätzen im OAM zuordnen zu können. Im Falle der Einrichtungsnamen werden diese mit persistenten Identifikatoren (PID) angereichert. Für die Daten von manchen Datenbanken können die dort hinterlegten Einrichtungsnormierungen nicht direkt auf Organisations-Identifier (ROR-IDs) gemappt werden, weshalb der Umweg über die Rohformen der Affiliationsangaben der Autor*innen gewählt wird. Dieses Mapping der Affiliationsangaben ist eine umfangreiche und komplexe Aufgabe, da zum einen die gelieferten Angaben häufig nicht eindeutig sind und zum anderen eine klare Trennung der Einrichtungen, insbesondere bei Universitätskliniken, eine intellektuelle Bearbeitung erfordert. Der hochkomplexe Vorgang, aus einer Vielzahl an Datenquellen einen einheitlichen Datensatz zu generieren, wird im Beitrag aufgezeigt, wobei ein besonderer Schwerpunkt auf die Normierungsprozesse sowie die Vergabe der Open-Access-Kategorien gelegt wird. Die Metadatenqualität bleibt eine beständige Herausforderung, gleiches gilt für das Thema der Verfügbarkeit und Nachhaltigkeit der angebundenen Quellsysteme. Die Anbindung offener Datenquelle wäre wünschenswert – es entspräche den Zielen der uneingeschränkten (Nach-)Nutzbarkeit der OAM-Daten. Ob beispielsweise OpenAlex als nicht-kommerzielle Datenbank als weiteres Quellsystem für den OAM in Frage kommt, wird abschließend diskutiert.
Keywords