Literaturgeschichte aus Metadaten?

Im Bereich Data Mining hat sich in den letzten Jahren viel getan: Das gilt auch für sammelnde Institutionen. Die großen Bibliotheken stellen mittlerweile ihre Daten für die Forschung zum Abruf über Schnittstellen (in der Regel SRU und OAI) bereit; zugleich haben sie data labs eingerichtet, die beim Zugriff auf die Daten unterstützen. Mir hat ein DH-Stipendium der Deutschen Nationalbibliothek (DNB) ermöglicht, mit der Auswertung bibliothekarischer Metadaten zu beginnen.

In ihrer heutigen Form entstand die DNB 1990 durch Zusammenschluss der Deutschen Bücherei in Leipzig (1912–1943; 1945–1990) und der Deutschen Bibliothek in Frankfurt (1947–1990). Sammlung und Katalog gehen also auf zwei Sammlungs- und Verzeichnungstraditionen zurück, wobei die westdeutsche Nationalbibliothek als Gegengründung nach 1945 erst schrittweise aufgebaut wurde: 1959 erhielt die Deutsche Bibliothek einen eigenen Bau, seit 1969 müssen Verlage Pflichtexemplare liefern. Mit dem Exilarchiv, das seit 1948 geplant wurde, werden die Sammlungen um die Literatur der Emigration ergänzt. Einblick in die Geschichte der Deutschen Bibliothek gibt die Studie »Wissenspeicher in der Bundesrepublik« von Helke Rausch; meine Rezension kann man hier lesen.

Die Reihen der Deutschen Nationalbibliographie gliedern sich nach DDC-Sachgruppen. Für mein literatur- und verlagsgeschichtliches Projekt hilfreich ist, dass eine Sachgruppe »Belletristik« angelegt ist.

Wozu?

Aus bibliothekarischen Metadaten allein lässt sich keine Literaturgeschichte schreiben. Doch die Daten verraten mehr als die Summe der Gesamtpublikationen – in meinem Fall der belletristischen Publikationen in Buchform zwischen 1945 und 1963 (insg. knapp 80.000 Datensätze). Für mein Projekt besonders wichtig: Aus den Daten lassen sich Rückschlüsse auf Kommunikationsmuster ziehen. Wer hat viel, wer hat wenig publiziert, in welchen Verlagen? Diese Ergebnisse können mit den Selbstaussagen der Akteure konfrontiert werden.

Die Neuordnung der Medienwelt nach 1945 hat, das ist eine Grundüberlegung meines Projekts, zu Reflexionen über das Verhältnis von Literatur und Öffentlichkeit geführt, die ihren Niederschlag in Texten unterschiedlicher Gattung gefunden haben. Selbstaussagen haben, das hat die jüngere Forschung vor allem mit Blick auf biographische Angaben der Akteure problematisiert, die Forschung zur Nachkriegsliteratur mitgeprägt. Hier lassen sich datengestützte Kontrapunkte setzen.

Aus bibliothekarischen Metadaten lassen sich Publikationsprofile erstellen: sowohl für Personen als auch für Gruppen, die sich auch im Vergleich statistisch auswerten lassen. Auf diese Weise lassen sich auch Einsichten über verlagsbezogene Publikations- und Netzwerkkonstellationen gewinnen. Auch der sich wandelnde Anteil von Autorinnen und Autoren lässt sich erfassen – und etwa ins Verhältnis zu Rezensionen, Preisen oder Mitgliedschaften in literarischen Institutionen setzen. Zudem können datenbezogene Ansätze heuristisch genutzt werden: Vernachlässigte Autorinnen und Autoren oder bislang kaum bekannte Verlagsstrukturen und Netzwerke lassen sich so identifizieren. So liefern die DNB-Daten etwa Hinweise auf nach 1945 im Ausland tätige Verlage, die in Deutschland wirksam werden. Dazu zählt z.B. der Verlag El Buen Libro in Argentinien, in dem konservative bis rechte Autoren Unterschlupf fanden.

Einblick in die DNB-Daten

Bei der Arbeit mit bibliothekarischen Metadaten nimmt die Aufbereitung der Daten einige Zeit in Anspruch. Das beginnt bei den Schreibweisen. Denn um die Daten statistisch auswerten zu können, müssen die Einträge vereinheitlicht werden, gegebenenfalls auch offensichtliche Schreibfehler korrigiert werden. Eine detaillierte Überprüfung von Einzelangaben durch Autopsie ist im Rahmen des Projekts nicht möglich. Relativ leicht und semi-automatisiert lassen sich die verschiedenen Schreibweisen von Städten oder Verlagen angleichen. Für mein Projekt stellt die politisch-geographische Zuordnung eine der größeren Herausforderungen da: Die Länderzuordnungen lassen sich hierbei nicht ohne Weiteres automatisiert einfügen, auch wenn Programme wie OpenRefine ermöglichen, die Datensets mit externen Quellen automatisch abzugleichen. Denn die Katalogdaten liefern in vielen Fällen keine Hinweise darauf, ob ein Buch z.B. in Berlin-Ost oder Berlin-West erschienen ist – zumal geographische und politische Verortung in der Übergangsphase nach 1945 nicht immer korrespondieren. Auch kleinere Orte, deren Name mehrfach existiert, stellen in dieser Hinsicht ein Problem dar.

Ein weiteres Problem sind unvollständige Datensätze. Fehlende Orts- und Verlagsangaben sind rein quantitativ ein deutlich geringeres Problem als unvollständige Angaben bezüglich der Autorschaft. Bei mehr als 5.000 Einträgen fehlt der Name der Autorin bzw. des Autors. Bei weiteren knapp 12.000 Einträgen fehlen Angaben zur GND-ID. Zudem lassen sich nicht für alle Autorinnen und Autoren die Lebensdaten abrufen.

Das Fehlen der Daten ist relevant: Denn liegen Name, GND-ID und Lebensdaten vor, lassen sich die Datensets mit externen Daten (z.B. GND oder Wikidata) anreichern: Abrufen lassen sich auf diese Weise zusätzliche Informationen, die für die Auswertung relevant sind. Für mehr als 75 % des Datensets ist das möglich. Für detailliertere Analysen wird entsprechend ein heuristisch begrenztes Datenset zu Grunde gelegt.

Bei den Recherchen hat sehr geholfen: Stephanie Nitsche (DNB).