Von der Stadtbibliothek Wilmersdorf wird alle vier Monate der berliner allegro-Catalog baC hergestellt, ein Katalog, der die bisher elektronisch erfaßten Bestände der
nachweist.
Von den beteiligten Bibliotheken werden die Quelldaten in drei unterschiedlichen Datenformaten geliefert:
Die Qualität der gelieferten Daten
ist äußerst unterschiedlich: es geht von der bis zum
Interpreten jeden Stückes beschriebenen Musikalie bis zur
kürzesten Kurztitelaufnahme, die nur aus ISBN, Erscheinungsjahr
und Fragmenten des Hauptsachtitels besteht. Viele Bibliotheken
liesen und lassen diese Kurztitelaufnahmen von bibliothekarisch
ungeschulten Mitarbeitern in Arbeitsbeschaffungsmaßnahmen
erstellen, um möglichst schnell ihre Bestände zu erfassen.
Es gibt für diese Bibliotheken die Zusage, daß diese
Daten innerhalb des geplanten Berliner Verbundes der Öffentlichen
Bibliotheken (VÖBB) durch Anreicherungsmaßnahmen aufgebessert
werden.
Man wird sehen, wie das Ergebnis aussehen
wird.
Aus diesen Quellen wird der berliner
allegro-Catalog baC erzeugt, eine CD-ROM mit mittlerweile
mehr als 4 Millionenen Nachweisen von Büchern, CDs, Videos,
Spielen, Software und Cassetten, ablauffähig auf jedem PC,
der mindestens über einen 386er Prozessor und dem Betriebssystem
DOS ab Version 3.3 verfügt, ohne jegliche quälende Installation
nach dem Motto: "Einlegen - loslegen" .
Und das für einen Spottpreis von
36,-- DM.
Wie das funktioniert, wird im folgenden
Beitrag beschrieben.
Zunächst werden die Quelldaten
aller Bibliotheken in ein einheitliches Basis-Format übersetzt,
das dem der 20 mit allegro-C arbeitenden Bezirke entspricht,
da die ursprüngliche Intention des berliner allegro-Catalogs
baC ist, Katalogisierungshilfe für diese Bezirke zu leisten.
Und einen gemeinsamen Nachweis der Bestände der Öffentlichen
Bibliotheken herzustellen, die seit 1990 nicht mehr im Berliner
Gesamtkatalog nachgewiesen werden.
Hier wird mit "flachen" Hierachien gearbeitet, die aus aus MAB bekannten Zwischenstufen (y-Sätze) werden nicht verwendet, die Struktur wird auf einen H- und einen anhängenden U-Satz reduziert, die hierachisch als ein Datensatz gespeichert werden.
Das mag zwar nicht die modernste Speichertechnik sein, hat aber den Vorteil einer leichten Handhabbarkeit bei Erfassung und Löschung und einer großen Übersichtlichkeit bei der Bildschirm-Darstellung: anstatt an einem Bildschirm zu scrollen, muß lediglich geblättert werden.
Zudem ist es nicht unbedingt die Aufgabe
einer Öffentlichen Bibliothek, bei der bibliographischen
Beschreibung ihrer Medien die Qualität einer wissenschaftlichen
Bibliothek an den Tag zu legen, die sammelnden und dokumentierenden
Auftrag hat. Der OPAC - die Schnittstelle zum Nutzer - sollte
ebenfalls der Erwartung eines durchschnittlichen Nutzers einer
Öffentlichen Bibliothek entsprechen.
Für die Produktion des berliner
allegro-Catalog baC ist diese Struktur zudem Voraussetzung
für die im Folgenden beschriebene Schlüsselbildung.
Mit dem Import-Modul von allegro-C, einem äußerst leistungsfähigen Konvertierungsprogramm, werden die URICA-Daten in das Basis-Format übersetzt und in die oben beschriebene Struktur gebracht: die ursprüglich über Identnummern verknüpften Datensätze werden jetzt hierarchisch gespeichert, ev. vorhandene Zwischenhierarchien zum U-Satz geschrieben und mehrbändige Werke in die Struktur H-U-, H-U-Satz gebracht.
Gleiches gilt für die Musikalien-Daten, die ebenfalls in das Basis-Format übersetzt werden.
Bei diesen Verarbeitungsgängen werden zusätzlich Plausibilitätsprüfungen gemacht und für den berliner allegro-Catalog baC nicht zu verwendende Felder wie zum Beispiel Annotationen, Stoffkreise, Aufkleber etc ausgeblendet.
Als Ergebnis liegen alle Daten in der
gleichen Struktur und dem gleichen Format vor, ist die Voraussetzung
geschaffen, jedem Datensatz ein Schlüsselfeld zuschreiben
zu können, über das wiederum eine Datenbank aufgebaut
werden kann.
Um Titel maschinell als gleich zu erkennen
wird in der Regel die ISBN benutzt. Es ist aber leider nicht so,
daß die ISBN einen Titel eindeutigt beschreiben würde:
gleiche ISBNs finden sich bei unterschiedlichen Auflagen, die
in unterschiedlichen Jahren erschienen sein können. Auflage
und Erscheinungsjahr müssen also auch berücksichtigt
werden. Bei der Auflage ist zu bedenken, daß nicht jeder
die 1. Auflage, obwohl sie im Buch steht, erfaßt. Bei der
Jahres- und Auflagenangabe können sich Klammern unterschiedlichster
Art befinden, die ISBN selbst kann mit oder ohne Striche vorliegen
oder auch in der Version mit Punkten, das "X" als Prüfziffer
kann groß oder klein geschreiben sein: Kleinigkeiten, die
bei einem maschinellen Zeichenkettenvergleich über Gleichheit
oder Ungleichheit entscheiden können.
Wie nicht anders zu erwarten gestaltet sich bei mehrbändigen Werken alles etwas komplizierter: es kann eine gemeinsame ISBN für alle Stücke geben, und zusätzlich für die Stücke eine eigene, die wiederum gleich der übergeordneten oder ungleich sein kann:
Für den berliner allegro-Catalog baC gilt folgende Regel für die Bildung des Schlüsselfeldes:
Zusätzlich ist es bei mehrbändigen
Werken unabdingbar, Informationen aus der Bandzählungen (der
Hierachie) zu gewinnen, um zum Beispiel bei einen Ausstellungskatalog,
der aus Text- und Bildband besteht und eine gemeinsame übergeordnete
ISBN hat, die Bände auseinanderhalten zu können.
allegro-C erlaubt mit seinen Parameterdateien die Analyse der Quellen in der beschrieben Weise und das Erzeugen eines zusätzlichen Schlüsselfeldes mit der gewünschten Information. Parameterdateien sind Programme in einer von allegro-C zur Verfügung gestellten Datenmanipulationssprache, die dem Nutzer - hat er sich diese Sprache einmal angeeignet - eine äußerst große Flexibilität im Umgang mit Datenmaterial unterschiedlichster Herkunft erlaubt.
Der berliner allegro-Catalog baC
als Ergebnis ist hier nur als relativ einfaches Beispiel zu sehen.
Man kann - und hat - argumentieren,
daß für die ca. 15 Prozent der Titel, die ohne ISBN
geliefert werden, auf komplexe Schlüsselbildung und/oder
Abgleichmechanismen verzichtet werden kann. Bei 6,5 Millionen
Medien in den Berliner Öffentlichen Bibliotheken sind das
rund eine Million Medien - in meinen Augen zuviel, um hier auf
einen Abgleich zu verzichten, zuviele auch, wenn man weiß,
daß es sich hier vor allem um den Bereich der Audio-Visuellen
Medien handelt, einem Bereich also, der in öffentlichen Bibliotheken
viel und gerne benutzt wird.
Die Problematik des Entwickelns eines
Schlüssel zur Beschreibung ISBN-loser Titel soll an einem
Beispiel verdeutlicht werden:
Der (fingierte) Titel lautet:
Politik : eine Untersuchung deutscher
Geschichte unter besonderer Berücksichtigung systematisch
ausgewählter Beispiele. - Köln : Bund-Verl., 1992. -
220 S. : Ill.
Für die Schlüsselbildung ist
der Hauptsachtitel allene nicht hinreichend. UnspezifischeTitel
wie "Politik", "Berlin", "Werke"
oder "Gedichte" gibt es leider allzuoft. Es muß
der Zusatz zum Hauptsachtitel herangezogen werden. Hier gibt es
aber viele Möglichkeiten der Schreibung: RAK in früheren
Versionen lies bekanntlich Abkürzungen zu. Ein reiner Zeichenkettenvergleich
des Feldes 'Zusatz zum Hauptsachtitel' würde sehr schnell
Ungleichheit für gleiche Titel produzieren, die Redundanz
des Katalogs erhöhen.
Für den berliner allegro-Catalog
bac werden deshalb rund 250 Wörter, die für Abkürzungen
von Katalogisierern herangezogen werden könnten, in ihren
unterschiedlichen Schreibweisen auf eine einheitliche Abkürzungsform
reduziert und diese wird in das Schlüsselfeld eingetragen.
Diese Aufgabe wird von der gleichen Parameterdatei und in der
gleichen Verarbeitungsphase geleistet, die auch den ISBN-Schlüssel
erzeugt.
Der obige Titel wird also auch dann
als gleich erkannt, wenn er
Politik - e. Unters. dt. Gesch. u. bes.
Beruecks. system. ausgew. Beisp.
geschrieben wird oder in anderen Variationen.
Heranzuziehen ist bei ISBN-losen Titel
immer auch der Autor eines Werkes, um vor allem im Bereich der
Schönen Literatur scheinbar gleiche Titel trennen zu können.
Auch hier ist wieder ein Regelwerksproblem
zu beachten: RAK-ÖB, das Regelwerk also, nach dem die EKZ
ihre Daten liefert, die auch in den Berliner Öffentlichen
Bibliotheken genutzt werden, kürzt den zweiten Vornamen ab:
aus "Mozart, Wolfgang Amadeus" wird schlicht "Mozart,
Wolfgang A.". Ein Zeichenkettenvergleich im Feld 'Verfasser'
ist nicht hinreichend, um gleiche Titel zu finden, die auch dann
noch gleich sind, wenn sie von unterschiedlichen Lieferanten wie
der Deutschen Bibliothek und der EKZ kommen. Für den berliner
allegro-Catalog baC wird deshalb in das Schlüsselfeld
nur der Namen ohne die Vornamen eingetragen. [Hier ist eine mögliche
Verbesserung des Verfahrens zu sehen, wenn zum Beispiel die Personennamen-Datei
PND hinterlegt wird und unterschiedliche Ansetzungsformen auf
eine normierte Form reduziert werden .]
Natürlich ist auch bei ISBN-losen Titeln die Auflage und das Erscheinungsjahr zu berücksichtigen, muß der Schlüssel bei mehrbändigen Werken zusätzliche Elemente aus der Bandzählung berücksichtigen.
Leider reicht auch das noch nicht, um bei AV-Medien Cassetten- und CD-Ausgaben des gleichen Werkes unterscheiden zu können, bei Buchgemeinschaftsausgaben eine Zuordnung zu den verschiedenen Buchgemeinschaften machen zu können.
Medientypcodes stehen bei der Schlüsselbildung
nicht mehr zur Verfügung, die Information, ob es sich um
eine CD oder eine Cassette handelt, kann aber aus der Umfangsangabe
gewonnen werden, Buchgemeinschaften können können über
die Verlagsorte differenziert werden.
Es gibt noch Weiteres zu bedenken, ohne
aber hier das gesamte Verfahren offenlegen zu wollen: z.B. die
Behandlung von Umlauten [die Deutsche Bibliothek kannte bis zur
Rechtschreibreform kein scharfes ß], große und kleine
Buchstaben sind unterschiedliche Zeichen, die Behandlung von Komposita
ist ebenfalls ein weites Feld, etc pp.
Der aus diesen Elementen zu bildende Schlüssel kann bis zu 250 Zeichen lang sein und ist nach den bisherigen Erfahrungen so eindeutig, daß keine ungleichen Titel als gleich erkannt werden, anderseits aber nicht zu scharf, daß gleiche Titel nicht mehr als gleich erkannt werden. Letzteres ist bei einem reinen Feldvergleich immer der Fall mit der Folge einer großen Redundanz, die wiederum die Nutzbarkeit eines Kataloges erheblich beeinträchtigt.
Anders gesagt:
Ein Vergleich einzelner Felder oder Feldinhalte ohne manipulative Interpretation ist zum maschinellen Erkennen von Gleichheit oder Ungleichheit nicht hinreichend.
Wir werden sehen, wie der geplante
Verbund der Öffentlichen Bibliotheken Berlins (VÖBB)
das Problem löst und ob der Verbundkatalog handhabbar sein
wird. Wir können aber alle guten Mutes sein, da in den Ausschreibungsunterlagen
der Leistungsumfang von allegro-C gefordert wurde.
Der Katalog wird mit dem allegro-C-Programm
Update aufgebaut: Update ermöglicht das Einmischen neuer
Daten in eine Datenbank bei gleichzeitigem Ergänzen von maschinell
als gleich erkannten Sätzen durch Elemente, die im vorhanden
Satz nicht vorhanden, im neuen aber geliefert werden.
Auch hier dient ein Beispiel zur Verdeutlichung:
Der vorhandene Datensatz verfügt über einen Verfasser, der neue Datensatz, der über das Schlüsselfeld maschinell als gleich erkannt wird, weist zwei weitere Verfasser nach: diese werden dem vorhandenen Datensatz zusätzlich zugeschrieben.
Ein weiterer, maschinell als gleich erkannter neuer Satz, verfügt zudem über Angaben des Gesamttitels, über die die beiden vorherigen nicht verfügten. Auch der Gesamttitel wird zu dem ersten Datensatz ergänzt.
Unschwer kann man sich das weiter ausmalen: im besten Falle beteiligen sich alle liefernden Bibliotheken kumulativ an der Erzeugung des neuen Satzes. Damit wird die Qualität der Titelaufnahme erhöht und zugleich die Redundanz der Nachweise reduziert.
In den meisten Fällen ist es natürlich
so, daß an einen vorhandenen Satz lediglich der Besitznachweis
des neuen Datensatzes angesigelt wird.
Die Reihenfolge des Zuspielens der Bezirke
ergibt sich aus einer rein quantitativen Analyse der durchschnittlichen
Länge eines gelieferten Datensatzes. Diese Information wird
von uns auf den jeweiligen Ausgaben des berliner allegro-Catalogs
baC dokumentiert.
Das Programm Update wird so verwendet,
daß fehlende Felder ergänzt werden, bestehende Felder
aber nicht verändert werden dürfen. Das Programm AVANTI,
das ebenfalls zum Programmpacket allegro-C gehört
und den Zugriff auf allegro-Datenbanken zum Beispiel im Internet
ermöglicht, kann wesentlich mehr: hier können Felder
in definierten Abhängigkeiten ausgetauscht werden: ist z.B.
der Hauptsachtitel des zuerst vorhandenen Datensatzes von einer
bibliographisch geringerwertigen Quelle erzeugt worden, kann er
durch einen bibliographisch höherwertig eingestuften Satz
ersetzt werden, während zugleich ein anderes Feld, obwohl
geringerwertig, gegen einen Austausch geschützt werden kann.
Das Ergänzen vorhandener Felder ist ebenso möglich wie
das Löschen.
Mit der entsprechenden finanziellen
und zeitlichen Förderung könnten die Programme zur Erzeugung
des berliner allegro-Catalog baC hier sicher wesentlich
verbessert werden.
Das Aufbauen der Datenbank über
das Schlüsselfeld mit allen Anreicherungsprozessen wird derzeit
auf einem 266 Pentium vorgenommen, der dem Programm Update eine
Performanz von ca. 80 Sätzen pro Sekunde ermöglicht.
Sind alle Daten zugespielt, wird in einem weiteren Verarbeitungsschritt das Schlüsselfeld als irrelevante Information für den Nutzer gelöscht. Zusätzlich werden Redundanzen im Bereich der Verfasserangaben beseitigt: so können beteiligte Personen unterschiedlich interpretiert und mit unterschiedlichen Funktionsbezeichnungen in verschiedenen Feldern mehrfach eingetragen werden. Diese Redundanz wird durch Vergleiche beseitigt: jede Person wird nur einmal eingetragen.
Gleiches gilt für den Bereich der
Schlagwörter [ab der nächsten Ausgabe]: Redundanzen
entstehen durch die aus den DB- und EKZ-Fremddaten geliefert Schlagwortketten,
in denen gleiche Form- und Zeitschlagwörter ("Führer",
"Belletristische Darstellung", "Kongress"
) öfters wiederholt werden können. Da im berliner
allegro-Catalog baC eine gleichranginge Indexierung der Schlagwörter
vorgenommen wird, werden künftig die Ketten zerschlagen und
jedes Schlagwort nur einmal zugelassen.
Der Katalog als ganzer wird alfabetisch nach den Titeln absteigend sortiert, gleiche Titel aber nach Aktualität aufsteigend: anders gesagt: beim Blättern ist die Ordnung alfabetisch und der aktuelleste Titel steht vorne, ganz so wie im guten alten Zettelkatalog.
Der Katalog selbst wird durch einem
Kreuzregister aus fast allen Elementen des Katalogisats erschlossen.
Das Kreuzregister hat sich in den öffentlichen Bibliotheken
Berlins bewährt: die Kundschaft legt eine wenig ausgeprägte
Neigung an den Tag, sich bibliothekarischer Terminologie zu unterwerfen
und Felder auszufüllen, die "Schlagwörter"
, "Stichwörter" [wo ist da der Unterschied?], oder
gar "Körperschaftsstichwort" etc. heißen.
Warum zwei Felder auszufüllen sind, wenn man etwas von und
über Böll sucht, bleibt vielen ein Rätsel.
Wir könnten natürlich mit
Hilfe von allegro-C zusätzliche Register - bis zu
9 insgesamt - bereitstellen, die eine von vornherein eingeschränkte
Suche ermöglichen würde, diese Register auch untereinander
mit Hilfe von Flips, ähnlich den Links im Internet, schnell
und einfach verbinden, müssen darauf aber aus Platzgründen
verzichten: 650 MB sind die Obergrenze, die auf einer CD-ROM unterzubringen
sind und die letzte Ausgabe verbraucht mit ihren 4 Millionen Nachweisen
570 MB. Und wir wollen solange wie möglich, den berliner
allegro-Catalog baC in seiner sehr einfach zu handhabenden
Art auf einer CD-ROM unterbringen.
Es wird (vielleicht zu Recht) bemängelt, daß der berliner allegro-Catalog baC in einem proprietären Format vorliegt, das keinerlei Standard genügt. Das hat aber etwas mit der Zweckbestimmung zu tun: der Katalog ist ursprünglich ausschließlich für die 20 Berliner Stadtbibliotheken erstellt worden, die mit allegro-C arbeiten und ihn sehr einfach als sekundäre Datenbank, Fremddatenquelle und aktuellen Besitznachweis nutzen wollten. Erst im letzten Jahr ist der Anspruch Dritter an uns herangetragen worden, die Datenbank auch für andere Formate nutzen zu können. Wir sind dem jetzt nachgekommen: Sie finden auf der Herbst-Ausgabe des berliner allegro-Catalog baC drei MAB-Schnittstellen für
- MAB90
- MAB2 und
- MAB-EKZ
Die Daten werden in der Struktur der
jeweiligen Diskettendienste geschrieben und sind für alle
Systeme lesbar, die ihrerseits über die entsprechenden Schnittstellen
verfügen.
Die eigentlichen Mängel, die ich
als schwerwiegend bezeichnen möchte, liegen im Bereich der
sachlichen Erschließung und werden auch nicht dadurch geringer,
daß sich hier der berliner allegro-Catalog baC in
trauter Eintracht mit vielen im Internet zu findenden virtuellen
Katalogen findet:
Man kann in all diesen Katalogen nur
dann etwas finden, wenn man schon weiss, was man finden will,
Teile der Information schon besitzt, indem man den Verfasser,
den Titel, Teile des Titels oder die Noation etc weiss. Die Beschlagwortung
hilft zwar bei der sachlichen Suche, setzt aber voraus, das entsprechende
Vokabular zu kennen, das bei der Beschlagwortung benutzt wurde.
Eine vollständige systematische
Suche nach einem abgesteckten Thema ist weder im berliner allegro-Catalog
baC noch in den virtuellen Katalogen des Internets möglich.
Für den berliner allegro-Catalog baC wäre es natürlich denkbar, die Systematik der Berliner Bibliotheken in den Katalog einzubauen, doch stellt sich sofort die Frage, welche denn? Die der Bezirke oder die der ZLB, die der Musikbibliotheken oder die der Jugendbibliotheken?
Die Kürzel der Systematiken der beteiligten Bibliotheken haben unterschiedliche Bedeutung, obwohl sie gleich lauten: "R" kann "Romane" bedeuten aber auch "Recht", "E" ist das Kürzel für "Erdkunde" und "T" für "Technik" kann aber in einer anderen Bibliothek "Essen und Trinken" bedeuten.
Der Bayerische Bibliotheksverbund löst in seinem virtuellen Katalog das Dilemma dadurch, daß er bei der Suche nach der Notation einen Kennbuchstaben für die Bibliothek, in der gesucht wird, eingeben läßt: eine Lösung, die keine ist, weil dadurch der Charakter des virtuellen Kataloges verloren geht. Andere bieten die Möglichkeit der systematischen Suche erst garnicht an.
An einem Beispiel sollen die Mängel
der systematischen Suche verdeutlicht werden:
Literatur zum Thema "Behindertensport" ist im berliner allegro-Catalog baC nur dann zu finden, wenn dieser Begriff im Titel oder in der Beschlagwortung auftaucht. Oder man so clever ist, auch unter dem verwandten Begriffen wie z.B. "Versehrtensport" zu suchen.
Natürlich erzielt man in allen
Katalogen ein Ergebnis, aber man ist nie sicher, ob man denn jetzt
alle Titel zum Thema gefunden hat. Es könnte ja auch noch
etwas unter "Rollstuhlsport", "Schulsondersport",
"Rehasport" etc. pp stehen.
Hier ist zu wünschen - und das Projekt OSIRIS zeigt einen Weg - , daß künftig "intelligentere" OPACs entwickelt werden, die vor allem auch für die bibliothekarisch nicht so geschulte Klientel öffentlicher Bibliotheken zufriedenstellend benutzbar sind.
OPACs, die ja die Schnittstelle der
Bibliothek zum Leser darstellen, die Anfragen auf der Basis eines
simplen Zeichenkettenvergleichs glauben beantworten zu können,
sollten in Bibliotheken, die vor oder in der Neubeschaffung von
Bibliothekssoftware stehen, als nicht hinreichend nicht mehr akzeptiert
werden.
Schon um der Leser willen - von den
Kunden gar nicht zu reden.
Der berliner allegro-Catalog baC ist primär als Hilfe für die 20 Berliner Bibliotheken gedacht, die mit allegro-C arbeiten: als Nachweisinstrument und als Fremddatenquelle. Der Preis von DM 36,-- deckt die Unkosten für die Herstellung und den Vertrieb durch den beteiligten Verlag, der Preis deckt nicht annähernd die Zeit, die zur Entwicklung des gesamten Verfahrens notwendig war und zu seiner Verbesserung und Weiterentwicklung notwendig ist.
Der Preis folgt der grundsätzlichen Überzeugung, daß Bibliotheken samt ihren Dienstleistungen
kostenfrei sein sollen.