Zur Theorie der Bibliothekskataloge und Suchmaschinen

Bernhard Eversberg, UB Braunschweig

English
Portuguesa
 
Was ist ein guter Katalog?

Nichts ist so praktisch wie eine gute Theorie. Das ist banal, denn aus einer guten Theorie sollten immer  alle Aussagen, die man in der Praxis braucht, auf möglichst einfache Weise abzuleiten sein. Und eben das empfindet man als praktisch.

Aber eine Theorie zum Bibliothekskatalog oder zur Katalogisierung? Braucht man das wirklich? So wird jeder überrascht bis amüsiert fragen, der damit noch nie konfrontiert wurde.

Wer Internet-Suchmaschinen benutzt und von deren vollautomatischem Funktionieren weiß, neigt erst recht dazu, jeden praktischen und theoretischen Aufwand für Kataloge skeptisch zu betrachten und Kataloge als eher altmodische Instrumente zu anzusehen. Allerdings steckt auch im Kern des Erfolgs einer guten Suchmaschine immer eine gute Theorie, nur hat sie nicht unbedingt viel Ähnlichkeit mit einer Katalogtheorie. Und sie wird mindestens teilweise geheimgehalten, wenn es sich um eine kommerzielle (durch Werbung finanzierte) Suchmaschine handelt. Aber ist die Aufgabenstellung nicht dieselbe? Kann es, sollte es zwischen beiden Welten eine Annäherung geben? Darf es überhaupt Unterschiede geben?

Hinweis:  Bibliothekskataloge haben zwei Aspekte: den formalen und den sachlichen. Entsprechend gibt es zwei Arbeitsbereiche mit ganz verschiedenen Problemen. Dazu gibt es zwei einführende Darstellungen:

Wie katalogisiert man ein Buch? Ganz kurze RAK-Einführung   
Eine Aufgabe mit vielen Facetten : Die Sachliche Erschließung

Für Skeptiker und absolute Einsteiger stehen zwei anders formulierte Kurzdarstellungen bereit:
Katalogisieren? Besonders schwer kann das doch nicht sein   
Eine seltene Sache : Erfolg bei der thematischen Katalogsuche

Überlegungen zur Zukunft der Katalogisierung wurden in einem Vortrag auf dem Österreichischen Bibliothakartag in Linz 2004 vorgestellt, und zwar ausdrücklich im Vergleich zu den Erfahrungen mit Google.

Was haben Bibliothek und Internet gemeinsam?

Beide bieten Zugänge zu Sammlungen von Aufzeichnungen. Die schwer zu definierenden, uferlosen Begriffe "Information" und "Wissen" braucht man dabei nicht zu verwenden. Ob es eine "Informationsgesellschaft" gibt, oder eine "Wissensgesellschaft", ob alles Information ist oder gar Wissen, was in Web-Texten steht oder zwischen Buchdeckeln, das sei dahingestellt. Die "Pisa-Studie" hat daran erinnert: vor dem Wissen kommt das Lernen. "Was man schwarz auf weiß besitzt", das ist noch kein Wissen, sondern dazu wird es erst durch Lesen und Verstehen. Wir leben in einer Lerngesellschaft, niemand wird das bezweifeln, und Aufzeichnungen haben für das Lernen eine zentrale Bedeutung. Man lernt aus direkter Unterweisung von Mensch zu Mensch, durch eigenes Tun, durch Beobachtung, oder eben durch das Studium (das verstehende Lesen) von Aufzeichnungen.

Meistens aber gilt es, die jeweils geeigneten Aufzeichnungen erst einmal zu finden. Millionen von Menschen haben über Jahrtausende ihre Erfahrungen, Erkenntnisse, Erinnerungen und Eingebungen aufgezeichnet. Als es bei den Griechen anfing, sah Platon im schriftlichen Aufzeichnen ein Symptom des Niedergangs: der Mensch brauchte sein Gedächtnis nicht mehr zu üben, weil er nun alles aufschreiben konnte. Statt sich aber nur Notizen für den Eigengebrauch zu machen, nutzte jeder sogleich auch die Notizen anderer. Sammlungen entstanden, Bibliotheken. Wo mehr als ein paar hundert Aufzeichnungen sich anhäufen, wird man nicht mehr froh, bevor man ein Ordnungssystem erfindet.
 

Wie entstand das Katalogisieren?

Hat man mehr als einige tausend Aufzeichnungen, wird das physische Ordnen, nach welchem System auch immer, problematisch. Man braucht Suchhilfsmittel: Das sind sekundäre Aufzeichnungen (Meta-Aufzeichnungen), aus denen zu ersehen ist, wo sich eine bestimmte Aufzeichnung in der Sammlung befindet. Das Katalogisieren wird geboren: Es verlagert das Ordnen vom Regal auf das Papier, in Karteikästen und heute in Datenbanken. Wenn das aber nicht mit Hilfe einer praktikablen Theorie geschieht, ist nicht viel zu gewinnen.

Hat man Millionen, wird allein schon das Erstellen der Suchhilfsmittel zu einem beträchtlichen Aufwand. Kein Wunder, wenn man heute alles daransetzt, Suchhilfsmittel für digital vorliegende Aufzeichnungen vollautomatisch zu erstellen. Das Wort "Suchmaschine" suggeriert allerdings fälschlich, ein Automat suche da direkt in den Aufzeichnungen. Gesucht wird in besonders aufbereiteten Hilfsdateien, die eigens dafür angelegt werden. Das kann man nicht irgendwie machen, sondern nur mit System, und ein System ist eine Theorie.
 

Inhalte von Bibliotheken und Internet

Bibliotheken und das Internet, als Gesamtheit betrachtet, umfassen nichts anderes als die gesammelten intellektuellen und künstlerischen Aufzeichnungen der Menschheit, soweit noch erhalten, aus allen Zeiten, allen Ländern und Kulturen, in allen Schriftsprachen und zu allen Themen, von allen Individuen, die etwas zu sagen hatten. Der Umfang und die Komplexität übersteigen das Vorstellungsvermögen unbefangener Nutzer. Die Erwartung ist naiv, das Navigieren in diesem multidimensionalen Universum könne ganz einfach sein oder gemacht werden. Man kann versuchen, die Beschreibung der Welt zu vereinfachen, aber die Welt wird dadurch nicht einfacher als sie ist.
Ein Katalog will beim Auffinden und Zurechtfinden helfen, und im Internet wollen Suchmaschinen dasselbe tun. Die Frage ist: in welcher Weise, mit welchen Grundsätzen und Methoden, nach welchen Theorien können oder sollten sie arbeiten, damit möglichst vielen Suchenden möglichst oft und möglichst wirkungsvoll geholfen werden kann. Keine einzelne Methodik kann allen Suchenden bei allen Fragen helfen. Das dürfte jedem klar sein, der schon einmal Antworten auf mehr als eine Frage gesucht hat.

Bücher oder Internet - Geschmackssache?

Es gibt kein Entweder-Oder zwischen Internet und Bibliothek, was allerdings nich tjedem mehr unmittelbar einleuchtet. Nur der vereinigte Inhalt von beiden stellt das gesamte Universum des aufgezeichneten Wissens dar - erwartet wird daher intuitiv, in beiden auf gleiche Weise suchen zu können. Bibliothekskataloge im Internet sind aber dazu noch nicht die Lösung, und seien sie noch so komfortabel, denn die Kataloge bieten nur Hinweise, nicht die Publikationen selbst, die nur auf Papier oder in Mikroform existieren. Diese in nennenswertem Umfang zu digitalisieren und im Volltext suchbar zu machen, bleibt vorerst Utopie: es sind viele Millionen und noch immer kommt laufend vieles hinzu, was nirgends im Netz steht. Kataloge bieten nur knappe, standardisierte Beschreibungen der Dokumente (sog. "Metadaten"), das Internet bietet dagegen viele Inhalte als vollständige Dokumente, auf Knopfdruck abruf- und einsehbar, jedes Wort suchbar. Nur: die Vielfalt der Gestaltung ist groß, und die meisten Dokumente haben keine standardisierte Beschreibung von sich selbst - keine Metadaten. Daraus folgt aber: es gibt wichtige Unterschiede zwischen Katalogen und Suchmaschinen. Diese müssen wir nicht nur innerhalb der Bibliotheken begreifen, wir müssen sie auch unseren Nutzern verdeutlichen. Das einheitliche Suchen im gesamten Wissens-Universum ist vorerst Utopie.
Weiter unten folgt ein Versuch, den momentanen Stand der Unterschiede tabellarisch zu beschreiben.

Zuerst aber soll es hier um Kataloge gehen, und besonders um die Unterschiede zwischen unseren zeitgenössischen Katalogen, den Online-Katalogen (früher OPACs genannt), und den hergebrachten, den Zettelkatalogen. Dann geht es um die Frage, was daraus für die Katalogisierung und ihre Regeln folgt.

Was ist heute das Hauptproblem bei der Suche?

In Zettelkatalogen fand man nur vergleichsweise mühsam etwas. Aus dem Online-Katalog kommt dagegen fast immer irgend etwas heraus - aber gerade das ist sein Hauptproblem: denn es wird auf keine Weise klar, ob das alles ist und ob das Beste auch wirklich dabei ist. D.h. der Nutzer merkt nicht so leicht, ob ihm etwas entgeht und womöglich sogar sehr viel oder sehr wichtiges. Nutzungsstudien zeigen: es ist schwierig, Nutzer zu mehreren Versuchen oder unterschiedlichen Vorgehensweisen zu animieren - mit anderen Worten, sie zum Mitdenken zu bringen. Genutzt wird überwiegend das, was als Standard ( default ) angeboten wird; zum einen wegen der Tendenz, immer den vermeintlich einfachsten Weg zu gehen, zum andern vermutlich in der unreflektierten Meinung, andere Wege seien weniger gut. Solche Schwierigkeiten zu überwinden ist nicht die Aufgabe des Katalogs selbst. Der Katalog kann beliebig gut sein, das ist dabei nicht entscheidend. Mitdenken bleibt dem Nutzer nicht erspart, heute wie früher, und so wird es bleiben. Und dies Faktum sollte ihn durchaus beruhigen - er wäre sonst womöglich selber durch eine Maschine ersetzbar... Doch wie dem auch sei: selbstverständlich soll man leichte Zugänge schaffen für einfache Fragen, aber genauso soll der anspruchsvolle Nutzer auf ansprechende Weise eingeladen werden, ausgefeilte Techniken kennenzulernen und im Bedarfsfall für sich einzusetzen.

Was ist ein guter Katalog?

Nach aller Erfahrung könnte man ihn so charakterisieren:

    1. geht es um die Entscheidung, was man eigentlich katalogisiert . Klassisch sind dies Bücher, geschlossene Pakete von Aufzeichnungen also. Oft stecken aber in einem Buch mehrere oder viele kleinere Pakete, die jedes für sich genommen eine Einheit darstellen, nach der gesucht werden könnte. Man denke nur an Tagungsbände und Festschriften, erst recht an Zeitschriften und besonders an die auf einer Musik-CD unter einem willkürlichen Gesamttitel vereinigten Stücke. Im Grunde braucht ein Nutzer, von Belletristik einmal abgesehen, meistens  nur ein bestimmtes Kapitel oder einzelne Abschnitte eines Buches. Katalogisiert man einfach nur die Titel, die außen auf den Büchern (oder CDs) stehen, bleiben die Bestandteile verborgen und im Katalog nicht auffindbar. Aus ökonomischen Gründen haben aber nur wenige Bibliotheken jemals eine "Tiefenerschließung" betrieben, also etwa Festschrift- oder Konferenzbeiträge einzeln katalogisiert. Ein Spezialfall sind "mehrbändige Werke" mit Stücktiteln: katalogisiert man sie nur als Ganzes oder jeden Teil für sich (als wäre es eine Serie) oder sowohl als auch?
    2. braucht man ein Konzept für die sachliche Erschließung . Begnügt man sich mit ein paar wenigen normierten Schlagwörtern oder Notationen, um den Inhalt eines Dokuments global zu kennzeichnen, oder versucht man, wirklich jedes Thema zu erfassen, das in einem Dokument abgehandelt wird? Es gibt z.B. schon mehrere Versuche, bei Büchern auch die Inhaltsverzeichnisse zu erfassen, oder mit automatisierten Methoden einem Katalogdatensatz weitere Sachbegriffe zuzuordnen.


Von der Linie zum Mehrdimensionalen Raum

Der entscheidende, bedeutendste Unterschied zwischen Zettelkatalog und Online-Katalog ist dieser:

Zettelkatalog:   eine lineare, also eindimensionale Folge von Einträgen. Oft gibt es mehrere Katalogteile ("Alphabete") mit zeitlicher Schichtung und/oder eine Aufteilung in Formal- und Sachkataloge. Für jedes Dokument können mehrere Zettel an verschiedenen Stellen eingeordnet sein, einer davon ist die "Haupteintragung". Diese Stelle dient dazu, die Ausgaben eines Werkes und die Werke eines Verfassers zusammenzuführen. Diese Stelle dient aber auch dem zuverlässigen Auffinden: kennt man das Prinzip, kann man durch Nachsehen an einer einzigen Stelle herausfinden, ob das Gesuchte da ist oder nicht.

Online-Katalog:   im Prinzip eine ungeordnete Datenmenge. Die Software kann daraus aber mit Hilfe vieler formaler und sachlicher Kriterien Teilmengen extrahieren und dann in einer bestimmten Ordnung auflisten. Diese Kriterien, Namen, Titel, Nummern, Schlagwörter usw., können bei einer Suche beliebig miteinander kombiniert werden. Sie sind somit so etwas wie die Achsen eines mehrdimensionalen Raumes, in dem man sich bei der Suche in allen Richtungen bewegen kann. Das ist recht abstrakt, deshalb liegen auch die Probleme nicht unmittelbar auf der Hand.

Die Konsequenz: beim Zettelkatalog kommt es entscheidend auf die Reihenfolge der Einträge an, denn nur sie bestimmt darüber, ob und wie man etwas finden kann. Die Reihenfolge ergibt sich aus zwei Entscheidungen, die beim Katalogisieren zu treffen sind:

  1. Welches sind die (wenigen!) Kriterien, unter denen einzutragen ist - die Frage der Eintragungen (sog. Haupt- und Nebeneintragungen). Daraus ergibt sich, nach was man überhaupt suchen kann. Bei Verfasserwerken war das in deutscher Tradition nur der Name des oder der Verfasser, in angelsächsischer Tradition meist auch zusätzlich der Titel.
  2. Was ist die genaue Schreibweise dieser Kriterien - die Frage der Ansetzung. Daraus ergibt sich die Position in der linearen Folge.
Nebenbei: Metadaten-Unternehmungen wie z.B. die Dublin-Core-Bewegung haben bis dato die zweite Frage fast immer nur am Rande beachtet, was ungünstige Folgen für die Zugriffe hat. 

Leicht kommt die Meinung auf, für Online-Kataloge brauche man nicht mehr solche differenzierten Regeln wie für Zettelkataloge, weil man nach jedem Kriterium und nach Kombinationen davon suchen könne und nicht mehr an eine bestimmte, lineare Ordnung gebunden sei. Das ist jedoch ein voreiliger Irrtum, wie man leicht erkennt, wenn man sich die Situationen vor Augen führt, in denen ein Katalog gebraucht wird:


Standardsituationen bei der Suche

Die häufigste Situation ist wahrscheinlich die Suche nach einem bestimmten Faktum . Dafür eignen sich Kataloge wenig, weil sie nur Beschreibungen von Dokumenten enthalten, nicht deren Inhalte. Suchmaschinen dagegen indexieren eben gerade die online zugänglichen Texte als solche, und zwar komplett, und führen somit direkt zu den darin aufgezeichneten Fakten. Auf dem Gebiet der Faktensuche sind daher heute die Suchmaschinen für viele Nutzer die erste Adresse oder das Nachschlagewerk schlechthin: man nutzt sie als Adress- und Telefonbuch, Wörterbuch, Lexikon, Atlas, Kalender, Fahrplan, Nachrichtenquelle, Wetterdienst, Buchungsdienst, Bilderbuch u.a.m. Kataloge dagegen kann man nicht in dieser Weise benutzen, sie führen nur zu vorhandenen Nachschlagewerken hin. Der Suchvorgang ist somit als Ganzes viel langwieriger und umständlicher.  Nach gedruckten Lexika sucht man aber meistens gar nicht im Katalog, sondern im Freihandbestand...
Wenn man von der Faktensuche absieht und sich die Dokumentensuche anschaut, erlebt man drei sehr verschiedene Situationen, für die es leider im Deutschen nicht solche kompakten Bezeichnungen gibt wie im Englischen:

a) Known item search ("Ich weiß genau, was ich suche" - Erinnerungsrecherche): Man sucht nach einem Dokument, zu dem man bereits genaue Angaben hat, etwa ein Zitat aus einem Literaturverzeichnis.

Der Nutzer braucht dann nur zu wissen, mit welchen Angaben man im Katalog Aussicht auf Erfolg hat. Die Regeln für die Auswahl dieser Suchkriterien heißen "Eintragungsregeln". Für Zettel waren hierbei strenge Grenzen zu setzen, denn man kann nur wenige Zettel pro Dokument erstellen und einordnen. Ein Online-System sortiert aber seine Register automatisch, deshalb gibt es ohne Mehraufwand viel mehr Suchkriterien. Nun kann man, ist das eine Kriterium nicht bekannt, es unbekümmert mit einem anderen versuchen, etwa mit einem Titelwort oder einem Verlagsnamen, wenn der Verfassername oder seine Schreibweise nicht bekannt ist. Sofort ergibt sich aber dann der Wunsch, auch mit Wörtern oder Verlagsnamen etc. für sich genommen möglichst zuverlässig suchen zu können! Sorgfalt ist nun infolgedessen nicht mehr nur, wie beim Zettelkatalog, für die Elemente der Haupteintragung (Verfasser/Titel) nötig, sondern für alle Kriterien, die suchbar sein sollen. Diese Erkenntnis setzt sich nur langsam durch. Noch immer existieren erstaunlicherweise Kataloge (sog. Freischütz-Kataloge), die dem Nutzer keine geordneten Register zum Blättern anbieten! Denn in solchen Registern sieht man unmittelbar, ob etwas Gesuchtes da ist oder nicht - oder ob es andere Schreibweisen oder auch Eingabefehler gibt.

Außerdem braucht man noch Regeln, die eine möglichst knappe Beschreibung jedes Dokuments leisten, die aber doch eine sichere Unterscheidung zwischen unterschiedlichen Dokumenten (und Versionen davon) ermöglicht. Diese "Beschreibungsregeln" sollen also zuverlässig das Unterschiedliche trennen . Wenn allerdings schon der nächste Mausklick das Dokument selbst hervorzaubert, ist eine kunstvolle Beschreibung nicht mehr gar so wichtig wie bei Magazinbeständen, wo man schon vor der Bestellung entscheiden können möchte, ob die Wartezeit sich lohnt.

b) Collocation search ("Ich brauche möglichst alles von xyz"): Man kennt etwa nur einen Namen oder Titel oder ein einzelnes Dokument und möchte logisch zugehörige andere Aufzeichnungen finden, etwa weitere Ausgaben oder Versionen, z.B. Übersetzungen oder neuere Überarbeitungen, die Teile eines mehrteiligen oder Sammelwerkes, oder etwa alle bzw. weitere Werke desselben Verfassers. Hierzu werden Regeln gebraucht, die das Zusammengehörige zusammenführen. Diese nennt man "Ansetzungsregeln". Ganz grob: Wenn ein Name oder Titel nicht immer gleich geschrieben wird, dann findet sich gleiches, aber ungleich benanntes nicht automatisch zusammen, das schafft keine noch so moderne Software. Deshalb ist es, wie auch schon im Zettelkatalog, wichtig, manchen Name und Titel anders zu erfassen als er im Buch steht. Das beißt sich leicht mit Situation a), deshalb ist der Name oder Titel oft in zwei Formen einzugeben. Damit das nicht ausartet, wurde für den Zettelkatalog der Verweisungszettel erfunden (z.B. Peter Panter siehe Kurt Tucholsky), für den Online-Katalog die Normdaten. Ein Normsatz für eine Person enthält alle aufgefundenen Formen des Namens. Jede davon führt dann zum selben Ergebnis, aber bei jedem Dokument braucht jeweils nur die darin stehende Form eingegeben zu werden sowie die Nummer des Normsatzes. Mitunter sind es 30 und mehr Formen, die zu einem Namen zusammenkommen, so z.B. bei Namen wie Tschaikowsky oder Tschechow.
Normdateien für Namen sind in Deutschland die Personennamendatei (PND) und die Gemeinsame Körperschaftsdatei (GKD), in den USA die "Name Authorities" der Library of Congress.
Eine besondere Schwierigkeit tritt auf, wenn ein "Werk" unter verschiedenen Titeln auftritt oder mit anderen formalen Unterschieden, obwohl der Inhalt exakt derselbe ist. Katalogregeln verlangen dann die Formulierung eines "Einheitstitels", mit dem die unterschiedlichsten Versionen eines Werks auffindbar sein sollen, trotz der Unterschiede in den Titeln oder anderen Kriterien.
c) Subject search ("Ich suche was zum Thema xyz" - Entdeckungsrecherche): Man kennt noch kein bestimmtes Dokument, sondern sucht Aufzeichnungen zu einem bestimmten Thema. Das ist noch sehr viel schwieriger als a) und b). "Wovon handelt das Buch?" Diese Frage kann man sehr oft nicht mit nur einem oder wenigen Begriffen beantworten (s. oben: Tiefenerschließung). Volltextsuche in Büchern ist jedoch nicht möglich, denn man hat den Volltext nicht als Datei zur Verfügung. Gleichwohl ist diese Situation sicher die häufigste und für den Endnutzer wichtigste, während er a) und b) als unproblematisch oder unwichtig ansieht. Für Schlagwörter gibt es ebenfalls Normdaten (auch "kontrolliertes Vokabular" genannt): in Deutschland die Schlagwort-Normdatei (Deutsche Bibliothek), in den USA die Library of Congress Subject Headings (LCSH). Die beiden sind nicht sonderlich kompatibel, weil die zugrundeliegenden Prinzipien sehr verschieden sind. Die Sacherschließung ist ein Thema für sich, das in einem anderen Kapitel behandelt wird. Die Firma Google, das sei bei dieser Gelegenheit erwähnt, hat im Jahr 2004 damit begonnen, sich Buchtexte von den Verlagen zum Indexieren geben zu lassen, um tatsächlich erstmals das Suchen im Innern der Bücher möglich zu machen. Ähnliches macht seit einer Weile die Firma Amazon ("Search inside the book"). Vorerst wird nur ein Teil der Print-Produktion abgedeckt (bestimmte Verlage) und nur neue, lieferbare Bücher. Google geht dann noch einen großen Schritt weiter, indem man damit beginnt, Millionen Bücher ausgewählter Bibliotheken zu Scannen und für das Durchsuchen aufzubereiten.

Die Situation b) mit dem Aspekt "Ausgaben eines Werkes" wird immer leicht übersehen oder wenig berücksichtigt, und sie tritt wohl relativ selten auf - welches Werk erscheint schon in mehr als einer Ausgabe oder Version? Wer noch nicht von der (relativen) Wichtigkeit dieses Aspekts überzeugt ist, braucht sich nur folgende Fälle vorzustellen, die alle nur dann zu Erfolgen führen, wenn der Katalog das Zusammengehörige zusammenführt, also z.B. die verschiedenen Ausgaben oder Versionen einer Veröffentlichung:

Noch etwas ganz anderes kommt hinzu: Schon die Tatsache der Existenz von Übersetzungen oder weiteren Auflagen/Ausgaben  stellt einen Indikator für eine gewisse Qualität dar. Im Zettelkatalog wurde das unmittelbar deutlich, weil die Zettel hintereinander lagen. Denkbar ist, dies auszunutzen für eine "Relevanz"-Gewichtung der Titel in einer Ergebnismenge. Das ist bisher wohl noch nirgends geschehen.

Perfektion ist jedoch nicht erreichbar: oft hat z.B. eine Bibliothek nur eine einzige Ausgabe und hatte beim Katalogisieren von der Existenz anderer Ausgaben keine Kenntnis, zumal wenn diese später erst erschienen. Dann kann nur diese eine gefunden werden, aber nicht unter dem abweichenden Titel einer anderen. Solche Fälle sind in Verbunddatenbanken seltener!

Dasselbe immer wieder anders

Als Folge der heutigen Medienvielfalt, vor allem im Internet erscheint noch öfter als früher ein Werk in mehreren "Ausprägungen" (engl. "manifestations"): derselbe Inhalt kann ganz leicht unterschiedlich präsentiert werden, z.B. in verschiedenen Dateiformaten oder Druckformatierungen. Für das Katalogisieren hat sich also das Problem weiter verschärft. Gerade im Internet wird sehr nachlässig mit den Titeln der Dokumente umgegangen, diese aber sind das wichtigste Element zur Identifizierung. Wenn unterschiedliche Ausprägungen nicht denselben Titel tragen, kann kein Programm dies erkennen und vereinheitlichen, sondern das Festlegen und Eingeben eines Einheitstitels kann nur ein Mensch leisten.

Nicht in allen Bereichen ist das Problem der Titelvarianten virulent. Am wenigsten wohl in den Natur- und Technikwissenschaften (viele Dokumente erscheinen nur ein einziges Mal), viel mehr in der Belletristik (viele Übersetzungen), am meisten in der Musik (von vielen Stücken gibt es ungezählte Aufzeichnungen mit immer wieder anderen Titeln). Der "Einheitstitel" ist das katalogtheoretische Rezept, die Vielfalt der Ausprägungen und Ausgaben zu bündeln. Was CD-Ausgaben klassischer Musik betrifft, hat das auch Amazon längst erkannt: offensichtlich wird dort das Konzept des Einheitstitels konsequent angewandt.
 

RAK und AACR arbeiten nur formal, nicht sachlich!

Die Regelwerke RAK und AACR befassen sich nur mit den Situationen a) und b). Dabei handelt es sich um Zusammenhänge, die formal beschreibbar sind, bei c) geht es jedoch um den Inhalt - die Domäne der Sacherschließung.

In Zettelkatalogen hat man oft für c) getrennte Karteien angelegt, Online-Kataloge jedoch bieten in der Regel die Suche nach Schlagwörtern und/oder Systemstellen in derselben Datenbank an.

Die beschriebenen Probleme sind im Prinzip bekannt seit den Arbeiten Antonio Panizzis am Britischen Museum im 19. Jhdt (um 1841 erschien sein Regelwerk "Ninety-One Rules"). Er hatte sich zur Aufgabe gemacht, erstmals einen Katalog für die Bibliothek zu schaffen. Seine Arbeitgeber verstanden nichts davon und stellten sich die Sache einfacher vor, er hatte deshalb einige Mühe, ihnen seine Erkenntnisse zu vermitteln und finanzielle Unterstützung zu gewinnen. Diese Situation wiederholt sich seitdem immer wieder ...

Bemühungen um Internationalisierung der Katalogisierungsgrundsätze gab es aber erst Mitte des 20. Jahrhunderts. Ein Höhepunkt war die große IFLA-Konferenz von 1961 in Paris, deren "Statement of Principles" zur Grundlage des deutschen Regelwerks RAK, aber auch der angelsächsischen AACR wurde. Erst 1999 brachte die IFLA ein neues Grundsatzpapier heraus, betitelt "Functional Requirements of Bibliographic Records" (FRBR), das zunehmend nicht nur in Bibliotheken, sondern auch in Metadaten-Projekten Beachtung findet. Kernpunkte dieses IFLA-Papiers wurden in dem Vortrag "Grundsätze und Ziele des Katalogisierens" auf dem Bibliothekartag 2002 in Augsburg in neuer Form vorgestellt. Auf der IFLA-Tagung 2003 in Berlin wurde ein neuer Entwurf zu einem modernisierten "Statement of Principles" beraten. 
Die FRBR versuchen, zu sagen, was für Objekte bibliographische Daten beschreiben und wofür sie gut sein sollen und was für Eigenschaften sie demnach haben sollten. Die "Principles" beschreiben, was Online-Kataloge leisten sollen. Was folgt daraus für die Katalogisierungsregeln? Daran wird noch gearbeitet, sowohl für RAK (neue Version: RfK) wie auch für AACR (neue Version: AACR3, 2007).

 

Geht RAK nur mit MAB2 und AACR nur mit MARC21?

siehe auch die Dokumentation "Was sind und was sollen Bibliothekarische Datenformate?"
Die Datenformate MAB2 und MARC21 wurden geschaffen, um Bibliotheksdaten besser austauschen zu können. Die Deutsche Bibliothek liefert ihre RAK-Daten im Format MAB2, die Library of Congress liefert ihre AACR2-Daten im Format MARC21. Jedoch: Die Deutsche Bibliothek kann ihre Daten auch im MARC-Format liefern. Format und Regelwerk sind nicht untrennbar verbunden: das Format ist ein Behälter, mehr nicht. Zwar gibt es einige Besonderheiten, die durch die Regelwerke verursacht wurden, doch mit etwas gutem Willen lassen sich diese ausbügeln. So wäre es also möglich, in Zukunft weltweit nur noch ein einziges Austauschformat zu verwenden, trotz Anwendung unterschiedlicher Regelwerke. Es gibt einige Beispiele, an denen man die Probleme studieren kann.

Kataloge und Suchmaschinen

Wieder und wieder werden Kataloge und Suchmaschinen in einem Äpfel-mit-Birnen-Vergleich nebeneinander gehalten. Nicht immer geschieht das direkt, manchmal nur durch Anspielungen, aber bisweilen kommt für die Äpfel der Rat heraus, sich mal eine Scheibe von den Birnen abzuschneiden.

Die Absicht hier ist nicht, das eine gegen das andere auszuspielen, sondern es sollen die Unterschiede klar herauskommen, um die Einschätzung zu objektivieren.

Eine echte Konkurrenzsituation besteht allerdings gar nicht: Kataloge und Suchmaschinen erschließen nicht dieselben Inhalte; das allermeiste Printmaterial ist nach wie vor nirgends online verfügbar, und Netzinhalte könnten oftmals beim besten Willen gar nicht in Druckform erscheinen, weil sie keine lineare, als ganzes abdruckbare Struktur haben.

Es gibt aber eine breiter werdende Grauzone: Kataloge werden zunehmend auch mit wichtigen Netzinhalten angereichert, vor allem E-Zeitschriften, Online-Nachschlagewerke, digitale und digitalisierte Veröffentlichungen. Und andererseits:  In Suchmaschinen findet man Hinweise auf Bücher, die irgendwo erwähnt, beschrieben oder rezensiert sind. Vieles, was früher auf Papier veröffentlicht wurde, wird jetzt "ins Netz gestellt", z.B. Preprints und Dissertationen. Wichtige ältere Bücher, die nicht mehr dem Urheberrecht unterliegen, werden digitalisiert und frei zugänglich gemacht. Werke der "Klassiker" in allen Sprachen sind zu großen Teilen sogar als Textdateien erhältlich, Musterbeispiel ist das "Projekt Gutenberg" mit tausenden von Titeln.

Die folgende Auflistung spricht eine Menge verschiedene Aspekte an, die dem einzelnen Nutzer durchaus nicht alle wichtig sind. Wer aber immer wieder nach Aufzeichnungen zu fahnden hat, ist gut beraten, sich einen breiten Überblick zu verschaffen.


 
 
Katalog
(Formal- und Sachkatalog)
Suchmaschine
Bestand
  Beschreibt einen konkreten Dokumentenbestand, in der Mehrzahl Bücher, der an einem oder mehreren Orten physisch vorhanden ist. Weist Inhalte nach, die weltweit verteilt sind. In der Mehrzahl sind diese "Ressourcen" nicht mit Büchern vergleichbar. 
Umfang
  Der reale Bestand ist in jedem Fall eine Auswahl aus einer viel größeren Menge von publizierten Dokumenten. Die Auswahl erfolgt meist nach sachlichen und Qualitätskriterien, kann aber durchaus subjektiv ausgerichtet sein. 
Aus Geldmangel können einzelne Bibliotheken auch die wichtigen Bücher eines Faches nicht alle kaufen.
Die großen Verbundkataloge weisen viel mehr Titel nach, doch nicht alles ist erhältlich.
In der Intention umfassend und global , real jedoch bestenfalls 30% des zugänglichen Materials.
Umfang und Aktualität des Bestands sind nicht erkennbar, die Auswahl erfolgt rein automatisch. Vieles ist nicht absichtsvoll veröffentlicht worden. Die Qualität von Inhalten kann durch Software nicht bewertet werden, daher steht Wichtiges inmitten großer Mengen wertloser Dinge.
Ziele
  Hat genau definierte Ziele (RAK §101), wodurch es möglich ist, nach einem oder wenigen Versuchen so gut wie sicher zu sein, ob das Gesuchte da ist oder nicht , jedenfalls für bestimmte Arten von Fragestellungen, auch wenn die Schreibweisen der Wörter oder Namen in den Dokumenten unsicher sind. M.a.W.: bestimmte Abfragen haben eine hohe Zuverlässigkeit, darunter gerade solche vom Typ "known item search" und "collocation search". Recht genaue Kenntnis der Suchbegriffe und ihrer Schreibweise ist dann aber sehr wichtig. Prinzipien für die Ziele einer Suchmaschine wären schwierig zu formulieren, jedenfalls in dem Sinne, klarzumachen, welche Art von Zugriffen Ergebnisse mit hoher Zuverlässigkeit oder Präzision erbringen würden. Insbesondere "subject search" und "collocation search" sind nicht zuverlässig realisierbar. Was "known item search" betrifft: Kennt man zwei oder drei prägnante Wörter, die irgendwo im Text vorkommen müssen , so ist die AND-Suche recht zuverlässig. Vermutlich dominiert aber heute die Faktensuche, denn mit etwas Glück und Spürsinn kann man nirgends so schnell eine Adresse, ein historisches Datum, eine Wortbedeutung, einen Termin, eine Statistik oder ein Bild finden.
Erwartung und Vorstellung des Nutzers vom Bestand
  Der Bestand ist daher kleiner als es nach der Vorstellung der meisten Nutzer wünschenswert wäre, jedoch bemühen sich die Bibliotheken um eine qualitätvolle und ausgewogene Auswahl von Dokumenten mit längerfristiger Bedeutung. Verbundkataloge fassen Bestände zu einer virtuellen Gesamtheit zusammen. Die indexierte Menge ist u.U. viel größer , als ein Nutzer es sich vorstellt, aber wertvolle Ressourcen stehen undifferenziert inmitten Massen ephemeren, wissenschaftlich unbedeutenden Materials. Es wird aber versucht, mit formalen Kriterien eine Gewichtung (sog. "relevance ranking") durchzuführen.
Transparenz (Durchschaubarkeit)
  Grundsätzlich kann ein interessierter Nutzer alles über die Funktionsweise des Katalogs erfahren und somit auch das Zustandekommen eines Suchergebnisses durchschauen. Vor allem, wenn es um wissenschaftliche Information geht, ist es unabdingbar notwendig, Endnutzern eine Einschätzung der Zuverlässigkeit und Vollständigkeit von Ergebnissen zu ermöglichen. Bei sachlicher Suche gelten natürlich die bekannten Probleme mit "recall" und "precision", die sich nie vollständig lösen lassen.
(
Die Bibliothek braucht nichts geheimzuhalten, denn sie hat vollständige Kontrolle über den Katalog, kein Nutzer kann seine Daten und Funktionen beeinflussen.)
Suchmaschinenbetreiber können die Arbeitsweise ihrer Software nicht vollständig offenlegen, weil die sog. "Suchmaschinen-Optimierer" dieses Wissen dann ausnutzen, um durch geeignete Gestaltung von Texten und Metadaten ein hohes "Ranking" zu erzielen.
Das Zustandekommen von Ergebnissen, das Ranking, die Zuverlässigkeit und Vollständigkeit sind deshalb für den Endnutzer mindestens teilweise undurchschaubar.
Außerdem ist es wegen der enormen Datenmengen notwendig, in der Suchsoftware Kompromisse zwischen Präzision und Geschwindigkeit zu machen. So sind die Trefferzahlen i.d.R. nur Schätzungen.
Art der Daten
  Besteht aus normierten Kurzbeschreibungen (Titelaufnahmen), die nach festgelegten Regeln einheitlich angefertigt werden. Die meistverwendeten Regeln sind AACR und RAK. Für jedes Dokument gibt es einen strukturierten Datensatz mit genau definerten Feldern. Die Feldstruktur entspricht einem Datenformat. Die meistverwendeten Formate sind MARC und MAB. Die Feldinhalte entsprechen dem verwendeten Regelwerk.
Objekte (Dokumente) haben typischerweise einige formal definierte Teile (z.B. Haupttitelseite), von denen sich Metadaten in formaler Weise ableiten lassen. Dies ist wichtig für die Austauschbarkeit der Daten und z.B. virtuelle Kataloge.

Einige Beispiele zeigen deutlich: Datenformat und Regelwerk sind zwei ganz verschiedene, sich jedoch ergänzende Gebilde.
Es gibt keine normierten Beschreibungen der Dokumente, die Datenbank besteht eigentlich nur aus großen Indexdateien, die aus den Dokumenten direkt abgeleitet sind. Die Indexdateien werden als solche nicht gezeigt, denn sie sind nicht als schlichte alphabetische Listen organisiert. Einheitlichkeit ist nicht möglich, weil das Material in keiner Hinsicht standardisiert ist. Nur wenige Objekte haben Metadaten. Es gibt auch kaum formal definierbare Teile, die bei jedem Objekt auftreten, daher ist schon das Definieren einheitlicher Metadaten kaum möglich. Eine Entsprechung zum Titelblatt gibt es z.B. nicht, und viele Webseiten haben noch nicht einmal einen eindeutig erkennbaren Titel.
Selbst wenn es Metadaten gibt, sind sie selten hilfreich, weil uneinheitlich, zu simpel und zu mager. Der meistverwendete semantische Standard ist "Dublin Core", Regeln für die Inhalte werden jedoch kaum verwendet, oder aber keine einheitlichen - es ist auch kaum möglich.
Entstehung der Datenbank, die zur Suche dient
  Die Volltexte selbst liegen i.d.R. auf Papier vor, d.h. sie stehen nicht für eine automatisierte Auswertung zur Verfügung!

Die Beschreibungen beruhen im Wesentlichen auf einer Titelseite oder einem Äquivalent und umfassen keine weiteren Teile des Inhalts.

Diese Struktur ist an den früheren Katalogkarten orientiert.

Automatisches Katalogisieren (Titelblätter scannen usw.) ist nicht möglich, die Beschreibungen müssen intellektuell-manuell angefertigt werden. 

In den Indexdateien ist meist das gesamte Wortmaterial der Volltexte (!) aufbereitet. So etwas wie Titelseiten, ja sogar Titel gibt es oft gar nicht. Deshalb wird per Software versucht, die jeweils entscheidenden Zeilen eines Dokuments für die Anzeige aufzubereiten, um den Kontext der gefundenen Wörter sichtbar zu machen.

Die Daten werden vollautomatisch aus den online vorliegenden Dokumenten gewonnen und für die Suche aufbereitet.

Abfrage-Kriterien
  Abfragen können nach mehreren verschiedenen Kriterien und auch Kombinationen davon erfolgen: Namen, Titelwörter, Titelanfänge, Schlagwörter u.a., oft gibt es auch einen "Basic Index", der alle diese Elemente in sich vereinigt und jedes Einzelwort zugänglich macht.

Die Kriterien beziehen sich aber i.d.R. nur auf die Dokumente als Ganzes, nicht auf Teile davon, etwa einzelne Aufsätze oder Kapitel  (d.h. fast immer gibt es keine Tiefenerschließung ).

Abfragen werden meistens durch Volltextsuche im gesamten Bestand erledigt, wofür ein einzelnes Eingabefeld genügt. Es sind meist auch gewisse Differenzierungen der Abfrage möglich, doch z.B. nicht nach Namen / Stichwörtern / Titeln / Schlagwörtern / Jahreszahlen, weil es dazu keine Datenfelder gibt. Andererseits wäre dies auch schwierig, weil z.B. nicht jedes Web-Dokument einen einen erkennbaren Titel hat. Nützlich kann eine Suche nach URL-Bestandteilen sein.
Hat man prägnante Suchwörter, kann man jedoch oft Erfolge erzielen, wenn ein Bibliothekskatalog nichts ergeben würde. Das geht z.B. bis zur Möglichkeit der Suche nach Bildern, die in Texten vorkommen.
Eine Tiefenerschließung ergibt sich wie von selbst, weil der gesamte Text indexiert ist. Für die "Relevanz"-Bewertung zählt i.d.R. aber mehr, was am Anfang des Dokuments steht. Volltext-Indexierung liefert andererseits viele irrelevante Nachweise.
Browsing
  Statt einer direkten Abfrage kann auch über das Blättern in diversen Registern gesucht werden. Dies wird von Praktikern für unverzichtbar gehalten, erleichtert doch das Browsing in den Registern oft das Auffinden, wenn man die genaue Schreibweise nicht kennt, oder nicht an flektierte Formen des Suchworts denkt (Plural, Genitiv u.a.) Denn die Wörter sind nur in der Form auffindbar, wie sie tatsächlich im Titel stehen!

Auch Zufallsfunde ("serendipity") werden durch Register ermöglicht.

Suchmaschinen haben keine Register zum Blättern. Dies wird zwar selten bemängelt, aber gerade wegen der völlig fehlenden Normierung der Datenelemente könnten solche Register gelegentlich sehr helfen. Die gewaltigen Datenmengen und die Art der Daten- und Indexorganisation (die Daten haben keine sehr differenzierte Feldstruktur!) erlaubt aber solche Register wohl nicht. 

Weil die Volltexte indexiert sind, spielt das Problem der Flexionen keine so große Rolle wie beim Katalog: meistens kommt sowohl der Singular wie der Plural und andere Formen der wichtigen Wörter irgendwo im Text vor.

Ordnung von Ergebnissen ("Ranking")
  Die Ordnung von Ergebnislisten erfolgt traditionell ganz formal nach dem Alphabet der Verfasser oder Titel, oder nach dem Erscheinungsjahr. Manche Systeme erlauben eine Auswahl verschiedener Ordnungen.

Für eine "Relevanz"-Gewichtung können oder könnten nicht nur Erscheinungsjahr, Umfang, Sprache und  Nachbarschaft von Wörtern dienen, sondern auch die Tatsache der Existenz höherer Auflage oder Übersetzungen. Besonders dies letztere ist wohl noch nicht versucht worden.
Der sehr knappe textliche Umfang von Katalogdaten setzt jedoch einem "Relevanz"-Ranking enge Grenzen.

Die Ordnung der Ergebnisse wird nach sehr unterschiedlichen Kriterien vorgenommen, die selten direkt nachvollziehbar sind. Wenn von "Relevanz" die Rede ist, dann ist zu bedenken: Relevanz kann grundsätzlich nicht von Maschinen klassifiziert werden - sie ist subjektiv. Eine Suchmaschine kann jedoch Kritierien heranziehen, für die es in Katalogdaten keine Parallele gibt, wie z.B. die Bewertungskriterien bei Google: hier wird u.a. ausgewertet, wieviele andere Web- Dokumente auf das zu indexierende verweisen.
Ordnungen nach Jahr oder Alphabet sind nicht möglich, weil die notwendigen Metadaten dafür nicht vorliegen. (Noch nicht einmal das Erstellungsjahr der Datei ist in einem HTML-Text standardmäßig enthalten, höchstens das letzte Änderungsdatum, aber auch nicht immer)
Normierung
  Es gibt Normierungen (engl. "Authority Control", "Controlled Vocavbulary") für die wichtigsten Datenelemente (Namen, Einheitstitel, Schlagwörter). Daher kann man in manchen, wichtigen Fällen sicher sein, ein recht präzises Ergebnis zu erhalten, aber durchaus nicht in allen Fällen, die dem Nutzer wichtig sind, z.B. eben gerade nicht bei thematischer Suche. Denn nicht jedes Thema, das in einem Buch behandelt wird, kann bei der Schlagwortvergabe berücksichtigt werden. Doch für die wichtigen Fälle "Werke eines Verfassers" und "Ausgaben eines Werkes" ( collocation search ) leistet ein Katalog gute Dienste.
Das Konzept "Werk" dient dazu, unterschiedliche Versionen und Ausgaben, die inhaltlich aber identisch sind, zusammenzuführen.

Ferner ist wegen der Normierung recht schnell und zuverlässig feststellbar, ob ein bestimmtes Dokument nicht vorhanden ist: man kann wissen, unter welcher Eintragung es stehen sollte. Ob zu einem Thema nichts vorhanden ist, kann man dagegen wohl kaum jemals zuverlässig feststellen...

Es gibt keine Normierungen , denn Erfassung und Indexierung erfolgen vollautomatisch, und die Dokumente selbst sind nicht hinreichend standardisiert. Manuell / intellektuell wären die Mengen nicht zu bewältigen.

Der Mangel an Normierungen ermöglicht präzise Ergebnisse nur dann, wenn bestimmte Namen/Wörter mit Sicherheit in einer ganz bestimmten Schreibweise in den gesuchten Dokumenten vorkommen und man dies vorher weiß.
Ein collocation search ist deshalb nicht möglich. Das Konzept "Werk" gibt es nicht: unterschiedliche Dateiversionen desselben Inhalts können selten automatisch erkannt werden.

Eine Feststellung auf Nichtvorhandensein eines bestimmten Dokuments kann schwierig sein.

Verfügbarkeit der Dokumente
  Ein gefundenes Dokument ist mit hoher Sicherheit auch vorhanden und zugänglich - möglicherweise aber ausgeliehen und dann nicht sofort erhältlich. Bestände anderer Bibliotheken sind i.d.R. über Fernleihe zugänglich, doch im Vergleich zum Mausklick ist das ein ungemein langsames Verfahren. Ein gefundenes Dokument ist meistens sofort zugänglich, manchmal aber nicht oder nicht mehr vorhanden oder nicht sofort auffindbar. (Dem würde es entsprechen, wenn eine Bibliothek ständig Signaturen ändern und Bücher ausscheiden, diese Änderungen aber nicht oder nur mit Verzögerung im Katalog nachvollziehen würde.)
Aktualität des Materials
  Bibliotheksbestände sind zum großen Teil Materialien, die auf längere Lebensdauer angelegt sind. Lang war immer auch der Weg von der Produktion über den Geschäftsgang bis in den Katalog und damit zum Leser. Durch Integration der Arbeitsgänge und Nutzung von Fremddaten ist heute die Zeit bis zur Bereitstellung viel kürzer als früher. Zwar ist Aktualität oft ein wichtiges Kriterium, doch den Schwerpunkt der Bibliotheksbestände bilden die Aufzeichnungen gesicherter Erkenntnisse, nicht aktueller Diskussionen oder Berichte. Suchmaschinen sind i.d.R. besonders stark im Nachweis aktuellen Materials. Texte, die "ins Netz gestellt" werden, können unmittelbar von Suchmaschinen indexiert werden, ohne weitere personalgebundene Arbeitsgänge. Meistens dauert es einige Wochen, bis neue Inhalte in den Suchmaschinen auftauchen - das liegt am großen Umfang des Netzes. Ein großer Teil der Materialien im Netz hat sich noch gar nicht in "richtigen" Veröffentlichungen niedergeschlagen. 
Es gibt spezielle Suchmaschinen für die tägliche Indexierung von Nachrichtenquellen.

Eine ältere Druckfassung dieses Beitrags ist erschienen in:
92. Deutscher Bibliothekartag in Augsburg 2002 : Die Bibliothek zwischen Autor und Leser. - Frankfurt: Klostermann, 2003. (ZfBB-Sonderheft 84). - ISBN 3-456-03252-7. - S. 113-126.

B. Eversberg, UB Braunschweig 2002-03-04 / 2005-07-06