UB BRAUNSCHWEIG
Symbolfoto
  • Impressum
  • Startseite
  • allegro-C von A-Z
  • Druckversion
ÔĽŅ

Eine seltene Sache Erwartung und Ern√ľchterung bei der thematischen Katalogsuche


"Una cosa rara" (Eine seltene Sache) ist der Titel einer Oper (Libretto von da Ponte), die 1786 in Wien Mozarts Figaro vom Spielplan verdr√§ngte. Vicente Mart√≠n y Soler, der Komponist, war zu jener Zeit viel popul√§rer als Mozart. Der jedoch hatte kein Problem damit, im "Don Giovanni" das Werk des Konkurrenten wohlwollend zu zitieren (als Tafelmusik beim Souper). Das heutige Publikum kann die Anspielung nicht bemerken, weil inzwischen die "Cosa rara" sozusagen "rarissima" geworden ist - kaum je wird sie noch gespielt - w√§hrend "Figaro" und "Don Giovanni" zu den gro√üartigsten und beliebtesten Opern √ľberhaupt z√§hlen.
Auch und gerade die seltenen Sachen will man in Katalogen finden k√∂nnen, nicht nur die, f√ľr die sich jeder interessiert. Deshalb gibt es neben der formalen Katalogisierung die Sachkatalogisierung, heute sagt man sachliche Erschlie√üung.
Dieser Text soll keine Einf√ľhrung in die Sacherschlie√üung bieten, davon gibt's genug, er soll nur eine Ahnung von ihrer Notwendigkeit erwecken. Zur Zielgruppe geh√∂rt u.a., wer dar√ľber noch nie nachgedacht hat oder wer ein diffuses Unbehagen konkretisieren m√∂chte. Wer dagegen dauernd mit wachem Auge in Katalogen sucht, dem braucht man nichts zu erz√§hlen.

"Wenn Sie umfassende Informationen zu einem bestimmten Thema suchen, kann das Netz eine Hilfe sein. Nicht mehr, nicht weniger. Eine  gr√∂√üere Hilfe bieten allerdings Bibliotheken. Eine derartige Konzentration an Wissen gibt es nicht im Netz. Wie lange brauchen Sie um ein Buch durchzubl√§ttern, die Seiten zu √ľberfliegen und einige Dutzend Bilder zu betrachten? Wie lange dauert das im World Wide Web? Und was kostet es?"
Man könnte weit ausholen, aus der Tiefe der Geschichte schöpfen (schon die antike Bibliothek in Alexandria hatte einen Sachkatalog) und dann abstrakt fragen, was denn heute das Paradigma der Bibliothek sei. Wir fragen hier nicht paradigmatisch (das kann woanders geschehen), sondern ganz pragmatisch:

Was wird denn erwartet?
Sind Sie ein naiver Katalognutzer? (Oder -nutzerin, das l√§uft auf's selbe hinaus.) So nennen wir einfach mal solche, und das ist nicht abwertend gemeint!, die noch nicht durch eine Theorie vorbelastet sind. Naive Nutzer, darauf darf man hohe Wetten abschlie√üen, sind sich v√∂llig einig in der Erwartung (siehe oben das Zitat aus der "Suchfibel"), was ihnen ein Katalog bieten m√ľsse:
"Der Katalog soll mir, wenn ich ein Thema habe, dazu alles Vorhandene auswerfen." (Finden Sie nicht auch?)
Weil sich darin die Nutzerschaft so bemerkenswert einig ist, k√∂nnte man von der "Zentralen Erwartung" reden, um einen griffigen Terminus daf√ľr zu haben.
Betrachtet man Zugriffsprotokolle von Online-Katalogen, um zu sehen, was die Nutzer so alles eintippen, findet man eine klare Bestätigung (wie auch bei Befragungen): eine sehr große Zahl der Anfragen sind ganz offensichtlich thematisch gemeint, nicht formal (d.h. nach Verfasser oder Titel). Zuweilen werden da wirklich mit beachtlicher Technikzuversicht richtige Fragen eingetippt. Unbestreitbar wird daher die thematische Suche gebraucht. Diskutieren kann man nur, wie man es anstellen soll.
Diese Zentrale Erwartung ist nat√ľrlich alt und hat sich auch l√§ngst niedergeschlagen in Katalogtheorien und -prinzipien. Charles A. Cutter, Begr√ľnder des amerikanischen Katalogisierungswesens, formulierte 1876:

"A patron should be able to find an item if:
the author is known, OR
the title is known, OR
the subject is known."
Und das allerneueste "Statement of Principles", formuliert und diskutiert im zuständigen Gremium der IFLA, fordert unter anderem vom Bibliothekskatalog, er solle
        "all resources on a given subject"
zusammenf√ľhren, was ungef√§hr dasselbe besagt.

Resources?
Dieser neue Terminus (verdeutscht mit "Ressourcen") wurde eingef√ľhrt, um einen Oberbegriff zu haben f√ľr alles, was Bibliotheken katalogisieren. Das sind ja l√§ngst nicht mehr nur B√ľcher und Zeitschriften. Das neue Wort ist unn√∂tig. Man kann genausogut "publications" bzw. "Ver√∂ffentlichungen" sagen und diesen Begriff nun einfach ein wenig weiter fassen als bisher √ľblich: Alles, was einer √Ėffentlichkeit zug√§nglich gemacht wird, ist eine Ver√∂ffentlichung - fertig. Denn es w√§re doch erfreulich, wenn ein "Statement of Principles", also etwas sehr Herausgehobenes, sogar dem naiven Nutzer ohne weitere Erkl√§rungen einleuchten w√ľrde. Man k√∂nnte also sagen:

      "Der Katalog soll alle vorhandenen Veröffentlichungen zu einem Thema nachweisen"
und das ist wieder unverbl√ľmt unsere Zentrale Erwartung. Na gut, "Ver√∂ffentlichung" wird bisher nicht mit Handschriften, Papyri oder sonstigen Unikaten assoziiert, die in Bibliotheken vorkommen und katalogisiert werden k√∂nnen. Erstens macht das aber nichts. Zweitens k√∂nnte man auch von "Aufzeichnungen" reden, wenn man wollte, das w√§re zutreffend, nur weniger gebr√§uchlich. Das Publikum wird sich wohl, wie immer, f√ľr Feinheiten der Definition nur sehr am Rande interessieren.

Aber nun schau'mer mal, denn daf√ľr sitzen wir hier beisammen, ob man diese Zentrale Erwartung erf√ľllen kann oder ob vielleicht hier oder da Abstriche zu machen sind. Skeptiker werden nat√ľrlich fragen: "Gibt es hier Handlungsbedarf? Mit moderner Software sollte man doch auch ohne teuren Personalaufwand eine ganze Menge rausholen k√∂nnen!"

1973 wurde in einer Studie zum Grenzbereich zwischen Sprach- und Informationswissenschaft trocken und ohne Begr√ľndung festgestellt, die formale Katalogisierung sei "keine wirkliche Herausforderung" (Karen Sparck-Jones & Martin Kay: Linguistics and information science. Deutsch: Linguistik und Informationswissenschaft, 1976, ISBN 3-7940-2653-5). Schon lange war aber die sachliche Erschlie√üung als eine ungleich gr√∂√üere Herausforderung erkannt. Dies f√ľhrte in Deutschland sogar zu einer h√∂heren Eingruppierung derjenigen, Fachreferenten genannt, die den Job machen, und das will wirklich was besagen.

Damit kommen wir schon zu der schlechten Nachricht: Wenn man nur "formal" katalogisiert, also mehr oder weniger die vorhandenen Titel und sonstigen Angaben von den Titelbl√§ttern sorgf√§ltigst abschreibt (oder vielleicht einscannt) und sonst nichts, dann reicht das hinten und vorne nicht, um die Zentrale Erwartung zu erf√ľllen.
Die besagte Studie folgerte das aus Versuchen mit automatischer Stichwort-Indexierung. Man machte damals, z.B. zuerst in Bochum, sog. KWOC-Kataloge. Die waren nichts anderes als ausgedruckte Stichwort-Register, wobei man neben jedem Wort sofort die Titel sah, in denen es vorkam, der Platz des Stichworts darin durch *** markiert. Man untersuchte, ob mit solchen vollautomatisch erstellten Katalogen zutreffende und zuverl√§ssige Resultate erzielt werden k√∂nnen bei der sachlichen Suche. Das bedeutet: bei einer Abfrage soll nur wenig unn√ľtzes Zeug mit rauskommen und nicht zu viel Wichtiges darf fehlen (Jargon: "precision" und "recall" sollen hoch sein). Das Ergebnis war entt√§uschend, obschon unbezweifelbar der Stichwortzugriff dem Nutzer eine wesentlich h√∂here Lebensqualit√§t beschert im Vergleich zu den Zettelkatalogen, wo man Verfasserwerke nur unter dem Verfasser finden konnte. Doch es n√ľtzt vorwiegend der formalen Suche, d.h. dem sog. "known-item search" (Titel schon bekannt). Es geht uns nun aber um den "subject search", wo man eben hinter einem Thema her ist, nicht hinter einem schon bekannten Titel.
Die schlechte Nachricht bedeutet: ohne zus√§tzliche Arbeit wird's nicht besser. Die 70er Jahre sind aber lange vorbei. Vielleicht ist heute alles ganz anders? Wir haben viel leistungsf√§higere Systeme, wir haben k√ľnstliche Intelligenz!

Nun gut, um was f√ľr Probleme geht es? Einige oder alle sind dem langj√§hrigen Katalognutzer schon mal begegnet:

Probleme bei der Stichwortsuche in Katalogen
... wobei mit "Stichwort" diejenigen W√∂rter gemeint sind, die auf den Titelseiten der B√ľcher stehen! Denn eine gro√üe Menge der Katalogdaten enth√§lt nichts anderes als das, man hat also von dieser Grundlage auszugehen. Und zwar auch und gerade dann, wenn man Sacherschlie√üung f√ľr unzeitgem√§√ü und verzichtbar oder unbezahlbar h√§lt.

A. Sprachgemisch
Wenn man nur die Titelbl√§tter abschreibt (oder wenn man sie scannen w√ľrde), hat man ein Gemenge aller vorkommenden Sprachen. Solange man im Einzelfall nur deutsche oder nur englische Texte sucht, ist das OK, aber wenn man beides oder noch mehr will, gilt es jedesmal dran zu denken, die jeweils anderen Fachbegriffe auch mal einzutippen, also z.B. "beetle" statt "K√§fer". Daran k√∂nnte auch eine automatische √úbersetzung nicht viel √§ndern, denn deren Leistungen sind auch heute noch viel zu begrenzt, und die Wissenschaften sch√∂pfen st√§ndig neue Begriffe, die noch in keinem W√∂rterbuch stehen.

B. Begriffsvielfalt
Ein Thema wird in Titeln nicht immer mit demselben Wort oder Ausdruck benannt. Das ist sowieso klar, wenn man Materialien in mehreren Sprachen hat, aber auch wenn's nur Deutsch ist, erlebt man alles M√∂gliche. Beispiele: Ein Werk √ľber Schmetterlinge kann den Titel "Tagfalter" tragen, ein Buch √ľber K√§fer kann im Titel auch "Coleoptera" sagen oder "Bodenarthropoden" (Synonymenproblem). Wenn's speziell um den Fichtenborkenk√§fer geht, kann da auch "Buchdrucker" stehen. Wenn es um Verkehrsampeln geht, kann im Titel auch "Lichtzeichenanlagen" stehen.
Andererseits: wenn im Titel "K√§fer" steht, kann damit auch ein bekanntes Auto gemeint sein. Dieses sog. "Homonymenproblem" ist gar nicht selten und sorgt f√ľr besonders viel Verdruss.

Sonderproblem: Namen in Titeln! Je nach Sprache werden die Namen von Personen manchmal sehr eigenwillig geschrieben. Sucht man Literatur √ľber Nikolaus Kopernikus, kann es im Titel auch "Nicolaus Copernicus" hei√üen oder "MikoŇāaj Kopernik" oder noch anders. Die Stadt M√ľnchen hei√üt in englischen Titeln "Munich", in italienischen "Monaco", usw. usf. Im Einzelfall ist es unm√∂glich, die evtl. auftretenden Formen alle mit einer Abfrage zu erschlagen. Und weil Namen ja oft identisch mit ganz normalen W√∂rtern sind, oder Personen so hei√üen wie St√§dte oder L√§nder, versch√§rfen sie das Homonymenproblem.

C. Sprachwandel
Begriffe veralten oder werden "politisch inkorrekt", der Sprachgebrauch ist ständig im Fluss.
Beispiele: "Globalisierung" hie√ü vor 1998 "Internationalisierung", "Gender" haben die "Geschlechter" abgel√∂st, "Biodiversit√§t" ersetzt "Artenvielfalt", "Indianer" laufen jetzt in Nordamerika unter "First Nations", "Negroes" wurden erst zu "Blacks", dann zu "Afro-Americans", dann zu "African Americans", "Behinderungen" werden durch "Beeintr√§chtigungen" verdr√§ngt (im Englischen "handicaps" durch "challenges"), und so geht das laufend weiter. Aber die Titel der √§lteren B√ľcher kann man nat√ľrlich nicht laufend dem Zeitempfinden anpassen - man darf sie vielmehr gar nicht √§ndern. Vielleicht braucht man sie nicht mehr, aber jedenfalls findet man sie nicht mehr, wenn man nur mit den neuen W√∂rtern sucht. Es sei denn, man hat alles verschlagwortet und arbeitet st√§ndig an den Schlagwort-Normdaten ...

D. Sprachspielerei / Metaphorik / Irrelevanz
Nicht selten findet der Verfasser oder der Verlag es opportun, eine Titelformulierung zu w√§hlen, die modern, anziehend oder witzig erscheinen soll, f√ľr sich allein aber nicht zu erkennen gibt, um was es geht (Metaphernproblem). Das ist kein neues Ph√§nomen! G.E. Lessing gab den Rat, "Ein Titel mu√ü kein K√ľchenzettel sein. Je weniger er von dem Inhalte verr√§t, desto besser". 
Beispiele: "Rot-Gelb-Gr√ľn" f√ľr eine Darstellung √ľber Verkehrsampeln, "The agony and the ecstasy" - ein biographischer Roman √ľber Michelangelo, "Eins zu einer Million" f√ľr ein Buch √ľber Manipulation in der Kartographie, "Ein Planet wird gepl√ľndert" f√ľr ein Werk √ľber gedanken- und r√ľcksichtslose Ressourcenverschwendung und Raubbau an den nat√ľrlichen Reserven. Manchmal steht wenigstens im Titelzusatz, um was es eigentlich geht: "Im Raume lesen wir die Zeit : √ľber Zivilisationsgeschichte und Geopolitik". Auch der Titel dieses Papiers ist so ein Beispiel.
Weniger auff√§llig, aber unvermeidlich: Nicht jedes Wort in einem Titel sagt, f√ľr sich genommen, etwas √ľber das Thema. "Meerwasserentsalzung und ihre Energieversorgung" ist kein Buch zum Thema Energieversorgung. "Sport und Umwelt : Fachtagung Hannover 1987" hat weder mit dem Thema "Sport in Hannover" noch mit "Umwelt von Hannover" zu tun.
Bei einer Volltextsuche wiegt dieses Problem noch viel schwerer: oft stehen da irgendwo Wörter, die mit dem Thema nichts zu tun haben. In diesem Text zum Beispiel stehen die Wörter "Mozart" und "Kirchenmusik". Man wird ihn bei Google in der Ergebnismenge finden, wenn man "mozart kirchenmusik" eingibt. Auch bei einer Suche nach "Martín y Soler" wird man dieses Papier finden, aber nicht finden wollen. Andererseits könnte ein Volltextsuchsystem diejenigen Wörter höher gewichten, die mehrfach im Dokument vorkommen oder in Überschriften, nah am Beginn des Textes oder in anderen vermutlich bedeutsamen Teilen auftreten. Ein Katalog kann das nicht tun - er hat die Volltexte ja nicht.

E. Sprachliche Eigenheiten
Zuerst die Flexionsformen: W√∂rter kommen auch mal im Genitiv oder im Plural vor - f√ľr ein Suchsystem sind die Unterschiede nicht trivial. Im Deutschen und Englischen kann man das oft durch Trunkierung abfangen, aber nicht immer: "√Ąrzte" findet man nicht, wenn man nach "arzt?" sucht. In anderen Sprachen kann es noch viel schwieriger sein, z.B. in den slawischen: Da machen W√∂rter mitunter ganz sonderbare Verwandlungen durch.
Zweitens gibt es die Zusammensetzungen. Im Englischen seltener als im Deutschen, aber "firewood" findet man nicht, wie auch "Brennholz", wenn man nach "wood" sucht bzw. nach "Holz" oder "Holz Energiequelle". Das Deutsche hat mit seiner Eigenheit der bedenkenlosen Verkuppelung von vorher nie zusammen gesehenen Wörtern ("Turbokapitalismus", Massenarbeitslosigkeitsproblem", "Geschäftsphilosophie") ein beispielloses Potential wundersamer Wortvermehrung. Der jeweils zweite (dritte, vierte) Teil einer Zusammensetzung aber ist in der Stichwortsuche nicht als solcher auffindbar. Wer "käfer" eintippt, findet keinen Titel, in dem "Laufkäfer", "Sandlaufkäfer", "Schwimmkäfer", "Kornkäfer", "Kartoffelkäferplage" usw. usf. steht. Wenn man das wollte, wäre eine "Linkstrunkierung" nötig oder eine Volltext-Zeichenkettensuche, was große Datenbanken aber nicht anbieten können. Im Englischen, aber auch in den romanischen und slawischen Sprachen, gibt es nur relativ wenige Zusammenschreibungen bei lange bewährten Verbindungen, Neologismen dagegen halten immer Distanz. Im Deutschen ist, katalogtechnisch gesehen, das Ganze weniger als die Summe seiner Teile. In anderen Sprachen ist dagegen ein Kompositum als solches nur zugänglich, wenn die Software eine Phrasensuche machen kann.
Andererseits hat die Rechtschreibreform manche ehemals besiegelten Verbindungen mutwillig zerteilt: jetzt haben wir neben "nichtlinear" und "nichtrostend" auch "nicht linear" und "nicht rostend". Versuchen Sie mal, beides mit einem Suchbefehl zu packen!
Na, und die Bindestrich-Wörter! Neben "Mittelalterarchäologie" gibt es auch "Mittelalter-Archäologie". Es kommt auf die Software an, ob man und wie man beides zugleich finden kann. Das erste kommt aber bei Eingabe von "mittelalter archaeologie" auf keinen Fall raus, und Titel wie "Archäologie des Mittelalters" oder "Mittelalterliche Archäologie" entziehen sich dann ebenfalls.
Das Deutsche verf√ľgt ferner √ľber einen Sparmechanismus, indem es Verk√ľrzungen bei Aufz√§hlungen erlaubt: den Titel "Sprach-, Schreib- und Leseleistung in der Mittelstufe" findet man nicht, wenn man nach "Schreibleistung" oder "Sprachleistung" sucht. Bei der Suche nach "Rechtsphilosophie" geht einem der Titel "Rechts- und Staatsphilosophie" durch die Lappen. "Volksmusik" versagt bei dem Titel "Volks- und Kirchenmusik", mit "Krisenmanagement" entgeht einem das "Krisen- und Insolvenzmanagement" - usw. usf.

F. Rechtschreibwandel
Versch√§rft durch die j√ľngste Rechtschreibreform, doch auch fr√ľher schon sp√ľrbar: W√∂rter sind keine auf ewig unwandelbaren Buchstabenfolgen. Sie sind Lautfolgen, und deren Verschriftlichung kann sich eben wandeln, selbst wenn sich die Laute nicht wandeln. So gab es vor 1900 noch Thiere, Thore, Thaten usw., auch in Buchtiteln, "Temen", Tesen" und "Teater" hingegen gestattet auch die Rechtschreibreform noch immer nicht.
Andererseits: auch wenn sich die Laute wandeln, wird meistens nicht sofort die Schreibung nachziehen. Extrem ist das im Englischen. Computerprogramme aber, und das ist der Knackpunkt, suchen stets NUR nach Zeichenfolgen, NICHT nach Lautfolgen. Gewiss, es gibt da sog. "Soundex"-Algorithmen. Die funktionieren aber nur in einsprachigen Umgebungen. Das ist kein Patentmittel f√ľr Kataloge: in Katalogdaten kann eine Software noch nicht einmal erkennen, in welcher Sprache denn der Titel formuliert ist!
In manchen F√§llen, wie beim "Potenzial", kann eine Maskierfunktion helfen: "poten?ial" kann so auch zugleich das "Potential" finden. Aber wer denkt beim Eingeben immer an sowas, wer hat die verschiedenen Schreibungen immer pr√§sent - das ist der Punkt! Beim neuen "selbstst√§ndig" statt des alten "selbst√§ndig" w√ľrde auch die Maskierung nicht helfen.
Die Reform sollte das Erlernen der Orthographie erleichtern. Den Umgang mit Katalogen erschwert sie, denn dabei m√ľssen im Ernstfall beide Schreibungen ber√ľcksichtigt, also auch erinnert werden. Software (eingebautes "W√∂rterbuch") k√∂nnte hier einige Unterst√ľtzung leisten, perfekt zu l√∂sen ist das Problem aber nicht, wenn man an die immer neuen Wortzusammensetzungen denkt, die im Deutschen dauernd hervorsprie√üen. Das "-potential" kann sich an fast jedes Substantiv anh√§ngen, wobei Genitiv und Plural nat√ľrlich auch noch vorkommen k√∂nnen. Die Rechtschreibreform verlangt, mal auf den Punkt gebracht, vom Katalognutzer noch mehr Krimskrams-Wissen als vorher. Und das bis ans Ende seiner Tage, denn die alten Titel k√∂nnen und d√ľrfen wir nicht √§ndern.
Relevant sind z.B. auch die Unterschiede zwischen der britischen und der amerikanischen Orthographie. Hier schreibt man "colour", dort "color", das weiss jeder. Nicht so sehr bekannt: die Farbe Grau schreibt sich h√ľben "grey" und dr√ľben "gray". Im GBV kann man finden: 1711 mal "grey" und 2603 mal "gray" (wobei der Name "Dorian Gray" (Homonym!) nicht mitgez√§hlt wurde, aber mit herauskommt).

G. Eingabefehler
Wo Menschen Daten erfassen, da passieren Tippfehler, das ist klar. Sehr hoch ist deren Zahl nicht, vernachl√§ssigbar aber auch nicht. Es gibt sogar eine gro√üe Sammlung von beobachteten Schreibfehlern in Katalogdaten.  Rechtschreibkorrektur-Software einsetzen? Sowas ist immer auf eine bestimmte Sprache geeicht, Bibliotheken erwerben aber Material in mehreren Sprachen, au√üerdem sind die Titel von Forschungsliteratur gespickt mit neuen und ungew√∂hnlichen W√∂rtern, die eine Rechtschreibsoftware noch nicht kennen kann. Scannen w√§re keine Abhilfe, auch bei OCR-Software passieren Fehler. Zumal bei der gro√üen typographischen Vielfalt gerade auf den Titelseiten. 

H. Granularität
Wenn wir mal sehr blau√§ugig so tun als seien die genannten Probleme alle nicht so wichtig und nicht sehr zahlreich, so bleibt mindestens noch eines √ľbrig, und zwar ein ganz dickes Kaliber: Titel sind viel zu kurz. Sie verraten zu wenig. Wenn nur das eingegeben wird, was auf den Titelseiten steht, dann ist das sehr oft v√∂llig unzureichend f√ľr die thematische Suche. (Problem D. ist, so gesehen, nur ein Sonderfall.) Ein Handbuch "Beetles of Europe" mag in ausf√ľhrlichen Artikeln √ľber tausend K√§ferarten beschreiben, keine einzige davon w√ľrde man aber als solche im Katalog finden, auch das Handbuch selber findet man nicht mit dem Suchwort "K√§fer", denn im Titel steht ja "Beetles".
Umgekehrt: Sucht man "beetles europe", findet man nur Dokumente mit genau diesen Wörtern im Titel, nicht aber solche, die den Namen irgendeines europäischen Käfers oder einer Käferfamilie im Titel haben.
Jeder kann sich leicht unbegrenzt viele solche Beispiele ausdenken. Steht nur ein Oberbegriff im Titel, findet man das Dokument nicht mit irgendeinem Unterbegriff - und umgekehrt.
Die formale Katalogisierung betrachtet nur das physische Objekt als Einheit, egal wie d√ľnn oder dick es ist - Gehalt und Umfang spielen dabei keine Rolle, nur der Titel, der vorne draufsteht. Die AACR-Praxis nimmt sogar oft nur den Gesamttitel eines mehrb√§ndigen Werkes auf und schreibt die Titel der B√§nde h√∂chstens in eine Fu√ünote.

I. Wechselwirkungen
Bei vielen Abfragen wird eine Wortkombination eingegeben, also nicht nur eins, sondern zwei oder mehr W√∂rter. Ist eines davon, oder mehr als eines, von einem der genannten Probleme betroffen, kann erst recht die Kombination nicht zu einem vollst√§ndigen Ergebnis f√ľhren.

Ern√ľchterndes Fazit:
Die Zentrale Erwartung ist unerf√ľllbar, wenn man keinen erheblichen Aufwand treibt. Man sollte, im Gegenteil, dem Nutzer sagen: "Wenn der Katalog zu einem Thema scheinbar nichts hergibt, hei√üt das noch lange nichts - wir k√∂nnten trotzdem eine Menge haben! Und wenn er was hergibt, dann aufpassen: vielleicht ist noch mehr und noch besseres da." Jede Bibliothek hat Material zu viel mehr Themen, und mehr zu fast jedem einzelnen Thema, als der Katalog zu erkennen gibt. Wer die aufgez√§hlten Probleme verstanden hat, wird dies nicht als Bankrotterkl√§rung auffassen, sondern als leider unvermeidliche Konsequenz der Gegebenheiten.

Nebenbei:
Wenn der Online-Katalog √ľber Register verf√ľgt, in denen der Nutzer bl√§ttern kann, k√∂nnen die Probleme E, F und G dadurch in vielen F√§llen etwas entsch√§rft werden. Hat man "Millenium" eingegeben, wird man im Register sehen: aha, die richtige Schreibung ist "Millennium", aber auch die falsche Schreibung kommt ein paarmal vor. Oder: neben der "Brennessel" gibt es auch die "Brennnessel". Ohne Registereinblick (sog. Freisch√ľtz-Suche) erh√§lt man nur eine der beiden Ergebnismengen, ohne Hinweis auf die andere. Was die anderen Probleme betrifft, helfen Register wenig. Andererseits: Die Probleme B., D. und E. treten bei Suchmaschinen weniger leicht auf, wenn die Volltexte indexiert werden. Denn Synonyme, andere Schreibweisen (auch Plural, Genitiv u.a.) bzw. alle wirklich wichtigen Begriffe treten mit hoher Wahrscheinlichkeit irgendwo im Text auf, wenn schon nicht im Titel. Vor allem aber das f√ľr Kataloge besonders schlimme Problem H. l√∂st sich deswegen bei Suchmaschinen beinahe, wenn auch nicht ganz, in Wohlgefallen auf!
Will man nun schlie√üen, Bibliotheken sollten halt eben Suchmaschinentechnologie einsetzen, dann ist das so lange m√ľ√üig, wie wir die Volltexte gar nicht zum Indexieren zur Verf√ľgung haben. Und das wird noch recht lange so sein.

Zwischen einem Wort und seiner Bedeutung gibt es keinen zwingenden Zusammenhang - das hatte schon Aristoteles gemerkt - und Computer k√∂nnen nur nach W√∂rtern suchen (genauer: nach Zeichenfolgen), also nicht nach Bedeutungen. Das erkl√§rt die ganze Kalamit√§t, die Beispiele h√§tten wir uns auch sparen k√∂nnen. Eine Sacherschlie√üung, das wird jetzt aber umso klarer, wird nur wirkungsvoll sein und der Zentralen Erwartung etwas n√§her kommen, wenn sie bedeutungstr√§chtige Angaben hinzuf√ľgt. 

Was kann man denn bloß tun?
Da gibt es im Prinzip zwei Möglichkeiten: (in einem anderen Papier steht dazu noch mehr)

  1. Schlagwörter : Das sind zusätzliche Wörter, aber mit Überlegung nach genauen Regeln eingegeben

  2. "Kontrolliertes Vokabular" sagt man daf√ľr auch. Dabei versucht man, die Probleme A. bis F. zu auszuschalten, wobei C. und F. aber trotzdem √Ąrger machen k√∂nnen. In Deutschland verwenden viele Bibliotheken die "Schlagwortnormdatei" (SWD), im englischen Sprachbereich arbeitet man mit den "Library of Congress Subject Headings" (LCSH). Beide passen nicht sehr gut zusammen, eine automatische Umsetzung ist h√∂chstens sehr unvollkommen machbar. Die eine bevorzugt den Singular, die zweite den Plural eines Wortes - das geh√∂rt zu den kleineren Problemen. Beide enthalten mehrere 100.000 gepr√ľfte, durchdachte, normierte Begriffe, die man als Schlagw√∂rter verwenden kann. Die Qualit√§t, die Aktualit√§t und der Umfang dieser Begriffe sind je nach Fachgebiet verschieden, doch an beiden Systemen wird st√§ndig gearbeitet. Kleines Beispiel: Das "Homonymenproblem" wird durch Zus√§tze gel√∂st: z.B. "K√§fer <Kraftfahrzeug>" bzw. "Beetle automobile". Wenn das Schlagwortsystem die Schlagw√∂rter nicht einfach nur als lange Liste aufreiht, sondern Querverbindungen sichtbar macht (Oberbegriffe, verwandte Begriffe), spricht man von einem Thesaurus, und zwar von einem Hierarchischen Thesaurus, wenn die Beziehungen zwischen Ober- und Unterbegriffen umfassend dargestellt sind. Die Schlagwortnormdatei ist kein hierarchischer Thesaurus. Z.B. gibt es beim "K√§fer" keinen Hinweis auf den Oberbegriff "Insekt", beim "Laufk√§fer" keinen Hinweis auf den Oberbegriff "K√§fer".

  3. Symbole, die f√ľr Begriffe stehen, z.B. Zahlen oder Codes, auch Notationen genannt
  4. Klassifikationen oder Systematiken sind sprachunabh√§ngig, ein enormer Vorteil, brauchen aber viel Aufwand bei Erstellung, Betreuung und Anwendung. Eine universelle, feingegliederte und zugleich aktuelle Systematik existiert nicht. International ist die Dewey Decimal Classification (DDC) die gebr√§uchlichste, in Deutschland wohl die Regensburger Verbundklassifikation, die meistens mit der Aufstellung der B√ľcher zusammenh√§ngt.
    Beispiel: In der (leider sehr veralteten) Universellen Dezimalklassifikation gibt es die Notation 595.7 f√ľr Insekten. Diese hat 10 Untergruppen, darunter 595.76 K√§fer und 595.78 Schmetterlinge. Diese zerfallen in weitere Untergruppen, z.B. 595.762.12 "Laufk√§fer". Der Auto-K√§fer h√§tte eine ganz andere Nummer, 629.114.6, kann also nicht verwechselt werden.
    Die in Deutschland gebr√§uchlichen Klassifikationen sind leider schon auf ihrer obersten Stufe (Hauptklassen) wenig kompatibel. Leser wissen es zu sch√§tzen, wie man sich in US-Bibliotheken immer schnell zurechtfindet, weil sie alle dieselbe Klassifikation einsetzen. Doch bezieht sich das nur auf die Aufstellung der B√ľcher, ein Katalogzugriff nach Notationen ist dort wenig bekannt.
Weil es keine aktuelle feingegliederte Klassifikation gibt, hat der GBV von Anbeginn eine zwar moderne, aber recht grobe Klassifikation eingesetzt, die sog. Basisklassifikation, zuerst entwickelt in den Niederlanden. Sie hat wenig mehr als 2000 Notationen - trotzdem ist es nicht zu schaffen, damit wirklich alle Datens√§tze zu kennzeichnen. Im Prinzip taugt eine grobe Klassifikation aber noch f√ľr andere Aufgaben: fachliche Ausz√ľge aus der Datenbank, sachlich geordnete Listen, Einschr√§nkung gro√üer Ergebnismengen nach einem Fachgebiet, statistische Auswertungen (auch f√ľr Erwerbung und Ausleihe). Solchen Zwecken dient auch die Sachgebietsgliederung der Deutschen Bibliothek. Sie wird 2004 abgel√∂st durch eine Liste, die von der Dewey Decimal Classification abgeleitet ist. Es w√§re schon viel gewonnen, wenn in gr√∂√üeren Katalogen ein signifikanter Teil der Titeldaten einheitlich mit Sachgruppen-Notationen ausgestattet w√§re, doch auch davon sind wir weit entfernt.

Schlagw√∂rter und Klassifikationen sind weit verbreitet, doch allzu viele B√ľcher in unseren Katalogen haben weder das eine noch das andere. Zwischen den Bibliotheken und Verb√ľnden und erst recht international gibt es gro√üe Unterschiede in den verwendeten Mitteln und Methoden. Eine Metasuche nach Schlagw√∂rtern oder Systemstellen ist daher √ľber Systemgrenzen hinweg kaum sinnvoll. Von der Idee her ist beides brauchbar, praktisch und de facto jedoch ist die Zentrale Erwartung damit nicht zu erf√ľllen, weil eben nur ein Teil aller B√ľcher verschlagwortet oder systematisiert ist und dann auch noch nach unterschiedlichen Systemen. Nur eine energische, verbund√ľbergreifende, konzertierte, arbeitsteilige Aktion aller Bibliotheken k√∂nnte dem vielleicht abhelfen... Aber selbst wenn es zu einer solchen Aktion k√§me: das Problem der Granularit√§t bleibt bestehen! Soviel Zeit wird insgesamt nicht aufgewendet werden k√∂nnen, alle B√ľcher gr√ľndlich genug von innen zu betrachten, um zu jedem Thema (und was ist √ľberhaupt ein "Thema"?) dann ein Schlagwort oder eine Notation geben zu k√∂nnen - manche dickleibigen Werke h√§tten dann hunderte oder tausende von Notationen oder Schlagw√∂rtern n√∂tig. Eine Klassifikation oder ein hierarchischer Thesaurus k√∂nnte jedoch auf neue Weise helfen: die Software k√∂nnte den Nutzer von einer untergeordneten Stelle, z.B. "Hirschk√§fer" zu einem Oberbegriff, also "K√§fer", hinf√ľhren, und die zugeh√∂rigen Daten hervorzaubern. Die Dezimalklassifikation ist hierf√ľr theoretisch bestens geeignet. Praktisch ist sie leider zu veraltet und zu wenig im Einsatz. Die in Teilen sehr √§hnliche Dewey Decimal Classification liegt nur auf Englisch vor. Momentan wird sie in einem Projekt √ľbersetzt, aber vorerst hat man davon noch nichts - 2005 soll die √úbersetzung erscheinen.

Neuere Möglichkeiten
Schlagwörter und Notationen, das sind alte Methoden und sie sind mit Personaleinsatz verbunden. Deshalb sind ja die Katalogdaten zu einem allzu großen Teil frei von solchen Angaben. Was kann man heute tun, um den manuell/intellektuellen Aufwand zu vermeiden oder stark zu reduzieren, um eine wirklich flächendeckende, einheitliche Sachbehandlung aller Veröffentlichungen zu erreichen?
Fremddaten √ľbernehmen, klar, aber das verschiebt das Problem nur nach woanders, wo es auch nicht besser gel√∂st werden kann.
Zwei Vorgehensweisen bieten sich an und sind auch schon erprobt worden, z.B. in den Projekten Milos (D√ľsseldorf) und Osiris (Osnabr√ľck). Ein √ľberzeugender Durchbruch, ein fl√§chendeckend anwendbares Verfahren, steht allerdings noch aus.

Einspeisen von mehr Text
... als da sind Inhaltsverzeichnisse der B√ľcher oder auch noch andere Teile, wobei man die rechtliche Seite im Blick behalten sollte. Besonders f√ľr Aufsatzsammlungen (Festschriften, Tagungsb√§nde) kann das sehr viel bringen, besonders hinsichtlich des Problems der Granularit√§t. Beispiel: Vorarlberger Landesbibliothek.  Die dort verwendete Methode, IntelligentSEARCH, hat ein hohes Potential.
Im GBV werden viele Spezialzeitschriften f√ľr die Online-Contents-Datenbank in den kooperierenden Bibliotheken ausgewertet, indem man die Inhaltsverzeichnisse der neuen Hefte scannt und dieses Wortgut retrievalf√§hig macht.
Mehr Text, das kann auch hei√üen: Klappentexte, Abstracts, Annotationen, Vorworte, Rezensionen, die ersten paar Seiten. Darin steckt relevantes Wortmaterial, das f√ľr √ľppigere Resultate sorgen k√∂nnte (nat√ľrlich auch f√ľr falsche, siehe Problem D). Nicht nur das, sondern die Anzeige solcher Texte, und als Zugabe noch das Umschlagbild, kann dem Nutzer auch sehr bei der Auswahl helfen, um die f√ľr ihn relevanten Texte schneller zu erkennen. Der klassische Katalogdatensatz allein gibt auch daf√ľr sehr oft zu wenig her. Wie aber k√∂nnte man es anstellen, unsere Millionen Altdaten auf solche Weise anzureichern?
Wenn man die Eingabearbeit vermindern will, braucht man eine gute OCR-Software. Ganz von selber geht's damit auch nicht, einige Nacharbeit wird immer n√∂tig sein, damit die Daten "sauber" sind. Inhaltsverzeichnisse z.B. sind individuell strukturiert, das soll in der Datenbank nicht ganz untergehen, denn der Nutzer w√ľrde sonst nur einen ungegliederten Wortbrei sehen.
Das Anreichern von Daten mit mehr Text zum Durchsuchen ist auch das Ziel eines Projekts namens BEAT bei der Library of Congress. Insbesondere werden auch dort die Inhaltsverzeichnisse herangezogen. Der Gesamtkatalog OhioLink hatte das schon längere Zeit vorexerziert.

Linguistische Analyse
Das vorhandene Datenmaterial kann teilweise mit moderner Software aufgewertet werden: Wortstamm-Analyse, Komposita-Zerlegung, Hinzuf√ľgen von Synonymen und evtl. Oberbegriffen aus einem geeigneten (zu pflegenden!) W√∂rterbuch. Durchdachte Ma√ünahmen dieser Art werden immer etwas bringen, aber k√ľnstliche Intelligenz dieser Art ist begrenzt und mit Vorsicht zu genie√üen - man wei√ü das von automatischen √úbersetzungssystemen...

Ontologie
Der Vollst√§ndigkeit halber ist hier zu erw√§hnen: Die Grundideen des kontrollierten Vokabulars, des Thesaurus und der Klassifikation sind von Informatikern neu entdeckt worden, als ihnen die Probleme der Volltextsuche aufgingen. Das Konzept der Ontologie ("joint terminology between members of a community of interest") ist ein Baustein der Vision des Semantic Web. Das soll nichts weniger sein als die Sachkatalogisierungs-Komponente des WWW neben den bisherigen Suchmaschinen, die ja sozusagen nur Formalkataloge sind. Es gibt noch viel zu tun: "No adequately large, refined, and consistent ontology exists today" (irgendwie klingt das vertraut), aber man packt es an. Honig zu saugen f√ľr Katalogzwecke gibt es noch nicht.

Ranking
Eine Frage mehr am Rande, aber nicht unwichtig, ist die nach der Ordnung von Ergebnismengen. Dazu dient meistens das Erscheinungsjahr, d.h. die neuesten Sachen erscheinen zuerst.
Google-Anh√§nger sch√§tzen es, wie sehr oft ganz wichtige Nachweise, oder genau die richtigen, sofort als erste erscheinen. Wie machen die das? Es steckt eine aufwendige Auswertung dahinter, und zwar wird unter anderem gez√§hlt, wieviele andere Dokumente mit Hilfe von Hyperlinks auf ein Dokument verweisen. Jedes Dokument und jeder Server erh√§lt auf diese Weise eine Ranking-Zahl, und die wird zur Anordnung der Ergebnisliste benutzt. Nicht immer, das ist klar, hat ein Link auf ein anderes Dokument etwas mit dessen Qualit√§t zu tun, es kann sogar das Gegenteil zutreffen. Und gerade auf die ganz neuen, vielleicht √§u√üerst wichtigen Dokumente zeigen noch keine Links. Es gibt aber Vorschu√ü-Pluspunkte f√ľr Dokumente, die auf einem Server mit hoher Ranking-Zahl liegen. Man entdeckt auf diese Weise leicht, was viele andere auch schon entdeckt und f√ľr gut befunden haben. Man entdeckt weniger leicht das Unkonventionelle, das Entlegene, was der Aufmerksamkeit der breiten Massen bisher entgangen ist, die echten Geheimtips.

Wollte man dasselbe in Katalogen machen, was h√§tte man zu tun? Man br√§uchte nur alle Zitate zu erfassen, die in den B√ľchern stehen! Und zwar einheitlich und pr√§zise, sonst k√∂nnten sie nicht gez√§hlt werden. (Der Science Citation Index macht das seit 1963 mit Zeitschriftenartikeln.) √úberlegen Sie als Hausaufgabe, wie realistisch das ist.
Zum Zwecke eines "Ranking" könnte man, wenn man das mit den Zitaten nicht schafft, noch andere Datenelemente heranziehen:
Auflagebezeichnungen: Wenn eine Veröffentlichung in mehreren Auflagen und/oder in Übersetzungen erscheint, könnte das schon als ein gewisses Qualitätsmerkmal gelten.
Ausleihh√§ufigkeit: die oft verlangten Titel sind sicher nicht die schlechtesten. (Ganz neue sind manchmal die besten - wurden aber noch nie ausgeliehen! Auch Pr√§senzb√ľcher, ebenfalls meistens gut, haben keine Ausleihe aufzuweisen.)
Exemplarzahl: Wenn Mehrfachexemplare vorhanden sind (im Verbundkatalog: mehrere Besitzvermerke), wird der Grund oft in der Qualität des Textes liegen.
Ein paar Sonderpunkte k√∂nnte es geben f√ľr die dicken B√ľcher und f√ľr die mit Illustrationen, Beigaben, Literaturverzeichnissen - denn solche Angaben sind ja immerhin in den Katalogdaten enthalten.
Nutzerbewertung: Amazon ermöglicht den Kunden, eigene Rezensionen oder Bewertungen einzubringen. Oder es wird automatisch ausgewertet, was der Käufer eines Buches sonst noch gekauft hat. Solche Dinge sind in Bibliotheken noch nicht versucht worden und sind wohl hinsichtlich wissenschaftlicher Literatur mit einiger Skepsis zu erwägen.
Eine reizvolle Aufgabe, doch jede L√∂sung w√ľrde nicht die Ergebnismenge als solche verbessern und w√§re im Falle von Null Treffern keine Hilfe.

Zweites ern√ľchterndes Fazit
Wie auch immer man vorgeht und welcher Katalog es auch ist: Wer eine thematische Abfrage macht, kann nie erkennen oder herausbekommen (denn soviel Zeit hat keiner), ob die Ergebnisliste wirklich alles Vorhandene zu dem Thema einschlie√üt. Dasselbe gilt aber auch f√ľr Suchmaschinen. Die Zentrale Erwartung ist, leider, eine naive Wunschvorstellung. Wenn wirklich mal alles Vorhandene herauskommt, dann d√ľrfte der Fall noch weit seltener sein als eine Auff√ľhrung der Oper "Una cosa rara". Aber letzteres f√§llt sofort auf, ersteres leider gar nicht...

P.S.
Der Titel der zitierten Oper fällt unter das Problem D. Es geht dabei um eine Frau, die zugleich schön und tugendhaft ist. Der vollständige Titel verrät etwas mehr: "Una Cosa Rara ossia Belezza ed Onestà". Diese Oper regte einen gewissen Benedikt Schack zu einem (heute noch weit seltener gegebenen) Singspiel an mit dem Titel "Der Fall ist noch weit seltener" (Libretto von Schikaneder). Darin ging's um männliche Integrität.



[i] zuletzt aktualisiert: 31.03.2011
Email: ub@tu-bs.de