
Aktualisiert:
2008-07-15
Bernhard Eversberg, UB Braunschweig
Ursprünglich: Linz 22.09.2004,
Österreichischer
Bibliothekartag
Themenkreis: Google und die Zukunft der bibliothekarischen Erschließung
|
9. Kernspruch |
|
"Katalogisierung"
klingt in manchen Ohren altmodisch. Man
redet heute von "Metadaten"! Gemeint ist zwar nichts völlig
anderes, doch gibt es viele neue Formen, Praktiken und Nutzungen,
während sich
früher Katalogdaten fast nur in Katalogen und Bibliographien
befanden,
sich auf Bücher und Zeitschriften bezogen und ausschließlich
von
Fachkräften erstellt und gepflegt wurden, von Lesern nur passiv
genutzt.
"Metadaten" ist nur ein neuer Oberbegriff, aber mit einer
Katalogdatenbank haben wir längst mehr und andersartige
Datenelemente, Funktionen und Nutzungsmöglichkeiten
als bei Zettelkatalogen und wir weisen nicht mehr nur Printmedien nach.
Es ist notwendig, weiter auszugreifen als es die klassischen
Regelwerke, RAK und AACR, getan haben, und deren
hergebrachte Konzepte sind neu zu überdenken.
Solange
Offline-Dokumente existieren und gebraucht werden, solange geht es nicht ohne Katalogisierung.
Möchte man
meinen – vielleicht ist das aber doch oberflächlich gedacht! In "Google Booksearch"
sind schon mehr als eine Million Bücher gescannt und die Volltexte
suchbar gemacht - weitgehend automatisch. Das ist für die beteiligten
Verlage ein neuer Zugang
zum Käufer,
vorbei an den Bibliotheken. Für alte Bücher aber werden
Bibliotheken einbezogen, indem direkt zu ihren
Katalogen
durchgeschaltet werden kann. Bleiben über kurz oder lang nur die
verlegerisch uninteressanten, älteren, nicht mehr im Handel
befindlichen Werke,
eine Art Bodensatz also, den Bibliotheken als Domäne übrig? Werden sie
damit
endgültig zu musealen Einrichtungen? Selbst das scheint nicht mehr
unumstößlich: Google
Book Search soll schließlich viele Millionen Bücher
digitalisieren,
darunter die komplette Stanford University Library.
Nur das
Urheberrecht wird wohl den weltweiten Zugriff auf Volltexte dann noch
verhindern – vielleicht wird es aber auch neue, jetzt noch unbekannte
Geschäftsmodelle geben.
Das
"Grundgesetz der Informationssuche" (s.u.) hat den Bibliotheken früher
nicht
viel ausgemacht: vieles konnte man
ja
nur in Katalogen suchen, und die waren eben so wie sie waren. Zunehmend
tun
sich nun aber neue Wege auf, die an den Bibliotheken vorbei ins
Universum
gedruckter Texte führen.
Bibliotheken
haben jetzt ein Marketingproblem: Gut
erschlossene Bibliotheksbestände sind und bleiben notwendig!
Ist
diese
Einsicht noch vermittelbar? Sie ergibt sich nicht (mehr) von selbst.
Und
"gut erschlossene Bestände" gibt es nur, wenn gute Katalogisierung
ihren Stellenwert behält: Gute Kataloge sind Stützpfeiler
guter
Bibliotheksarbeit. Daran wird sich wohl nichts ändern, doch
was
genau die
Qualitätskriterien für Kataloge denn sind, wo sie zum Tragen kommen und
wieviel Arbeit an welchen Stellen dafür aufzuwenden wäre, auf solche
Fragen gibt es
keine
einfachen Antworten.
Wer
heute irgendein Faktum braucht, wendet sich an Google – das
Tätigkeitswort
"googeln" wurde schon in den "Duden" aufgenommen. Diese
Suchmaschine ist für viele gewissermaßen DAS Nachschlagewerk
schlechthin, das man in jedem Fall zuerst heranzieht. Diese
Wahrnehmung und die erlebte Funktionsweise prägen sicherlich die
Erwartungshaltung
hinsichtlich anderer Online-Nachschlagewerke, u.a.
Bibliothekskataloge.
Vermutlich (aber es gibt wohl dazu keine Untersuchungen) ist Google für
viele die
Entdeckung der
Einfachheit (manchmal scheint
es nur so) – auch wenn
sie vorher von Nachschlagewerken oder ihrer Benutzung wenig oder keine
Ahnung
hatten. Wenn nun viele, die vorher wenig oder nichts fanden (oder nicht
ahnten,
wie sie es anstellen sollten), normalerweise etwas irgendwie
Brauchbares finden,
sind
damit die meisten nicht unbedingt schon in der Lage, in allen Fällen
etwas
Gutes zu
finden. Es folgt daraus auch nicht, Google sei das optimale
Instrument
für jede
Informationssuche oder könne als Vorbild für jede Art von
Katalog
dienen.
Wenn
man
Studien zur Erfolgsquote anstellt, sollte man nicht den
Versuchspersonen
Aufgaben stellen (und damit schon gewisse Suchbegriffe suggerieren),
sondern
herauszufinden versuchen, mit was für Themen und Versuchen sie
tatsächlich
Erfolge oder Frustrationen erlebt haben.

Amazon
hat,
anders als Google, Namensnormierung und Einheitstitel, jedenfalls für
die
Musik. Leider hat man diese Dinge neu erfunden, man nimmt nicht die
Ansetzungen der
LC, sonst könnte man leichter eine Quer-Abfrage von hier nach da
machen, sprich
vom Katalog zu Amazon, falls man das denn wollte. Oder, WENN Amazon es
wollte,
auch umgekehrt.
Z.B.
hat
Amazon: Pyotr Il'yich Tchaikovsky
aber die LC hat: Tchaikovsky, Peter Ilich, 1840-1893
RAK dagegen: Čajkovskij, Pëtr
Amazon
bietet aber ganz andere Funktionen, die man in
Bibliothekskatalogen noch kaum realisiert hat: Leser (Käufer) können
Rezensionen schreiben, und es gibt die Funktion "Wer dieses Buch
kaufte, hat auch jenes gekauft". Damit solche Dinge gut funktionieren,
braucht es zwei Voraussetzungen: Eine sehr große Kundenbasis mit hoher
Motivation. Wer Geld ausgegeben hat für ein Buch, ist daran wirklich
interessiert und liest es oftmals sogar, und das ist günstig für eine
aussagefähige Rezension. Der Versuch, Amazon in diesen Angeboten
nachzueifern, kann keiner einzelnen Bibliothek gelingen,
allenfalls einem großen Verbund. Selbst OCLC ist aber trotz einiger
Versuche mit solchen Ansätzen noch nicht zum Erfolg gelangt. Das
Karlsruher "Recommender"-System BibTip
versucht, eine Amazon-ähnliche Auswertung von Katalogabfragen zu
organisieren, damit der Katalog dem Nutzer Tips geben kann.
Früher
gab es
zum Auffinden von
Publikationen kaum Alternativen zu Katalogen und Bibliographien, und um
die zu
benutzen, hatte man die Bibliotheken körperlich aufzusuchen. Jetzt kann
man
Kataloge an jedem PC im Netz konsultieren, erleichtert wird das zudem
durch "virtuelle Kataloge", die automatisch auf mehrere Einzelkataloge
zugreifen. Aber auch viele andere Suchdienste
können zu relevanten Publikationen hinführen, und diese lagern nicht
unbedingt nur
in Bibliotheken. Online-Dissertationen, digitalisierte Bücher und
E-Zeitschriften mögen in Papierform auch in Bibliotheken vorrätig sein,
aber
finden und nutzen kann man sie i.d.R. auch ohne jene und ohne ihre
Kataloge.
Links
- manches davon schon wieder überholt:
KVK,
[Dreiländerkatalog]
DigiBib
NRW,
[Virtuelles Bücherregal], Open
WorldCat
Es
fehlen
Nutzungsstudien und
Evaluationen, aber Suchmaschinen glänzen vor allem bei der schnellen
Suche nach
Fakten und Angaben aller Art. In Katalogen dagegen sucht man
umfangreichere Darstellungen
zum Lesen, Lernen und Studieren, die man typischerweise in Büchern
findet.
Nachschlagewerke aller Art haben deshalb aber in Bibliotheken schon
einiges von
ihrem Stellenwert eingebüßt. Zur Beantwortung einer Frage reicht z.B.
in vielen
Fällen eine Wikipedia-Fundstelle,
die man weitaus schneller erreicht.
Wer
eine
Dissertation oder ein Buch
braucht, weiß meistens nicht, ob es auf Papier oder digital vorliegt.
Weil alle
Papierausgaben nur im Bibliothekskatalog zu finden sind, sollte man
dort im
selben Suchvorgang auch die entsprechenden E-Publikationen finden
können.
Digitalisierte Bücher und E-Books (besonders wenn man dafür
Lizenzkosten bezahlt) sind selbstverständlich Kandidaten für den OPAC.
Denkbar ist auch,
die gesamte Sammlung des Projekts
Gutenberg in einen OPAC einzuspeisen (über 20.000 Titel),
denn diese Ausgaben
sind alle kostenlos und es handelt sich um Textdateien, nicht gescannte
Seiten!
Weil aber E-Publikationen auch viele Fakten enthalten, die
kein Katalog im
einzelnen
nachweist, müssen sie für Suchmaschinen zugänglich angeboten werden.
E-Dissertationen
erzielen deshalb vermutlich mehr Zugriffe über Google als über die
Bibliothekskataloge,
Papier-Dissertationen natürlich nicht. Bis heute! Google Book Search
ist dabei, das zu ändern.
Kernfrage
ist:
Welche Dinge können
Kataloge besser auffindbar machen als Suchmaschinen, und in welcher
Weise?
Die
Katalogisierung IST schon ein gutes Stück in die Zukunft katapultiert
worden,
wenn man bedenkt, was de facto schon alles gemacht wird, und zwar
unabhängig von
den (veralteten) Regelwerken.
Hilfreich
zum
Verständnis ist es,
verschiedene Arten von Abfragen zu unterscheiden, die beim Suchen
vorkommen.
Was Suchmaschinen ebenfalls gut können, ist hier mit einem +
markiert.
Wir wissen aber zu wenig über die Häufigkeit und Wichtigkeit dieser
Typen aus
Nutzersicht!
Link: Topic Maps
.
FRBR
ist keine
vollkommen neue Idee!
Das
Katalogisierungssystem IBIS der UB Bielefeld (daraus ging DABIS hervor)
hatte
schon in den 1970er Jahren die wesentlichen Züge des FRBR-Modells,
dessen Grundgedanken auf die Konferenz von Paris 1961 zurückgehen. Alte
Kataloge, z.B. die des Britischen Museums, der Bibliothèque Nationale,
aber
auch der Deutsche Gesamtkatalog, versuchten bei den "Vielschreibern"
eine Anordnung des Materials, die sehr an die FRBR-Gliederung "Work –
Expression – Manifestation – Item" erinnert. Anwendbar ist das Modell
wegen des Aufwands sicher nicht auf die Gesamtheit aller Bestände,
sondern in
kleinen Teilbereichen. Die große Mehrheit der Dokumente erscheint ja
nur in
einer Ausgabe und Ausprägung, und dann ist FRBR gar nicht relevant.
Links: IFLA
Metadata Resources, FRBR, Statement
of Principles, VIAF,
OPAC-Gestaltung
Die AACR2 waren noch stark vom Zetteldenken
geprägt.
Erst jetzt
kommt mit RDA (Resource Description and Access) die
Online-Orientierung, dann aber gleich ausdrücklich
auf
Web-Kataloge gezielt, nicht allgemein auf Online-Kataloge. Wenn diese
Ausgabe
2009 erscheint (angekündigt war sie für 2007), wird sich wohl die Frage
des
Regelwerks-Umstiegs neu stellen. Das Regelwerk erhält sogar mit RDA
einen ganz
neuen Namen. Auch in den
Planungen der Deutschen Bibliothek
und des Standardisierungsausschusses wird dies schon so gesehen. Bleibt
nur die
Frage, wann eine deutsche Ausgabe vorliegen könnte und in welcher Form,
denn die Texte werden zunächst in einer Weise angelegt, die sich für
eine Online-Hypertextausgabe eignet, weniger für eine gedruckte in
Buchform. Zu den vielen Unklarheiten gehören die zu erwartenden Kosten.
RDA wird leider zunächst wenig hinausgehen über die klassischen Datenelemente der Katalogisierung: es wird keine Regeln geben für die Indexierung der Daten oder für den Umgang mit neuen Elementen wie Inhaltsverzeichnissen oder gar Daten, die von Nutzern eingebracht werden - sog. "tags". Indexregeln entsprächen den früheren Ordnungsregeln, die wir in RAK hatten, die aber nie Bestandteil der AACR waren.
Link: Strategic
Plan / RDA
Ein offenes Problem ist die zukünftige
Organisation und personelle Ausstattung der Regelwerksarbeit. Bei einer
Übernahme der RDA werden Umfang und Anspruch dieser Arbeit nicht
geringer,
sondern eher größer, weil ja die Übersetzungstätigkeit hinzukommt. Wo
sind die
Fachleute mit den nötigen Kenntnisse und Neigungen, und wer gibt ihnen
dafür
die Zeit (und das Geld für die Dienstreisen)?
Links: DFG-Projekt
DDB, RFK,
Vereinheitlichung
RAK/RSWK, Sucheinstiege,
Codierungsregeln
Mit
RFK (vorher "RAK2") war der Ansatz
eines gründlich entschlackten Regelwerks gemacht, das sich auf
Online-Notwendigkeiten konzentrieren sollte.
Um
den Teil 1 der AACR (Beschreibungsregeln) leicht übernehmen zu können,
wurde
die Numerierung aller Kapitel und Paragraphen deren
Struktur
angeglichen. Durch die inzwischen erfolgte Abkehr von den AACR sind
solche Überlegungen aber hinfällig, der Entwurf ist Geschichte
geworden.
Neben
denen, die
hauptamtlich mit
Katalogisierungsnormen zu tun haben, gibt es heute sehr viele Stellen,
wo
experimentiert und neue Konzepte ausprobiert werden. Außerdem können,
manchmal
kann man nur sagen leider, bestimmte EDV-Systeme mit ihren jeweiligen
Besonderheiten die Katalogisierungspraxis beeinflussen (um
etwa bestimmte Abfragemöglichkeiten und
Anzeige-Eigenschaften zu erreichen). Bis heute ist es aber immerhin
vermieden worden, in den Regeln direkt Bezug zu nehmen auf ein
bestimmtes Datenformat, obwohl in den USA gelegentlich der Wunsch zu
hören war, daß die Entwicklung der Regeln eng mit dem Format MARC21
abgestimmt werden sollte. Die RDA werden aber einen Anhang haben, der
die zu einzelnen Kapiteln und Regeln korrespondierenden MARC-Felder
auflistet. Für deutsche Bibliotheken ist dies wenig relevant, weil hier
weiterhin beim Katalogisieren nicht mit MARC gearbeitet werden wird.
Innovationen
und Sachzwänge
verändern die
Sichtweise der Betroffenen in Bezug auf die beim Katalogisieren zu
beachtenden
Dinge. Die hauptberuflichen Standardisierer haben manchmal nur ganz
bestimmte
(zufällige) oder keine derartigen Praxiserfahrungen.
Links: RAK-Weiterarbeit,
Verbundzentralen,
JSC
/ MARBI,
DNB
Standardisierungsstelle
Natürlich
kann
ein Verbundkatalog dem
Endbenutzer viel mehr Fundstellen bieten als ein lokaler OPAC. Doch für
den
Normalfall hat der lokale Bestand eine hohe Bedeutung, weil nur dieser
direkt
zugänglich ist. Die begrenzte Ergebnismenge eines OPACs ist deshalb in
vielen
Fällen von hohem praktischen Wert, die u.U. viel größere Ergebnismenge
des
Verbundes ist subsidiär. Ergebnisse ausländischer Kataloge sind dagegen
kaum
von Interesse: man denke an die Kosten und die Dauer einer
internationalen
Fernleihe.
Diese
Zusammenhänge könnten sich jedoch schlagartig ändern, wenn eine
kritische Masse
von Digitalisaten (siehe Google Booksearch) für jedermann erreichbar
würde.
Nur wird
dann der Zugriff nicht mehr primär über die Kataloge gehen, sondern
wegen des
"Grundgesetzes der Informationssuche" immer zuerst über Google. Das
Umschalten zwischen Katalog und Google wird damit jedoch äußerst
interessant. Die Frage ist dann, mit was für Zugriffen man das am
besten
bewerkstelligen kann. Mit AACR-Ansetzungen? Momentan sieht es eher nach
einer
Verwendung von LC- oder OCLC-Nummern bei Google aus sowie natürlich der
ISBN. Für eine thematische Suche kann man bei Google Booksearch aber
auch schon LC-Schlagwörter verwenden. Dieses Thema kann
hier
leider nicht weiter vertieft werden. Hingewiesen sei aber auf das
Konzept WorldCat
Local
bei OCLC, wo der OPAC ersetzt werden soll durch eine lokale Sicht des
WorldCat! Der WorldCat selbst wurde inzwischen für die öffentliche
Suche völlig freigegeben - davon konnte man früher nur träumen - aber
ohne jede Möglichkeit einer direkten Datenübernahme. Dies würde OCLC's
Geschäftsmodell zerstören, daher kann man es verstehen.
Bis
vor 20
Jahren (vor der
Verbund-Ära) hatte man in jeder Bibliothek jedes Buch selber zu
katalogisieren,
d.h. die Zettel dafür selbst zu schreiben, zu vervielfältigen und
einzuordnen!
(In den USA war das etwas anders: es gab schon sehr lange den
Zetteldienst der
LC.) Der Anteil der Eigenkatalogisierung ist auf wenige Prozent
geschrumpft, in
keinem anderen Bereich wurde der Arbeitsaufwand so stark reduziert. Der
Spielraum für weitere Rationalisierung ist deshalb sehr begrenzt: auf
Null kann
man den Bedarf für qualifiziertes Personal nicht drücken.
Fernziel
ist der
alles umfassende
Gesamtkatalog mit Qualitäten einer umfassenden Bibliographie, aber
Einbeziehung
von Bestands- und Geschäftsgangsdaten. Vorerst aber müssen aus
praktischen
Gründen einige Sonderkataloge geführt werden. Integration in virtuelle
Katalog-Zugangssysteme à la KVK ist aber schon jetzt weitgehend
möglich. Die Einführung von Unicode soll es auch möglich machen, z.B.
ostasiatische und arabische Titel in derselben Datenbank mit
Originalschrift suchen und sehen zu können.
Link: EZB, DBIS,
OPUS,
MyCoRe, vascoda, CoOL, ZDB, VD16,
VD17
Die
Frage ist
alt, schon Dewey stellte sie und versuchte eine Antwort: "Was soll der
Katalognutzer tun können?" Die FRBR
beantworten das mit vier Schlagworten:
find,
select, locate, obtain.
Im neuen
"Statement of Principles" kommt noch
navigate
hinzu. Diese
Schlagworte sind zu abstrakt und allgemein, hier werden deshalb die
daraus
folgenden Aufgaben des Katalogs etwas ausführlicher formuliert.
WAS
kann man
finden? WIE kann man es
finden?
Nur
bei
formaler Suche
("known item search" und Suche nach Namen und Werktiteln) ist
Verläßlichkeit
weitgehend erreichbar, bei sachlicher Suche
grundsätzlich nicht. Denn bei der Sachsuche ist es eine
Frage der Relevanz:
"Ist
ein gefundenes Dokument für mein Thema und meine Absicht relevant?" Das
ist subjektiv, nur der Nutzer kann es beurteilen. Ein wirkliches
"relevance ranking" kann es deshalb gar nicht geben, weil ja keine
Software die Absicht des Fragestellers erkennen kann.
Titelaufnahmen
sollten immer schon in
knappster Form eine zuverlässige Identifizierung der Objekte
ermöglichen. Schon
am Katalog soll erkennbar sein, und nicht erst beim Einblick in die
Dokumente, ob
man es mit unterschiedlichen Ausgaben oder Versionen zu tun hat. Die
Suchmaschinen-Ergebnislisten lassen dies nicht immer zu, doch
sind die Dokumente meistens nur einen Mausklick entfernt und
können dann direkt verglichen werden. Die früher hohe Bedeutung einer
vorlagentreuen Beschreibung ist jetzt von untergeordneter Bedeutung.
Ein
"Zusammenführen" soll
unter formalen und sachlichen Aspekten möglich sein. Der Zettelkatalog
leistete so etwas nur unter sehr wenigen, genau abgegrenzten Kriterien:
Verfasser, Einheitstitel, Gesamttitel. Online-Kataloge haben ein viel
größeres Potential, gut funktionieren kann es aber nur bei geeigneter
Normierung der Daten. So z.B. wenn es um die Publikationen eines
Verlages geht oder die Dissertationen einer Hochschule.
Ganz
neu kommt hinzu: Ein Set
ist eine Teilmenge der Datenbank. Welche Arten von Sets abrufbar sind,
ist
momentan
nirgends normiert: Sachgebiete wären
besonders
interessant – dazu
braucht man eine grobe Allgemeinklassifikation. Ob sich die Nummern der
alten DDC dafür besonders gut eignen, hat sich noch zu erweisen.
Wichtig ist flächendeckende, einheitliche Anwendung.
Ein Code ist technisch gesehen nichts anderes als ein Normdatum; jeder Code führt die damit gekennzeichneten Datensätze zu einer Teilmenge der Datenbank zusammen. Codes sind im Gegensatz zu verbalen Elementen sprachunabhängig, damit können sie auch bei grenzüberschreitenden Abfragen einheitlich zum Einsatz kommen.
Die Idee der genau definierten Sets steht insbesondere beim OAI-Konzept hoch im Kurs. Da geht es darum, regelmäßig und automatisiert andere Datenbanken auswerten und Daten aus ihnen übernehmen zu können.
Link:
OAI : Open Archives Initiative
Ein
mit Google
vergleichbares Ranking
können Kataloge nicht leisten: dazu hätte man alle Zitate zu erfassen
und dann
zu zählen, wie oft ein Werk in anderen Werken zitiert wird. Der Science
Citation Index leistet dies mit hohem Erfassungsaufwand für
Zeitschriftenaufsätze,
für Bücher fehlt dazu die Möglichkeit.
Weniger schwierig wäre eine differenzierte Gewichtung von Wörtern: Titelwörter sollten dabei am höchsten, Abstract-Wörter am geringsten gewichtet werden, dazwischen Wörter aus Körperschaftsnamen, Serientiteln, Fußnoten. Bisher versucht wohl noch kein Katalog so etwas, aber hier könnte man in der Tat von Google noch lernen.
Das
Ordnen
größerer Erg.Mengen nach Sachgebieten könnte hilfreich sein, aber es
fehlt eine
allgemein und flächendeckend angewendete Fachgruppen-Klassifikation.
Evtl. kann
man sie ableiten aus den vorhandenen Sachnotationen, wozu auch
Aufstellungsgruppen zählen. Vielleicht ist die Liste der dreistelligen
DDC-Nummern eine brauchbare Basis für eine Fachgruppen-Klassifikation.
Ein neues Thema scheint faceted
searching
zu sein. Gemeint ist dabei weniger das Suchen, sondern das Browsing in
größeren
Ergebnismengen, die man nach unterschiedlichen Aspekten ordnen und
gliedern könnte - wenn man geeignete Datenelemente dazu hätte, wie z.B.
normierte Codes (siehe 5.)
Zum
Ranking siehe auch 4.1.
Online-Kataloge
müssen funktional
integriert werden in alle Abläufe ("Workflows") der Bibliothekswelt.
Das gilt nicht nur, aber ganz besonders für die Benutzungsfunktionen.
Die
Erfassung korrekter und bestgeeigneter URLs oder URNs und deren
regelmäßige
Kontrolle ist ein neues Problem für die Führung von Katalogdatenbanken:
man
katalogisiert nun erstmals Dinge, die nicht unter der Kontrolle und
nicht in
den Mauern der Bibliothek stehen.
Wenn
erst
"kritische Massen" von digitalisierten Büchern zugänglich werden
(siehe "Google Booksearch"), wird die Frage wichtig, ob und wie man
diese
von den Katalogen aus zugänglich machen kann. Aber auch umgekehrt: Wird
irgendwo ein digitalisiertes Buch gefunden, das nicht als Ganzes
kostenlos
abrufbar ist, wie kann man den Nutzer dann zu Bibliotheksexemplaren
hinführen?
Dies ist bei Google Booksearch ja auch schon in Kooperation mit OCLC
teilweise umgesetzt.
Kataloge
brauchen Software, mit der
die verschiedenen Normen der Typen 2-4 umgesetzt werden können.
Eine
Begriffsnorm wird auch gebraucht für die Ausdrucksweise an der
Benutzeroberfläche.
Wünschenswert,
aber für Online-Kataloge noch nicht existent, wäre eine Norm
für
die
Präsentation: Wie sollen Titeldaten angezeigt werden (ISBD?),
wie
soll das
Browsing in Ergebnismengen und Registeranzeigen aussehen? Anders als
früher
braucht ein Online-Regelwerk solche Normen nicht mehr zu behandeln,
d.h. die
ISBD kann weitgehend entfallen!
Ein
IFLA-Papier zu den Fragen des OPAC-Design gibt es immerhin (s.2.2).
Sehr
wichtig ferner für Interoperabilität (Virtuelle Kataloge): Normierung
der
Abfragesprache, und damit auch der Indexierung.
Relationale
Datenbanken kümmern sich nicht um den Inhalt von Datenfeldern, das ist
Sache des
Anwenders. Metadaten-Strukturen wurden überwiegend von Datenbank-Leuten
ausgedacht, die sich um den Inhalt der Datenelemente keine Gedanken
gemacht
haben.
Metadaten-Anwender
waren häufig keine Bibliothekare und hatten daher keine
Regelwerks-Kenntnisse,
noch war ihnen die Bedeutung solcher Regelwerke bekannt. Dublin Core
ist in
seiner Intention nur eine Begriffsnorm, mehr nicht,
noch nicht
einmal
eine Strukturnorm! Beteiligte BibliothekarInnen
hatten manchmal
einfach
nicht den Durchblick...
Zum Thema Codes
gibt es eine Ausarbeitung, die noch auf die Vorarbeiten zu RAK2
zurückgeht.
Suchmaschinen
verwenden keine solchen Normen – das ist schlicht unmöglich, weil sie
die Texte
so nehmen müssen, wie sie sind.
Katalogregeln
sind Inhaltsnormen: sie regeln, wie
die
Inhalte der Datenfelder zu bilden ("anzusetzen") sind. Regelgerechte
Ansetzung ist weder maschinell durchführ- noch überprüfbar, sie kann
nur vom Katalogisierenden geleistet werden.
Die
Wertnormen
sind Ansetzungen, die
regelgerecht gebildet wurden und die man entweder in die
Dokument-Datensätze
kopiert (so bei AACR/MARC üblich) oder mit denen man die Datensätze
verknüpft
(so z.B. in deutschen Systemen). Dazu sind dann Normdaten erforderlich,
die man idealerweise in die Katalogdatenbanken integriert. Auch Codes
gehören zu den Wertnormen.
Unsere
Kataloge
sind unzureichend
durchnormiert, das ist das Hauptproblem. Ursachen dafür sind die
lange
und
wechselvolle Vorgeschichte der Daten sowie ökonomische
Zwänge, denn
normkonformes Handeln kann teuer sein. Schwierig ist es zudem, wenn die
Norm erst herauskommt oder wechselt, wenn man schon eine Menge Daten
hat.
Wenn
Normdaten ihr Wirkung richtig entfalten sollen, müssen sie überall
verfügbar
und leicht verwendbar sein (s.a. 6.7 "Normdaten-Google")! Davon sind
wir weit entfernt, z.T. aus rechtlichen und z.T. aus organisatorischen
Gründen
(fehlende Software und Infrastruktur).
Besonders
sachliche Erschließungsdaten sind zu wenig normiert und zu knapp oder
gar nicht
vorhanden. Normierungs- und Reformbedarf ist wohl in der
Sacherschließung viel
größer als in der formalen.
Link:
Bei
der
"Aufwertung" geht
es um das Verbessern von vorhandenen bibliographischen und
Sacherschließungsdaten. Schlechte oder magere Daten z.B. aus
Retro-Projekten
können durch Einspeisen von Qualitätsdaten aufgewertet werden. Dazu
können
MARC-Daten gehören, und man sollte dabei z.B. die Personen- und
Körperschaftsnamen nicht überschreiben, man kann
vielmehr die
AACR-Namen
hinzufügen, um das systemübergreifende Suchen und
das
Querverbinden
("Vom Nachweis zur Nutzung") zu erleichtern.
Etwas
anderes ist die "Anreicherung" (enrichment), siehe
6.4, die
auf eine Erweiterung von Katalogdaten um neue, bisher nicht
berücksichtigte
Elemente zielt, um mehr Suchbegriffe zu bieten.
| |
|
Damit
haben wir
eigentlich genug
Probleme, um uns recht lange zu beschäftigen. Trotzdem sollten wir nach
dieser
Bestandsaufnahme einmal einige Schritte zurücktreten und über den Sinn
und
Nutzen des Ganzen nachdenken, und das im Licht der Einsichten, die wir
aus der
heutigen Situation gewinnen können.
Die
klassischen Ziele des Katalogs sind aufs Ganze gesehen wohl nur für
einen
kleineren Teil der heutigen Publikationen relevant, und auch dann nur
für einen
kleinen Teil der Fragen eines Teils des Publikums (vor allem
Philologen,
Historiker, Theologen). Andererseits ist das FRBR-Modell mit den
Entitäten
Work/Expression/Manifestation/Item vielleicht für die im Web mögliche
Vielfalt
von Dateiversionen besonders geeignet. Aber das sind Vermutungen, die
nur durch
qualitative und quantitative Studien zu erhärten wären.
Dagegen sind die Vorstellungen der Endnutzer von den Leistungen der Kataloge notwendigerweise sehr heterogen, selten reflektiert, nicht selten weit jenseits der Möglichkeiten.
Eine ernstlichz u prüfende Erwartung ist die der Öffnung:
Neue, vor allem auch automatisierte Zugänge und Möglichkeiten
der Verlinkung, Ausgabe von Daten in gängigen Formaten, die von
gebräuchlicher Software verstanden werden, "soziale" Elemente
(Kommentare, Wertungen, Rezensionen, "Tags").
Wie auch immer: Bibliotheken müssen trotz allem unbedingt dem (unreflektierten) Eindruck entgegenwirken, das Internet sei eine Alternative oder fast alles sei ja nun online.
Wichtig ist auch das Erscheinungsbild, siehe 8.
"Was
sollen
Kataloge" – die
bisher vorgestellten Punkte wurzeln tief in der Tradition
bibliothekarischen
Denkens. Zwar sind wir auch selber Katalogbenutzer, doch sind unsere
Erwartungen dabei geprägt von den Aufgaben, die wir zu erfüllen haben,
und
diese Aufgaben sind von anderer Art als die der meisten Endnutzer:
Wenn
man
diese Frage an unvorbelastete Endnutzer stellt, kommt etwas ganz
anderes
heraus: die sog. "Zentrale Erwartung" würden sicherlich fast alle
spontan unterschreiben. Sie ist zwar nicht erfüllbar, aber ein gutes
Stück
näher als bisher könnte man doch herankommen.
In
vielen
Fällen wäre jedoch dem Nutzer mit einer Anzeige wirklich aller
relevanten Publikationen wenig gedient - es wären schlichtweg zu viele,
und er
wäre voll zufrieden mit den drei oder vier besten! Die Zentrale
Erwartung würde
dann erweitert auf die Forderung, die "relevantesten" Dinge sofort
ganz oben zu sehen...
Die
"Erinnerungsrecherche" (known-item search) wird in den Erwartungen
der Nutzer bestimmt nicht als besonderes Problem angesehen werden – es
braucht
sie gleichwohl jeder, und sie ist das zentrale Thema der
Formalerschließung!
Link
Zentrale
Erwartung
prinzipiell unerfüllbar
Klassische
Titelaufnahmedaten sind
nicht geeignet, der Zentralen Erwartung viel näher zu kommen. Es müssen
weitere
Daten hinzutreten, dis bisher nicht eingegeben wurden. Das kann nur mit
neuen
Methoden gelingen, die wenig Personaleinsatz fordern: Scannen oder
Bezug von Inhaltsdaten
etwa von Verlagen (z.B. auch SwetScan).
Beispiel
aus dem Privatbereich: "Amazon
Cover Search" zum Auffinden von Buch- und CD-daten incl.
Textmaterial
bei Amazon und Übernahme in eigene Buchdatenbank.
Eine
"Strukturierung" des eingescannten und in Textdaten umgewandelten
Materials ist u.a. deshalb nötig, damit eine Gewichtung (Ranking) nach
formalen
Kriterien stattfinden kann: mindestens müssen Titelwörter ein höheres
Gewicht
haben als solche aus dem Inhaltsverzeichnis, diese ein höheres als
Textwörter.
Programme müssen also diese Bestandteile unterscheiden können. Dafür
gibt es
bisher keine Norm. HTML oder XML wäre nur die Strukturnorm!
Offen ist, ob und welche Normen für Inhalte und Werte mit solchen Modellen überhaupt umgesetzt werden können, d.h. welches Maß an Konsistenz hergestellt werden könnte.
Für
eine linguistisch-lexikalische
Analyse
ist jede
Sprache separat zu betrachten, weil dafür jeweils speziell
strukturierte
Thesauri vorhanden sein und gepflegt werden müssen. In Bregenz und im
GBV
werden neben deutschen jetzt auch englische Daten verarbeitet.
Wertvoll
wäre es, wenn ein möglichst großer Teil der Daten durch
Sachgruppen-Notationen
gekennzeichnet wäre; als gemeinsamer Nenner käme evtl. die 3stelligen DDC-Hauptgruppennummern
in
Betracht.
Für
das Ranking
in Katalogdatenbanken kommen weitere Kriterien in Betracht,
die
bisher
dafür nicht herangezogen wurden: Stärkere Gewichtung für Dokumente, die
in
mehreren Auflagen und/oder Übersetzungen erschienen (Einheitstitel wird
gebraucht), Ausleihhäufigkeit, Umfang. Doch mit wirklicher Relevanz im
Sinne
des Nutzers wird alles das nie voll übereinstimmen.
Beiträge von Nutzern: Dieses Thema ist spätestens seit LibraryThing sehr
virulent. Dies ist eine sog. Social Software, eine Art OCLC für
Amateure und ihre Privatbibliotheken. Kann man auch Bibliothekskataloge
so
erweitern, daß Nutzer eigene Schlagwörter einbringen können (sog. tags),
sowie auch Rezensionen und Bewertungen, wie man es schon von Amazon
kennt?
Die
Grundidee
ist nicht sehr neu:
CIP-Aufnahmen hatten ebenfalls das Ziel, wichtige Angaben direkt in die
Publikationen einzubetten.
In
vielen
Fällen ist das "Einbauen" von Metadaten gar nicht möglich, z.B. alles
"Altmaterial", meistens ist aber das Erstellen von getrennten
Metadaten, also Katalogdaten, leichter durchführbar.
Fast
immer
sind die Produzenten nicht in der Lage, adäquate Metadaten
bereitzustellen.
Eingebettete Dublin-Core-Metadaten in Webseiten müssen stets
nachgebessert
werden (Projekt CORC bei OCLC), können aber als Grundlage helfen. Nur:
Welche
Web-Objekte lohnen eine Katalogisierung? Welche Angaben braucht man,
damit
Kataloge dann einen besseren Dienst leisten können als Suchmaschinen?
Diese
werten selber die Metadaten oft gar nicht aus, und zwar wegen des zu
beobachtenden Versuche für Werbe- und andere Zwecke, z.B. das Ranking
zu
manipulieren.
Von
Konsistenz ist die Metadaten-Szene, aufs Ganze gesehen, weit entfernt.
Die
Vorstellung, Autoren könnten ihre Publikationen angemessen mit
Metadaten
ausstatten, kann man wohl als wirklichkeitsfremd einstufen.
Links:http://www.w3.org/2004/OWL/
DC
/ Semantic
Web
/ Ontologien
Bei
der
Anreicherung (im Gegensatz
zum "Upgrading", s. 5.3) geht
es darum, nichtbibliographische Daten mit einzubeziehen, weil die
klassischen
Katalogdaten für Entdeckungsrecherchen viel zu mager sind, d.h. zu
wenig
Wortmaterial enthalten. Außerdem kommen, anders als in Volltexten,
viele Wörter
nur in Flexionsformen (vor allem Genitiv und Plural) vor, an die ein
Nutzer oft
nicht denkt.
Beispiel: Landesbibliothek
Bregenz.
Dort werden die Inhaltsverzeichnisse gescannt, mit OCR in Text
umgewandelt,
dieser Text von einer Firma linguistisch-lexikalisch bearbeitet und das
dabei
entstehende Wortmaterial dann in den OPAC-Datensatz eingemischt und mit
indexiert. Der GBV (Göttingen) hat begonnen, ebenfalls solche Verfahren
einzuführen, nachdem der Südwestverbund mit "SWBplus"
schon einige Zeit ähnliche Dinge gemacht hat.
Die Library
of Congress hat ein Verfahren, Tables of
Content (ToC) an den Katalog anzubinden, aber noch nicht
einzubinden.
Dies
wurde von einer Arbeitsgruppe namens BEAT
(Bibliographic Enrichment Advisory Team), entwickelt, die zahlreiche
Verfahrensweisen untersucht, wie bibliographische Daten angereichert
werden
könnten. Viele der dort betrachteten Methoden sind allerdings für das
Retrieval
nicht relevant, eher für das Navigieren und als Zusatzinformation für
die
Auswahl aus Ergebnismengen.
Links:
Vorarlberger Landesbibliothek
Bregenz,
OhioLink
Wenn
mehr
Wortmaterial die Kataloge
bereichern soll, sollte das mit einer wohlüberlegten Strukturierung
geschehen,
die über MARC und MAB hinausgeht. Ein XML-Schema wird gebraucht, um
textliche
Inhalte flexibel zu strukturieren, damit sie sowohl maschinell leicht
auswertbar werden als auch ansprechend präsentiert werden können.
Eine
Datenbank intern mit XML zu gestalten, das sagt sich leicht, aber es
ist noch
nirgends überzeugend für Katalogdaten umgesetzt worden. Nichts würde
dadurch
automatisch sofort besser! Wirklich notwendigIntern
kann jede
Datenbank so bleiben, wie sie ist! XML ist keine Lösung, sondern nur
ein
Werkzeug für den Austausch zwischen Systemen und Anwendungen.
Links: MARC21-XML
/ MAB-XML
: Wirklich notwendig ist nicht mehr
als das
Exportieren und Importieren von Daten mit XML-Struktur.
Google
mit
seiner "Meinten Sie
vielleicht ..."-Funktion zeigt ein Beispiel, wie man den Nutzer mit
Hilfe
einer Datenbasis unterstützen kann, statt nur mit Algorithmen, denn die
Vorschläge kommen aus einer Art Wörterbuch-Datenbank, die weitgehend
automatisch geführt wird.
Eine
Datenbasis ist nicht unbedingt besser: Generelle Indexierung von
"...graph..."
als "...graf..." und ebensolche Umwandlung der Nutzereingabe (dazu sind
nur Algorithmen nötig) würde alle Fälle dieses speziellen
Problems
abdecken, eine Datenbasis aller Wörter mit "graph/graf" ist
dagegen erheblich komplexer und immer lückenhaft.
Problem:
Sehr hohe Komplexität bes. bei Mehrsprachigkeit, bei Aufbau und Pflege
der
Datenbasis.
Problem:
Katalogübergreifende Zugriffe (Virtuelle Kataloge)
Erschwerend
hinzu kommt die Wirrnis der Orthographie:
Rechtschreibreformer haben nie diskutiert, wie sich die Änderungen auf
Datenbanken und ihre Suchfunktionen auswirken.
In
letzter
Konsequenz kann die Sache noch weiter gehen: sowohl die Indexierung der
Daten
als auch die Vorbearbeitung der Nutzeranfrage bräuchten nicht mehr vom
Katalogsystem selbst erledigt zu werden, sondern von einem eigenen
Server, der
auch anderswo, z.B. beim Verbund, angesiedelt sein kann. Dies hätte den
Vorteil, die Komplexität der datenbankgestützten Bearbeitung nur an
einer
Stelle vorhalten und pflegen zu müssen. Man könnte das auch als
"Interface-Outsourcing" bezeichnen. Weniger einschneidend ist es,
lediglich lokal die Funktionen der Datenverwaltung und des
Nutzerkatalogs zu trennen. Dazu gibt es schon mehrere Ansätze, von
denen nur CixBase
(früher Osiris) und das recht neue VuFind (ein
Open-Source-Projekt) genannt seien. Hier kommt Suchmaschinentechnik zum
Einsatz, was innerhalb von herkömmlichen integrierten
Bibliothekssystemen nicht erreichbar zu sein scheint. Ein Outsourcing
von Katalogleistungen findet z.B. auch schon statt bei dem System IntelligentCapture
zur Scanner-Erfassung und OCR-Aufbereitung von Inhaltsverzeichnissen.
Die Vorarlberger Landesbibliothek in Bregenz hat sich damit einen Namen
gemacht, der GBV und einige seiner Teilnehmer haben davon auch bereits
profitiert.
Das
Prinzip des
datenbankgestützten
Katalogs ist es, sowohl die Indexierung wie auch
die Behandlung
der Nutzereingabe
mit Hilfe von geeigneten Datenbanken (Wörterbuch- und Normdateien) zu
unterstützen. Solche Datenbanken können Teil des lokalen Systems sein,
sie
könnten aber auch in ganz anderen Systemen liegen.
Hier
eine
Skizze für den Bereich der Namenssuche.
Vorstellbar
ist ein Normdaten-Google, wofür die VIAF schon ein
Prototyp
sein
will: Die Suche fände in einem Normdaten-Gesamtpool statt
(auch
Klassifikationen und Thesauri könnten und sollten hinein); in den
Ergebnislisten könnten dann Einträge im Katalog der lokalen Bibliothek
(oder
ein Link dorthin) zuerst erscheinen, dann aber Hinweise auf Bestände
anderswo:
Verbund, DDB, LoC. Die Suchanfragen an die jeweiligen Kataloge würden,
ohne die
Nutzer mit diesem Wissen zu belasten, mit der jeweils richtigen
Namensform bzw.
IdNummer weitergereicht.
Ein
Problem ist allerdings die Trunkierung, aber auch die Verbindung mit
der Suche
nach Titelstichwörtern, die ja nicht in gleicher Weise normiert werden
kann wie
Namen.
Eine
umfassende Anwendung der VIAF für alle Namen ist jedoch sicher
utopisch.
Besonders dann, wenn Aufsatzdaten hinzukommen, wird man den Umfang des
Namensmaterials nicht bewältigen können. Problematisch sind jedoch
vorwiegend
alte Namen bis etwa zur Renaissance und transliterierte Namen, moderne
europäische ansonsten weniger.
Zur
Illustration: Klassifikations-Testdatenbank,
darin sind Teile der LC-Klassifikation, Dewey, Basisklassifikation und
ASB
vereinigt, mit Verlinkung zum allegro-OPAC der UB Braunschweig bzw.
Stadtbibl.
Altena.
Das Einbringen
von
digitalen Objekten
und Internetquellen in Kataloge geschieht noch nicht nach einem
koordinierten
Plan. Dazu ist eine Politik erst noch auszuarbeiten, um die vielen
technischen
Lösungen zusammenzubringen. Wenn man z.B. einen Verbundkatalog als
primären
Nutzerkatalog etabliert (s. 3.1), dann brauchen digitale Quellen und
Zeitschriftenaufsätze nur dort nachgewiesen zu werden.
Wir
wissen viel zu wenig
über das heutige Suchverhalten und die Notwendigkeiten der Endnutzer.
Ohne
solches Wissen tappen wir aber im Dunkeln hinsichtlich der Entwicklung
der
Katalogisierung.
Ein Normdaten-Google
(s. 6.7) könnte Katalogisierern wie Endnutzern das schnelle und bequeme
Suchen
und Blättern in Normdaten aller Art ermöglichen, sowie das leichte
Übernehmen
beim Katalogisieren und das sofortige Weiterleiten in Kataloge beim
Suchen. Als
Prototyp dafür kann man VIAF betrachten, wie es bei OCLC in dem
Zugangssystem "Identities"
schon seinen Niederschlag gefunden hat.
Außerdem
ist generell das
Erscheinungsbild und die Funktionsweise der Kataloge zu überdenken und
zu
vereinheitlichen, insbes. auch das Vokabular, mit dem man den Nutzer
konfrontiert.
Bibliotheken und
Internet
zusammen
umfassen nichts anderes als die angesammelten Einfälle, Erfahrungen,
Erkenntnisse und Erinnerungen aus allen Zeiten und Regionen, in allen
Sprachen,
zu allen Themen und von ungezählten Personen dieses Planeten. Das
Navigieren in
diesem mehrdimensionalen Universum kann kein
Kinderspiel sein...
Aber das
Technikvertrauen oder
die Technikgläubigkeit ist anscheinend um so größer, je weniger ein
Nutzer
wirklich von der Arbeitsweise von Datenbanken versteht. Es kann nicht
unsere
Aufgabe sein, Datenbankkunde zu vermitteln, aber wir sollten durchaus
die Dinge
nicht so erscheinen lassen, als sei alles "ganz einfach". Das Nutzen
von Suchsystemen ist heute eine Kulturtechnik, die entscheidend ist für
den
Erfolg vieler Menschen bei vielen Aufgaben. Anscheinend ist selbst die
Nutzung
simpler alphabetischer Register keine Selbstverständlichkeit, auch
Techniken
wie Trunkierung, Maskierung und gezielter Einsatz logischer
Kombinationen sind
kaum bekannt.
Ein guter Zettelkatalog war
immer mehr
als die
Summe seiner Zettel: er erleichterte den Überblick und das Entdecken
durch die
sinnreiche Anordnung der Zettel und durch Leitkartensysteme. Jeder
Katalog war aber eine abgeschlossene Welt für sich mit seinen eigenen
Besonderheiten und nur am Ort zugänglich, sein Nutzen deshalb lokal
begrenzt.
"Ökonomie der geistigen
Arbeit" ist
eine
Notwendigkeit für jeden, der mit dem heutigen Überangebot von
Publikationen und
Informationsmaterialien zurechtkommen und noch eigene Leistungen
erreichen
will.
Das
Wort
von der "Nationalökonomie
des Geistes" stammt von Adolf von Harnack, 1921. Man hört
heute in
diesem Zusammenhang auch den Ausdruck "Wissensorganisation". Es ist
jedoch, genau genommen, nicht das Wissen selbst, das in den
Bibliotheken
organisiert wird, sondern es sind Aufzeichnungen, und es geht dabei
nicht um
das Organisieren an sich:
Ökonomie
ist der sinnvolle Umgang mit knappen Ressourcen.
Womit
besonders ökonomisch umzugehen ist, das ist die Zeit und Aufmerksamkeit
des
Nutzers! Hier
liegt die Knappheit, nicht bei den Beständen an Dokumenten und
Aufzeichnungen,
zumal im Online-Zeitalter, das die Verbreitung und den Zugriff
technisch enorm
erleichtert hat. Es gilt, die richtigen und qualitätvollen
Aufzeichnungen zur
Aufmerksamkeit des Nutzers zu bringen und die notwendige Sichtung mit
geeigneten Methoden zu erleichtern, damit er seine Zeit nicht mit dem
Wühlen in
großen Massen zweitrangigen oder irrelevanten Materials vertut. Alles
das kann nicht annähernd optimal mit einem lokalen Katalog erreicht
werden. Und es gehört mehr dazu als ein modernisiertes
Katalogregelwerk, das wenig mehr leistet als altbekannte Prinzipien in
modernisierter Sprache etwas umfassender zu umzusetzen.
http://www.allegro-c.de/formate/: Material zu Formaten und
Regelwerken
Zur Theorie
der
Kataloge und
Suchmaschinen : Vergleichende Tabelle
Katalog<->Suchmaschine
Wozu
überhaupt
katalogisieren? Für Skeptiker
Kleine
RAK-Hinführung :
Wie katalogisiert man ein Buch?
Eine
seltene Sache
: Der
Erfolg bei der sachlichen Suche
Sachliche
Erschließung
:
Aufgabe mit vielen Facetten
Mit vielen Links zu Projekten weltweit
Schwerpunkt Schweiz
Vielerlei Gedanken zur Umgestaltung des Katalogwesens