What are libraries doing today?

Bibliotheken und ihre Daten heute

Bernhard Eversberg

Universitätsbibliothek Braunschweig

2010-12-07

This presentation was originally prepared for English-speaking students of computer science at Braunschweig Technical University. However, the relevant parts for databases and metadata are in both languages.

Libraries and the Internet, together, contain the intellectual record

  • of all times,
  • from all places
  • and all cultures,
  • in all languages,
  • with contributions from all individuals who wanted to share their ideas, insights, memories, experience, and opinions.

Navigating this enormous universe cannot be very easy. Much work on making it easier began a long time ago, and it will continue for a long time to come. All the while, the intellectual record keeps growing ...

Libraries and the internet are reservoirs of recorded knowledge, to improve and economize intellectual work.

Libraries have been among the first to make use of the Internet to improve their services to the public. 

Bibliotheken und Internet vereinigen die gesammelten Aufzeichnungen der geistigen Arbeit
  • aller Zeiten
  • aller Regionen
  • aller Kulturen
  • in allen Sprachen
  • aller Menschen

die ihre Ideen, Erkenntnisse, Erinnerungen, Erfahrungen und Meinungen bewahren und mitteilen wollten. Nicht vollständig allerdings: z.B. lagert auch viel Material in Archiven und privaten Sammlungen.
Das Navigieren in diesem gewaltigen Universum kann nicht ganz leicht sein. Seit langer Zeit wird daran gearbeitet, es leichter zu machen, und diese Bemühungen werden noch lange weitergehen. Inzwischen wächst die Masse des Materials ständig weiter, und zwar auch die Menge der Bücher, die nicht online sind.
Bibliotheken und Internet stellen Reservoire und Werkzeuge bereit, damit die geistige Arbeit wirkungsvoll und rationell sein kann.
Bibliotheken waren unter den ersten, die das Internet nutzten, um ihre Dienste zu verbessern. Es ist eine wertvolle Ergänzung, kein Ersatz für alles andere.



Findability has become a primary concern in all intellectual activity and, increasingly, also in everyday activities: Never before has so much information been available to everybody, but nobody can buy more time! What follows is this:

You want to find the right thing / the best thing as directly and quickly as possible. You don't want to learn about searching more than absolutely necessary. You will prefer methods with which you have experienced success or which you expect to be the most economical (time-saving). Sometimes, though, to learn more about searching and to acquire new insights and habits can get you ahead. And this includes library catalogs. We'll get there in a minute. But there's even more than that: Libraries provide access to all sorts of databases, many f them for finding periodical articles and factual information.

Two things are necessary for findability:

good software and good input.

Authors and publishers of books have never bothered about the findability of their products (they always left that to libraries), but today ever more webmasters bother a lot about how their homepages will be findable in Google. The usefulness  of standardized metadata, however, has yet to be widely understood.


Schnelle und leichte Auffindbarkeit ist zum wichtigsten Kriterium in allen intellektuellen Aktivitäten geworden, immer mehr auch in Alltagsdingen: Nie zuvor war so viel Information für jedermann verfügbar, doch niemand kann sich mehr Zeit kaufen, um die geeigneten Aufzeichnungen zu suchen. Man braucht Suchmaschinen; in Bibliotheken heißen sie Kataloge.

Jeder will das Richtige und das Beste so direkt und so schnell wie möglich finden, ohne dafür mehr als unbedingt nötig lernen zu müssen. Hat man auf einem Wege schon einmal Erfolg gehabt, wird man diesen Weg wieder beschreiten - es kann aber in anderen Fällen auch bessere Wege geben. Es lohnt sich, über das Suchen im Internet und in Bibliotheken ein paar Erfahrungen zu sammeln und mehr als nur eine bestimmte Suchmaschine näher kennenzulernen. Auch Bibliothekskataloge gehören zu den Instrumenten, mit denen man Erfolg haben kann - es hängt stets von der konkreten Sache ab. 

Und es gibt noch eine dritte Säule: 

Neben dem eigenen Katalog bieten Bibliotheken auch Zugang zu sehr vielen Spezialdatenbanken, vor allem für das Auffinden von Zeitschriftenaufsätzen und anderer Fachinformation.

Neben der Wahl des richtigen Instruments sind zwei Dinge für gute Auffindbarkeit entscheidend:
Gute Software und gute Daten. Autoren und Verlage haben sich bis heute nicht viel Gedanken gemacht, wie sie denn ihre Produkte gut auffindbar machen könnten. Das haben sie immer den Bibliotheken überlassen. Heute sind aber viele Webmaster bemüht, ihre Angebote in den Suchmaschinen leicht auffindbar zu machen. Noch längst nicht genügend verstanden und ausgenutzt ist hier die Nützlichkeit normierter Metadaten.



Internet search services have to earn money in order to stay in business. They focus on popular content, on the very new items and on things people might want to buy, and they make it easy to find things that have many links pointing to them. Google and Amazon are best at finding the well-known sites and the high-demand items.

Libraries try to build broad collections that cover many subjects, they preserve rare items that are nowhere else to be found, and they try to help researchers who ask new questions to discover the unknown that no one has found before them.

Both approaches to findability are necessary today, and they complement each other - in fact they often link to each other. Database technology and the internet infrastructure is needed in any case. Libraries are the natural places to combine all resources and make them available to everybody. Libraries are also the natural places, for the communities they serve, to combine all resources that cost money, and that includes real books as well as access to online versions of periodicals and databases.


Internet-Suchdienste müssen Geld verdienen, um im Geschäft bleiben zu können. Sie konzentrieren sich auf die häufig gesuchten Inhalte, auf die sehr neuen Dinge und auf Konsumgüter, und sie bevorzugen solche Adressen, auf die besonders viele andere Webseiten mit ihren Hyperlinks verweisen. Google und Amazon sind deshalb besonders gut, wo es um die wohlbekannten Adressen und die oft gesuchten Inhalte geht. Das mögen sehr oft auch die sein, die der Nutzer finden will.

Bibliotheken sollen breite, repräsentative Sammlungen aufbauen, und das über lange Zeit. Sie bewahren auch seltene Publikationen, die sonst nirgends mehr zu finden sind, und sie sollen Forschern helfen, die neue Fragen stellen und unbekannte Zusammenhänge aufdecken wollen, die vor ihnen noch niemand gefunden hat.

Beide Ansätze zur Auffindbarkeit sind notwendig und sie ergänzen einander - oft unterstützen sie sich gegenseitig mit Hyperlinks. Datenbanktechnik und die Internet-Infrastruktur sind für beide unverzichtbar. Bibliotheken waren und sind geeignete Orte, um alle Ressourcen zu bündeln und sie für jeden zugänglich zu machen. Besonders jene Ressourcen, die für den einzelnen Nutzer zu teuer sind, und dazu gehören sowohl Bücher wie auch der Zugang zu online-Versionen von Zeitschriften und Datenbanken.



Without computers, a library had to have two or more manual files. Book ordering and keeping track of orders was highly labor intensive. Books on order or "in process" were not findable for the library patrons, and difficult to find even for staff.

License management is partly done by groups of libraries to share the expenses and labor.

Several databases have to interact with each other to make a modern library work efficiently. The largest database, supporting all functions, is the library catalog, and it keeps growing all the time. The catalog is integrated with an even larger database, the "union catalog" located in Göttingen at GBV. It serves over 400 libraries all over Northern Germany.


Ohne Computer mußte eine Bibliothek einige Karteien haben.

Das Bestellen und Einarbeiten von neuen Büchern war ein kompliziertes und arbeitsintensives Geschäft. Ein noch nicht katalogisiertes Buch - irgendwo im "Geschäftsgang" liegend oder noch nicht geliefert -war schwer zu finden, für Nutzer sogar ganz unsichtbar.

Heute müssen Bibliotheken daneben auch Lizenzen verwalten für Online-Zeitschriften, e-Books und Datenbanken. Das tun sie, wo immer möglich, nicht jede für sich, sondern sie bilden dafür Konsortien und teilen sich die Arbeit.

Mehrere Datenbanken müssen zusammenarbeiten, um die heutige Bibliotheksarbeit effizient zu machen. Die größte Datenbank, die alle Arbeiten unterstützt, ist der Katalog, und er wächst ständig an, Der Katalog selbst ist aber integriert mit einer noch viel größeren Datenbank, dem "Verbundkatalog" in Göttingen beim GBV. Dieser bedient über 400 Bibliotheken in ganz Norddeutschland.


What should a good catalog do?  

  1. Produce reliable results
  2. Clearly display differences
  3. Bring together what belongs together
  4. Present meaningful choices
  5. Locate what users want

Three kinds of searches:

Known-item search (standardized names etc.)

Subject search (controlled vocabulary, "thesaurus")

Collocation search (… what belongs together)

Requirements:

Was sollte ein guter Katalog leisten?

  1. Verläßliches Finden ermöglichen
  2. Unterscheiden, was verschieden ist
  3. Zusammenbringen, was zusammengehört
  4. Gefundenes übersichtlich präsentieren
  5. Gewähltes zugänglich machen

Es gibt drei Typen der Suche:

Bestimmtes Dokument suchen (Normierte Namen etc.)

Themensuche (normiertes Vokabular, "thesaurus")

Zusammenhangssuche (finden, was zusammengehört, z.B. Bücher desselben Verfassers, alle Versionen eines Dokuments)

Anforderungen:

Hinweis: Suchmaschinen sind am besten beim "Known-item search", weil sie die Volltexte vollautomatisch indexieren, was Kataloge nicht machen können.

Problematisch wird es für Suchmaschinen bei der Themensuche, weil sie kein kontrolliertes Vokabular besitzen, und die Zusammenhangssuche kann ohne geeignete Metadaten nur ganz unvollkommen gelingen. Deshalb hat Google große Mengen Katalog-Metadaten vom OCLC WorldCat übernommen, also von Bibliotheken, um die Suchergebnisse in diesen Bereichen zu verbessern.



Important: Standard Data structures

International: MARC21 for data exchange.

Systems can use different internal formats, they just need to be able to import and export MARC21.

RDBMS do not have all the necessary functions.

If an RDBMS is used, a large volume of additional software must be developed to provide the extra functions. Object-oriented approach more suitable!

Some related problems affecting findability:

  • A person can have more than one name (different spellings in different languages).
  • A document may have more than one title.
  • A document may have two or many authors.
  • There may be other persons involved with the book, but also institutions, with many functions.
  • If a title begins with an article, how to sort it?
  • A document may consist of several parts.
  • A document may cover many subjects.
  • What to do with non-latin scripts?
Not all of this is a matter of the metadata formats or database functions, but is regulated by standardized cataloging rules.
There are interesting differences between libarary catalogs and search engines.

Wichtig: Normierte Datenstrukturen

International: MARC21 für den Datenaustausch.

Systeme können intern andere Formate nutzen, sie sollten nur MARC21 importieren und exportieren können.

Relationale DBs haben nicht alle notwendigen Funktionen.

Wenn eine RDB verwendet wird, braucht man viel zusätzliche Software für komplexe Funktionen. Objektorientierte Datenbanken sind besser geeignet.

Schwierigkeiten bei der Auffindbarkeit:

  • Eine Person hat oft keinen eindeutigen Namen (Schreibweisen in vielen Sprachen anders).
  • Ein Dokument kann mehr als einen Titel haben.
  • ... sowie mehr als einen Verfasser, manchmal sehr viele.
  • Weitere Personen und Institutionen mit unterschiedlichen Funktionen können beteiligt sein.
  • Wenn ein Titel mit Artikel beginnt, was macht man damit?
  • Ein Dokument kann zwei oder mehr Teile haben mit eigenen Titeln und unterschiedlichen Verfassern.
  • Ein Buch kann mehrere Themen behandeln.
  • Was tut man mit nichtlateinischen Schriften?
Vieles davon ist nicht die Sache des Datenformats, sondern wird durch Katalogisierungsregeln normiert.
Es gibt viele interessante Unterschiede zwischen Katalogen und Suchmaschinen.


http://www.allegro-c.de/formate/wald/

A catalog is, however, only a means to an end: Readers want the books, not descriptions of the books!

Different from online documents, a physical book can be read by only one person at a time.

The catalog, therefore, has to be integrated with the circulation functions. This way, the catalog can also show it when a book is not available because someone else has it. In that case, you may place a hold on it.

And if a library doesn't own a document at all, users have to be directed to an interlibrary loan service where they can first find it, locate it in another library, and order it for rapid delivery or a photocopy.

Braunschweig University Library has worked for a long time to get all old materials into the online catalog. This work was completed after almost 30 years.



Physical location has lost much of its importance.

Readers are not interested where a document is stored and who owns it - as long as they can get it quickly. Increasingly, readers get used to consult larger catalogs of library networks. These show the combined holdings of many libraries, but also

  • Periodical articles (never before findable in normal library catalogs!)
  • E-documents and other Web objects. These can be found elsewhere, but it may help to find them in a context with printed sources. Virtual libraries try to do that.

Germany has six regional library networks, all of which can be accessed through a "virtual catalog", a software gateway installed in Karlsruhe.

Braunschweig University Library also has, for example, all German online-dissertations in the catalog as well as many e-journals.

Library catalogs, on the other hand, can also be integrated into portals together with other search services, like periodical article databases.


Publishing used to be very time-consuming and costly. In most cases, an intermediary was necessary: the publisher.

Today, "to publish" means to make something available to the public. Anybody can do it who has access to a webserver. Libraries can provide this service for the members of their institutions.

Advantages of  institutional repository:

  • Economy of scale
  • Standardization: file formats, metadata
  • Reliability and safety of server
  • 24/7 operation
  • Increased findability by integration: in catalogs and search engines

The Institutional repository in Braunschweig is called "Digitale Bibliothek Braunschweig". Its contents can be found both in our catalog and in Google as well as other services, like OAIster.


Some older books are still much in demand but in poor condition, or too rare to risk their loss or damage. Libraries have turned to digitization (instead of the earlier microfilming) to make these works accessible to a much wider audience. Scholars need no longer travel a lot to visit the libraries who own precious resources, they can make virtual visits and study the texts at home.  --> Example

Findability is achieved by including these objects in the online catalogs as well as placing metadata on webservers for harvesting by the search engines.

Google is trying to do book digitization on a very large scale.  The project is challenged by publishers for copyright infringement. 

  • Since they index the entire book content, the potential is highest for known-item searches, and esp. when looking for rare names or word combinations. 
  • Complete lack of controlled vocabulary makes collocation search impossible. 
  • Lack of controlled vocabulary for subjects makes subject search very problematic.
  • Google has obtained library catalog data from OCLC to improve search functions. 


     

Preservation is one of the reasons for digitization.

Sometimes a book must be preserved as a physical object, but in most cases the intellectual content is more important than the paper.

Computer files, be they digital images or text, are very easily destroyed - even more than paper!

Like microforms, the earlier preservation technology, digital storage media may become unusable in the longer term:

  • The material substrate deteriorates physically.
  • The hardware fails or becomes unavailable.
  • The software becomes incompatible.

Strategies are under development to overcome or minimize these risks.

Libraries have to cooperate world-wide in order to avoid duplicate efforts.


Elementary learning necessities today

  • Media (Textbooks, Reference sources etc.)
  • Infrastructure (PCs, printer, scanner, copier, network)
  • A suitable place for working and meeting with other learners.

 

Today, it is the most economical solution for a university to provide access to all the needed resources under one roof - in the library. There should be no digital divide (between rich and poor) in the learning environment.

Important components of the learning environment

  • Information literacy (part of the curriculum?)
  • Information architecture (databases, connectivity)
  • Usability  (smart functions, barrier-free interfaces)


2007-07-03 /  2010-12-07