
Verlautbarung 277 der Entw.Abt.                              2015-12-14
-------------------------------

Neue a35-Demo: Suchmaschine fuer allegro-Doku
---------------------------------------------

Wer bei der Arbeit mit oder an allegro auf ein Problem stoesst, dem
stehen mindestens 12 verschiedenartige Informationsquellen offen:

A. Folgende Quellen sind in Google indexiert, weil sie auf dem 
   Webserver liegen:  http://www.allegro-c.de

Doku-Seiten (WebServer) [inkl. Bereiche "Regeln" und "Formate"]
Verlautbarungen 124- (im Mailsystem enthalten)
allegro-News 21-60.1990-2002
FLEX-Doku
FLEX-Tricks (17-80)
Mailforum
Systemhandbuch [Google als Index dazu nicht wirklich brauchbar]

B. Weitere Quellen sind nur systemimmanent a99 in verfuegbar und 
   bislang nicht in ein einheitliches Suchsystem integriert:

Hilfetexte (.rtf und .txt) von a99
Exportparameter (.?pr und .?pt)
Indexparameter (.?pi)
Importparameter (.?im)
FLEX-Skripte (.flx)
acon-Jobs (.job)
Includes fuer Skripte und Jobs (.inc)

Nicht immer, aber nicht selten ist dann die Frage: Wo steht das, was
ich suche? Oder z.B.: Welche Parameterdatei ist die richtige fuer mein
Vorhaben, oder welchen FLEX kann ich als Vorlage heranziehen. Und nicht
*ganz* selten gibt es mehr als eine Stelle, an denen Brauchbares steht.
Die genannten Quellen sind in Struktur, Zweckbestimmung und Standort
sehr verschieden, das erschwert die Suche betraechtlich.
Experten wissen: Diffizile Suche in den einzelnen Dokumentarten ist
oft mit "grep" aussichtsreich (Suche mit "regulaeren Ausdruecken").

Es wurde nun ein Versuch gemacht, das *gesamte* Material einmal so
aufzubereiten, dass man eine Art Suchmaschine damit befuellen kann.
Die Suchmaschine heisst a35. Sie kann aber keine Volltexte durchsuchen,
sondern nur Metadaten. Es ist aber klar, dass zumindest einige der 
Dateien sich fuer eine Volltextsuche wenig eignen. Metadaten dagegen
konnte man fuer jeden der Dokumententypen mit wenig Muehe per FLEX
erstellen. Im Fall des Handbuchs wurde das Register aufbereitet, fuer
die meisten anderen Dateien eigneten sich die Kopfzeilen der Dateien,
weil darin Aussagen zum Inhalt stehen. Bei den Verlautbarungen und
den news wurden zusaetzlich die Zwischenueberschriften extrahiert.

Einschraenkung:
Der Inhalt des Mailforums ist einerseits zu heterogen, andererseits
zu schwierig in Metadaten fassbar. Mails sind aber in Google sehr gut 
indexiert, zusammen mit den anderen Inhalten des Web-Servers. 
Die Essenz vieler Mail-Diskussionen hat aber Eingang gefunden in die
anderen Quellen.
TROTZ ALLEDEM ist nuechtern zu konstatieren, dass eine allegro-Daten-
bank heutzutage ein altmodischer Ansatz ist fuer solcherlei Aufgabe.
Sehr wahrscheinlich koennte eine geschickte Aufbereitung des gesamten
Volltextvolumens eine Basis sein fuer eine echt wirkungsmaechtige 
Google-Suche, insbes. wegen der dann moeglichen Phrasensuche u.a.
Spezialitaeten. Ein unbequemer Konjunktiv ist das, der noetige Aufwand
fuer die Aufbereitung steht ungeloest im Raum. Womoeglich waere mit
ebenfalls grossem Aufwand auch eine eigene Suchmaschine auf der
Basis von Solr erstellbar. (Muessen wir eigentlich alles selber machen?)

Die Aktion ergab eine Datenbank mit gut 2100 Saetzen. 
Hier ist sie:

  http://www.allegro-c.de

Kein Druckfehler: allegro-b und nicht -c. Das b steht, wie schon mal
erwaehnt wurde, fuer "browserbasiert".
Das ist ein vorerst experimenteller Server, der auf einer Linux-
Maschine aufgesetzt wurde. Diese Aktion dient primaer der weiteren
Verbesserung von a35 in einem umfassenden Versuch einer Linux-
Implementierung. Ein Niederschlag davon ist der "CrashCourse" und
das vorige Woche freigegebene Linux-Paket. Wenigstens in dieser
Hinsicht hat sich die Sache schon gelohnt: wir haben damit ein neues
Beispiel fuer das Potential von a35, und im Vergleich neben der DemoBank 
ergibt sich ein besserer Eindruck von der Variabilitaet.

Die Datenbank ist online per Browser editierbar. Wer auf 0 Treffer
stoesst oder sonstwie vor die Wand laeuft, kann das gerne melden, wir
analysieren das dann und schaffen Abhilfe. (Es ist immer so, wenn man
was Neues vorstellt, dass sofort Kalamitaeten und Defizite aufstossen 
und Irritate.) 

Wie auch immer, es bleibt klar, dass man bei einer konkreten Suche im
Zweifel durchaus die Google-Suche bevorzugen kann oder jedenfalls mit 
heranziehen sollte. Fuer Inhalte, die man vage aus dem Mailforum
erinnert, bleibt das der einzige Weg.

Es handelt sich uebrigens bei dem Linux um ein aktuelles CentOS.
Besondere Progammanpassungen fuer diese Variante waren nicht 
erforderlich.


