Veranstaltung Inhalt Erstellt
Web-Publishing Volltextindizierung März 1999

<weiter> <zurück> <Vortragsfolie>


Volltextindizierung

Das Programm Acrobat Catalog erstellt aus mehreren PDF-Dokumenten einen Index, der den PDF-Dokumenten in Exchange über Datei - Dokumentinfo - Index zugeordnet werden kann. Dann steht neben der normalen Suche im Dokument auch Suchfunktion für den gesamten indizierten Dokumentensatz bereit. Leider ist diese Funktion für den Webeinsatz nicht geeignet. Die Indexdatei wird i.d.R. sehr groß und muß lokal vorhanden sein.

Um die Übertragung des Index zu vermeiden, muß der Web-Server die Suche selbst durchführen. Für diese Aufgabe wird seit längerem Indizierungssoftware für Web-Server angeboten, die Indizes für Dokumente in vielen Formaten generieren kann. Da die Suchanfrage über CGI-Aufrufe realisiert ist, braucht der Klient keine spezielle Software sondern nur seinen Browser. Eine Liste von Indizierungssoftware mit PDF-Unterstützung zeigt, daß viele Hersteller PDF berücksichtigen:

Damit die Fundstellen im PDF-Dokument hervorgehoben werden können, kann dem Browser-Plugin mit #xml= eine Datei angegeben werden, die beschreibt, welche Stellen hervorzuheben sind. Wie folgendes Beispiel zeigt, reicht dem Plugin nicht eine relative Dateiangabe:

Die Datei hervor.txt:

<XML>
<Body units=words color=#FF0000 mode=active version=2>
<Highlight>
<loc pg=0 pos=5 len=1>
<loc pg=0 pos=12 len=1>
<loc pg=0 pos=16 len=3>
<loc pg=0 pos=22 len=5>
</Highlight>
</Body>
</XML>

Joachim Wagner
Osnabrück, den 11. März 1999