Volltextsuche
Zusätzlich zu der vom WebGenesis®-Basissystem bereitgestellten Suche in Feldern ist mit Hilfe des Application Service IREngine eine Freitextsuche in Inhalten, alternativer Darstellung und auf externe Seiten, die durch einen globalen Verweis beschrieben sind, möglich.
Die technischen Anforderungen an ein solches System sind in /IREngine/ beschrieben.
Vorgehensweise und Funktionalität
- Erzeuge / Aktualisiere Suchindex
- Suche über den Index
- Festlegung der Indizierung von externen Links
Neuen Such-Index erzeugen
Um eine performante Suche zu ermöglichen, legt die IR-Engine mit Hilfe des automatisch im Hintergrund ablaufenden Indexierungsprozesses regelmäßig Hilfsinformationen, den sog. Index ab. Suchanfragen führen nicht zu einer direkten Suche in den Dokumenten; vielmehr wird der Index durchsucht.
Der Gesamtindex besteht aus 3 Teilindices:
Index für Metadaten | Alle Felder von WebGenesis® Einträgen werden in diesem Index gespeichert. |
Index für Inhalte und alternative Darstellung (Layoutdateien) | Hier werden alle hochgeladenen Dateien gespeichert |
Index für "Global Links" | Hier werden Dateien gespeichert auf die durch einen globalen Verweis verwiesen wird. Ein Administrator kann angeben bis zu welcher Tiefe die externen Seiten indiziert werden sollen. |
Da der Index beträchtlich groß werden kann, wird er nicht im Hauptspeicher gehalten, sondern auf einem Sekundärspeicher.
Der Indexierungsprozeß führt in einem festgelegten Intervall eine automatische Reorganisation des gesamten Index durch. Er prüft, welche Dokumente seit der letzten Erzeugung des Index gelöscht, hinzugefügt oder verändert wurden und trägt diese Veränderungen in den Index ein. Die Standardeinstellung für ein Intervall beträgt 1 Stunde. Sie kann durch Konfigurierung geändert werden.
Die Indexierung bezieht momentan folgende Inhaltsformate mit ein:
.txt |
(reine Texte im ANSI oder DOS-Zeichensatz) |
.html |
(wie .txt, jedoch mit Markierungen (tags) zur Browser-Steuerung) |
.doc |
(Microsoft Word-Dokumente) |
.ppt |
(Microsoft Powerpoint-Dokumente) |
.xls |
(Microsoft Excel-Dokumente) |
.pdf |
(Adobe PDF-Dokumente) |
Suche über den Index
Ist die IREngine installiert, bietet die Liste der Suchergebnisse ein Ranking an, d.h. die Suchergebnisse mit der besten Übereinstimmung stehen am Anfang. Die Übereinstimmung eines Suchergebnisses wird als Prozentzahl angezeigt. Die Sortierung nach Titel, Datum, etc. ist jedoch weiterhin möglich.
Ein einzelnes Suchergebnis kann ein WebGenesis Eintrag, ein Dokument in den Inhalten (oder im Layout) oder ein externes Dokument auf das mit einem globalen Verweis verwiesen wurde.
Beim Anklicken eines gefundenen Eintrages oder eines Dateinamens wird diese(r) angezeigt, die Suchbegriffe werden dabei markiert. Muss eine Datei zur Darstellung erst heruntergeladen werden (lokaler Viewer), kann die Markierung der Suchbegriffe nicht wie gewohnt angezeigt werden.
Festlegung der Indizierung von externen Links
Administratoren können bei der Bearbeitung eines Eintrags der Kategorie Globaler Verweis die Indizierung des Zieles angeben.
Folgende Optionen stehen zur Verfügung:
Verweis indizieren | Ist hier ein Haken gesetzt wird die Zielseite des globalen Verweises indiziert und ist über die Suche von WebGenesis auffindbar. |
Indizierungstiefe | Hier kann angegeben werden ob auch Seiten die von der Zielseite verlinkt werden indiziert werden. Die Tiefe gibt an wie weit weitere Links verfolgt werden. |
Server beibehalten | Ist dieser Haken gesetzt werden Links nur auf dem gleichen Server weiterverfolgt (s. Indizierungstiefe) welcher im Startziel enthalten ist. |
Konfiguration
Der System Administrator hat die Möglichkeit folgende Konfigurationen vorzunehmen:
Indexierungs- intervall |
Zeitabstand (in Sekunden), in dem der Indexierungsprozess
angestoßen wird (Standardwert 1 Stunde). Durch die Angabe von 0
kann der Indexierungsprozess abgeschaltet werden. Die Erzeugung eines neuen Index kann erzwungen werden, indem der Server heruntergefahren, der alte Index gelöscht und danach der Server wieder hochgefahren wird. Beim Hochfahren, stellt das System fest, dass kein Index vorhanden ist und generiert unmittelbar einen neuen. Stellt das System beim Hochfahren fest, dass ein Index vorhanden ist, wird das Indexierungsintervall abgewartet und danach die Aktualisierung (update) des Index angestoßen. Während der Aktualisierungsphase bleibt der "alte" Index aktiv. Die Umschaltung erfolgt, wenn der Aktualisierungslauf vollständig abgeschlossen ist. |
Reader | Die IREngine stellt mehrere Reader bereit, das sind
Einleseprozeduren für bestimmte Dokumenttypen (siehe
Dokumenttypen). Die Reader werden automatisch
konfiguriert. Jedoch besteht die Möglichkeit einem Reader noch
weitere Dateiendungen zuzuweisen. Die Standardkonfiguration sieht
folgendermaßen aus:
|
Stoppwort- liste |
Soll eine Stoppwortliste verwendet werden, muss sie in das Verzeichnis des Indexierungsprozesses unter dem Namen stoplist.txt kopiert werden. Eine Standard-Stoppwortliste wird mit ausgeliefert. |
Ausschluss- liste |
Soll eine Ausschlussliste verwendet werden, muss sie in das Verzeichnis des Indexierungsprozesses unter dem Namen excludelist.txt kopiert werden. Alle Dateien, die sich in einem der hier eingetragenen Verzeichnisse (absolute Pfade oder relativ zum Index-Ordner) befinden, werden von der Indexerzeugung ausgeschlossen. |