Auf dieser Seite versuche ich, die (mir) wichtigsten und nützlichsten Suchmaschinen vorzustellen, ihre Syntax zu vergleichen und auf besondere Möglichkeiten bei der Suche hinzuweisen. Ich bespreche dabei nur "fortgeschrittene" Suchvarianten und ziehe generell kryptische Syntax im Suchfeld einer unüberschaubaren Masse an Checkboxen und Radiobuttons vor; deshalb erinnert das hier dargestellte Interface nicht immer an das, das man auf der Homepage derselben Suchmaschine findet. Letztlich bin ich ein erklärter Feind alles überflüssigen graphischen Aufputzes.
Gegenüber dem Default ist bei einigen Suchmaschinen die Zahl der angeforderten Suchergebnisse stark hinaufgesetzt.
In all den auf dieser Seite dargestellten Suchformularen sind fortgeschrittene Suchmethoden eingestellt, soferne die Suchmaschine solche anbietet. Fast alle Formulare arbeiten daher mit logischen Operatoren, die zumeist verpflichtend sind.
Zu ihrer vollständigen Funktion braucht diese Seite JavaScript; ohne JavaScript funktionieren dieses Form und einige Kolibri-Features nicht.
Auf der anderen Seite sind manche deutsche Suchmaschinen innovativ genug, durch eigene Entwicklungen Besonderheiten der deutschen Sprache Rechnung zu tragen. So enthält Fireball einen Modul, der überprüft, ob ein Dokument in deutscher Sprache geschrieben ist; Kolibri bietet Suche nach Wortbestandteilen und auch die clevere Spidertechnologie von Speedfind verdient Erwähnung.
Leider gibt es keine Suchmaschine, die Flexion auflöst und etwa bei einer Suche nach Apfel auch mit Äpfeln aufwartet; über den vergleichsweise primitiven Trunkierungsmechanismus läßt sich allenfalls noch ein Apfelkuchen auftreiben, aber auch nicht bei allen Maschinen. Pure Zukunftsmusik ist es, von Golden Delicious als Antwort auf Apfel zu träumen.
Manche "Suchmaschinen" sind in Wirklichkeit nur manuell erstellte Indizes mit einem Ausgang zu AltaVista.
Die Suchmaschine verfügt über einen verläßlichen Crawler (KIT-Fireball), der alle deutschen Dokumente einer Site automatisch indexiert. Die Datenbanksoftware scheint ein AltaVista-Klon zu sein, vermag jedoch auch Worte mit eingebetteten HTML-Tags richtig zu indexieren. Mit dieser Fähigkeit steht Fireball ziemlich allein da (Speedfind und HotBot können es aber auch).
Fireball indexiert auch Wörter mit nationalen Sonderzeichen. Diese werden beim Indexieren als selbständige Buchstaben behandelt; beim der Interpretation der Sucheingabe macht Fireball allerdings einen Unterschied zwischen deutschen (Ä, Ö, Ü und ß) und fremdsprachigen Sonderzeichen (z.B. É oder Õ): Deutsche Sonderzeichen können Sie bei der Suche wahlweise direkt über die Tastatur eingeben oder als HTML character entities (z.B. ä für ä) umschreiben; bei fremdsprachigen Sonderzeichen funktioniert nur der erstere Weg. Das bedeutet, daß Sie nur dann nach olé suchen können, wenn Ihre Tastatur das Zeichen é irgendwie zu erzeugen vermag. Ähnliche Lösungen für Sonderzeichen bieten Speedfind und Kolibri sowie, bei den internationalen Maschinen, HotBot, Excite und Lycos.
Fremdspachige Texte werden nicht indexiert; zwar bietet Fireball auf seiner Homepage auch eine Suche in fremdsprachigen Dokumenten an, aber diese Funktionalität wird über die Suchmaschine AltaVista in Amerika extern realisiert. Durch den doppelten HTML-Transport ist dieses Feature ziemlich langsam.
Die Abfragesprache bietet einen Stern (*) als Wildcardsymbol zur Berücksichtigung von Flexionsformen, obligate logische Operatoren (AND, OR, NOT, NEAR), Phrasensuche durch Gruppierung in Anführungszeichen und Beschränkung auf einzelne Felder (u.a. link:, url:, text:, title:). Alle diese Features können frei miteinander kombiniert werden. Weiters wird Selektion nach dem Indexierungsdatum (Format dd.mm.yyyy oder dd.mm.) angeboten.
Zusammenfassend stehen viele Vorteile dieser Suchmaschine nur wenigen Schwächen gegenüber: Fireball hat seine Stellung als Marktleader des deutschen Suchens ehrlich verdient. Alle AltaVista-Vorteile wurden beibehalten und zusätztliche auf die deutsche Sprache zurechtgeschnittene Features machen das Suchen in der großen Datenbasis zum Vergnügen. Besonders lobenswert ist die ausgezeichnete Dokumentation.
Austronaut trägt Stichwörter mit nationalen Sonderzeichen doppelt in seinen Index ein: Einmal unter Beibehaltung der Sonderzeichen und einmal unter Ersatz der Sonderzeichen durch ein Äquivalenzzeichen (diese "doppelte Indexierung" gibt es noch bei AltaVista und Infoseek). Als Äquivalentzeichen dient der jeweilige Buchstabe ohne Akzent bzw. Umlaut, und ss für scharfes s.
Bei der Eingabe von Suchworten werden Umlaute nicht ersetzt. Das Stichwort Süßwaren kann daher sowohl mit süßwaren als auch mit susswaren gesucht werden - letzteres includiert auch die Schweizer Schreibweise Süsswaren. Wenn Sie ein Wort mit scharfem s suchen, dann sollten Sie daher im Suchwort ss eingeben, weil Sie das Wort dann unabhängig von der verwendeten Orthographie-Variante und von den Rechtschreibkenntnissen des Autors finden.
Fremdsprachige Sonderzeichen werden ebenso gehandhabt; daher dürfen Sie im Suchwort akzentuierte Vokale durch die einfachen Vokale ersetzen. Natürlich können Sie das Sonderzeichen auch direkt in das Suchfeld eintragen, wenn Ihre Tastatur Ihnen das gestattet; damit erhalten Sie möglicherweise schärfere Suchresultate. Eingabe von Umlauten oder anderen Sonderzeichen als HTML character entities ist nicht unterstützt.
Die Abfragespache erlaubt nur, Keyword mit + und - zu präfixieren. Elemente in URLs und Hyperlinks sind wie gewöhnliche Schlüsselworte suchbar. Man kann die Suche regional auf .at, .de oder .ch Domänen beschränken.
Die Suchmaschine Speedfind bietet eine ausgereifte selbstgestrickte Spidertechnologie, mit der man neue Seiten in Echtzeit hinzufügen kann. Der Indexierer vermag auch Worte mit eingebetteten HTML-Tags korrekt zu indexieren (man möchte meinen, das sei einfach; tatsächlich scheint aber außer HotBot, Fireball und Speedfind niemand ein Wort wie "Stielblüte" indexieren zu können!).
Speedfind indexiert Sonderzeichen als selbständige Buchstaben, so wie Fireball, Kolibri und HotBot, Excite und Lycos. Einen wesentlichen Unterschied gibt es jedoch bei der Eingabe von Suchworten: Speedfind ist die einzige Suchmaschine, die konsequent HTML character entities in Suchstrings zuläßt und damit Suchen nach Worten mit akzentuierten Zeichen auch von Standard-Keyboards aus unterstützt. Fremdsprachige Sonderzeichen müssen in dieser Form eingegeben werden, deutsche Sonderzeichen dürfen außerdem auch direkt in das Suchfeld eingetragen werden.
Die Suchabfrage läßt sich mit den Präfixen TITLE:, EMAIL:, URL: und META: auf die entsprechenden Felder beschränken (letzteres wird etwas irreführend als "Metasuche" bezeichnet). Leider gibt es keine Suche nach Links. Als logische Operatoren fungieren UND (+), NICHT (-), NAHE und ODER (,), von denen alle binär zu verwenden sind.
Besonders gut sind bei Speedfind Wildcards unterstützt, von denen es drei verschiedene Arten gibt: Ein Stern (*) steht für einen beliebigen Wortbestandteil und kann an beliebiger Stelle im Wort eingesetzt werden, sogar mehrmals (mit *zz* suchen Sie alle Worte, die ein Doppel-Z enthalten). Das Fragezeichen (?) steht für genau einen Buchstaben: er?en findet unter anderem erden, erben und erlen. Eine eingeschränkte Variante des ? sind die eckigen Klammern, in der Dokumentation nicht ganz sinnig als regular expression bezeichnet: Mit er[bd]en finden Sie erben und erden, mit [1...5][0...9][0...9] finden Sie ganze Zahlen von 100 bis 599.
Wildcards duerfen auch gemischt werden: So findet f[ae]ll* unter anderem fallstudien und fellowship. Allerdings sind die Wildcards nicht immer ganz verläßlich: Worte, die Umlaute enthalten, werden mit dem * manchmal nicht gefunden, und die anderen beiden Wildcards scheinen Sonderzeichen grundsätzlich nicht zu vertragen. Letztlich funktioniert die Zusammenarbeit zwischen Wirldcards und Bool;schen Operatoren nicht immer (a??a near 51 findet nichts, aber area near 51 findet eine ganze Menge!). Letztlich sei darauf hingewiesen, daß Wildcard-Suchen längere Zeit in Anspruch nehmen können.
Eine präzise Auflistung der Suchergebnisse erleichtert die Analyse bzw. Verfeinerung. Dieses Feature ist besonders nützlich in Zusammenhang mit Wildcards; eine ähnliche Möglichkeit bietet der Kolibri.
Da man Speedfind auf einen URL-Substring restringieren kann, eignet es sich auch zum lokalen Suchen innerhalb einer Domain. Die Identität des Webmasters der aufrufenden Seite kann dabei über einen versteckten Parameter im Suchformular übergeben werden; für besonders verkehrsträchtige Webmaster gibt es angeblich eine Belohnung.
Insgesamt stellt sich Speedfind als eine äußerst flexible und nützliche Suchmaschine dar, deren besondere Features bei Dauergebrauch fast süchtig machen. Es ist nur zu wünschen, daß Speadfind an die Beliebtheit und an den guten Ruf des alten Intersearch anschließen kann.
Bei der Behandlung von deutschen Sonderzeichen geht Eule eigene Wege: Ä, Ö Ü und ß werden nämlich sowohl beim Indexieren als auch bei der Sucheingabe gleich wie Ae, Oe, Ue und ss behandelt. Sie können gleichermaßen nach manuell oder manüll suchen. Diese Vorgangsweise löst effizient alle Probleme zwischen alter und neuer Rechtschreibung bei ss und ß (und auch Probleme mit nicht orthographiekundigen Webautoren) und erlaubt auch das Suchen nach älteren 7-bit-Texten. Leider werden fremdsprachige Sonderzeichen überhaupt nicht unterstützt; ich habe keine Möglichkeit gefunden, danach zu suchen, und vermute, daß derartige Wörter gar nicht indexiert werden. Eine ähnliche, aber ausgereiftere, Verwaltung von Sonderzeichen findet man bei Aladin.
Die Möglichkeiten der Suchsteuerung sind spartanisch: Nur die Operatoren + und - sind erlaubt. Dafür kann man die Reihenfolge, in der die Suchergebnisse ausgegeben werden, fein beeinflussen. Ein ähnliches Feature weist auch Lycos auf.
Wer sich davon nicht abschrecken läßt oder von der cutting edge-Technologie sogar angezogen wird, der findet zu seiner Überraschung jedoch eine Suchmaschine, die außer mit einem poppigen Interface auch mit echter Funktionalität punkten kann. Die Volltextindexierung erfolgt online und praktisch instantan, URLs lassen sich auch nach Kategorien suchen und letztlich hilft eine ausgeklügelte und effiziente Wortanalyse bei der Auflösung von Flexionsformen und Nominalkomposita. Alle Technologie ist hausgemacht!
Bei Kolibri wird die "Detailsuche" von der "Schnellsuche" genau unterschieden. In der Schnellsuche werden mehrere Suchbegriffe immer mit AND verknüpft; zusätzlich zu den Suchergebnissen werden alle im Index gespeicherten Schlagworte aufgegeben, die mit dem ersten Suchwort beginnen oder auf das erste Suchwort enden. Sucht man also nach buch, so bekommt man eine Liste von Schlagwörtern wie buchen, buchstaben und buchung beziehungsweise gästebuch, handbuch und branchenbuch, jeweils in Reihenfolge abnehmender Häufigkeit im Index. Mit diesem Feature lassen sich einerseits leicht regelmäßige Flexionsformen handhaben (wenn Sie z.B. nach buchstabe suchen, erfahren Sie sofort, daß Sie mehr als dreimal soviele Treffer mit buchstaben erzielen könnten), andererseits kann man auch den leidigen Nominalkomposita damit zu Leibe rücken (wenn Sie nach schiff suchen, schlägt Ihnen das System auch raumschiff und flaggschiff vor). Allein dieses Feature ist bereits hitverdächtig; legiglich Speedfind bietes etwas Vergleichbares.
In der Detailsuche dagegen können Sie zwischen globaler AND- und
globaler OR-Verknüpfung wählen. Sie erhalten keine Analyse
der Wortbestandteile, sondern können die Suche auf Kategorien (z.B.
Freizeit, Karriere,
Ein der Schnellsuche und der Detailsuche gemeinsames Feature ist die Angabe
ähnlicher Suchworte im Fall, daß die Suche kein Resultat erbringt.
Damit lassen sich Tippfehler rasch erkennen und ausbessern. Weiters kann die
Reihenfolge der Trefferausgabe nach "Genauigkeit" (damit meint man wohl die
Häufigkeit der Suchworte im Text) oder nach "Aktualität" (das
entspricht dem Datum der Anmeldung)
Einige Spezialfunktionen kann man durch Operatoren erreichen: !heute listet alle heute in den Index aufgenommenen Dokumente. !host und !link müssen jeweils von einem vollständigen Hostnamen gefolgt werden und listen Dokumente, die auf dem entsprechenden Host liegen bzw. einen Link auf den entsprechenden Host enthalten. Diese Funktionen können nicht mit weiteren Suchworten kombiniert werden.
Die sogenannte "Funsuche" komplementiert die Schnell- und Detailsuche: Hier kann man gerade angemeldete Seiten besuchen, gerade eingegebene Suchworte betrachten und hat, nach Registrierung, Zugriff auf eine personalisierte Suchmaschine. Für den letzteren Spaß braucht man allerdings Java-Applets!
Kolibris Indexer hat ein merkwürdiges "Feature", das man auch bei der internationalen Suchmaschine Excite findet: Zusätzliche Keywords in den META-Tags werden nicht indexiert. Außer deutschsprachigen Dokumenten enthält der Index auch eine kleinere Anzahl fremdsprachiger Texte; offenbar führt der Indexer keine Sprachüberprüfung durch.
Der Indexer behandelt nationale Sonderzeichen als selbständige Buchstaben
(ebenso wie Fireball, Speedfind, HotBot, Excite und Lycos). Bei der Suche
dürfen Sie deutsche oder fremdsprachige Sonderzeichen auch als HTML
character entities
Insgesamt scheint mir der Kolibri ein heißer Tip zu sein, besonders für Suchanfragen, die sich nicht mit der Hilfe von logischen Operatoren (die Kolibri ohnehin nicht versteht) scharf formulieren lassen. Eine "Freizeit-Suchmaschine", sozusagen.
Aladin unterhät einen vergleichsweise umfangreichen und ziemlich aktuellen Volltextindex aller besuchten Webpages. Leider versteht Aladin aber keine logischen Operatoren bei der Suchabfrage; man kann nur zwischen einer globalen UND- und einer ODER-Verknüpfung wählen. Weiters ist eine Suche nach URLs möglich; dabei werden Worte innerhalb der Domain-Adresse oder des Pfadnamens (nicht aber der Filename!) gefunden. Dieses Feature funktioniert nur erratisch. Stabiler arbeitet dagegen die Suche nach Wörtern im Titel. Die Sortierlogik ist mir nicht verständlich.
Alle Sonderzeichen werden sowohl beim Indexieren als auch bei der Sucheingabe auf Äquivalentzeichen abgebildet, d.h., Akzente etc. werden vollkommen ignoriert und die deutschen Sonderzeichen (Ä,Ö,Ü,ß) werden wie Ae,Oe,Ue,ss behandelt. Sie erhalten daher dieselben Treffer, wenn Sie statt Cafe nach Café oder auch einer Phantasieschreibung Cãfë suchen, und statt Goethe dürfen Sie auch Göthe eingeben. Andere Suchmaschinen, die mit Äquivalenzzeichen arbeiten (Northern Light und die "doppelten Indexierer" Infoseek, Austronaut und AltaVista), bilden die Umlaute dagegen auf den reinen Vokalen (A,O,U) ab; lediglich Eule arbeitet ebenfalls mit der "Vokal+e"-Konvention.
Sehenswert, aber leider im negativen Sinn, ist die "Hilfe": Dabei erfährt man, daß man die Suche mit dem Knopf Suchen starten kann, sonst aber nicht viel.
AltaVista und Lycos streiten sich darum, die erste Suchmaschine im Internet gewesen zu sein; ebenfalls bereits sehr alt (und entsprechend technologisch stabil) sind HotBot, Infoseek und Excite. Neben ihrer Stabilität punkten diese Maschinen mit teilweise sehr großen Indizes.
Einige dieser Maschinen unterhalten auch ein besonderes Naheverhältnis zu Katalogbetreibern wie Yahoo oder haben selbst, zusätzlich zur robotbasierten Suchmaschine, einen Katalogdienst aufgebaut. Viele ehemals rein amerikanisch orientierten Suchmaschinen bieten heute auch fremdsprachige (i.d.R. auch deutsche) Interfaces an.
In ihrer Indexverwaltung sind diese Maschinen jedoch sehr konservativ und bieten alle denselben, oft unbefriedigenden Standard. Diese mangelnde Innovativität erklärt sich wohl auch daraus, daß das Englische mit seiner geringen Flexion und fehlenden Nominalkomposita den Suchmaschinen ohnehin sehr weit entgegenkommt. Neuentwicklungen betreffen daher weniger das Datenbanksystem als die Sortierung der Suchergebnisse (hier hat Google ein ganz eigenes Konzept) oder die Verwendung zusätzlicher, nicht dem Web entnommener, Quellen (Northern Light). Diese beiden Maschinen erfreuen sich steigender Beliebtheit.
Gute Dokumentation der Suchsyntax scheint amerikanischen Gepflogenheiten zuwiderzulaufen und kommt daher kaum jemals vor. Deshalb werden Sie auf dieser Seite gelegentlich Beschreibungen von Features finden, die die Suchmaschinenbetreiber entweder hinter Select-Menüs verstecken, an unmöglicher Stelle in der Dokumentation erwähnen oder aber Ihnen gleich ganz vorenthalten wollen. Das think-and-search scheint demnächst unter dem click-and-go begraben zu werden...
Die internationalen Suchmaschinen indexieren Dokumente in allen Sprachen aus allen Domains.
Stichwörter mit nationalen Sonderzeichen werden in den Index auch in einer 7-bit-Variante aufgenommen, wobei das Sonderzeichen durch ein Äquivalenzzeichen ersetzt wird: Akzentuierte bzw. umgelautete Vokale durch den einfachen Vokal und ß durch ss. Suchwörter dürfen Sonderzeichen enthalten, allerdings ist Codierung als HTML character entity nicht gestattet.
Doppelte Indexierung ist sehr mächtig und benutzerfreundlich: Der Weinliebhaber kann nach rose suchen und wird (neben vielen Gärtnereien) auch tatsächlich Rosé-Weine finden; wer jedoch das Zeichen é mit dem Keyboard eingeben kann, der kann Zierpflanzen umgehen und seine Suche von vorneherein präziser fassen. Allerdings ist es dem Blumenfreund nicht möglich, mit dem Suchwort rose die Weintreffer zu vermeiden. Von der Verwaltung ist die doppelte Indexierung ziemlich aufwendig; deshalb bieten nur wenige Suchmaschinen dieses Feature (Austronaut und Infoseek).
AltaVistas doppelte Indexierung kann teilweise auch Probleme mit verschiedenen Orthographievarianten beheben, da jedes Wort mit ß auch mit ss suchbar ist - das wird vor allem die Schweizer freuen. Wenn allerdings ein Wort zwei oder mehr Sonderzeichen enthält, so wird es deshalb auch nicht öfter als zweimal indexiert: So findet man mit dem Suchwort küßchen nur Dokumente in alter und mit dem Suchwort küsschen nur Dokumente in neuer Rechtschreibung. Wenn man jedes "Kü[ß/ss]chen" finden möchte, dann hilft nur kusschen.
Die Abfragesprache bietet logische Operatoren (AND, OR, NOT, NEAR), Phrasensuche und Beschränkung auf einzelne Felder (link:, url:, title:). Alled diese Features können frei miteinander kombiniert werden. Weiters wird Selektion aufgrund des Indexierungsdatums (Format: dd.mm.yyyy oder dd.mm.) angeboten.
Eine Besonderheit ist die Möglichkeit des "refinements", so heißt bei AltaVista das Hinzu- oder Abschalten von Gruppen verwandter Begriffe. Eine Spezialität, vor der jedoch eher zu warnen ist, stellt die automatische Sprachübersetzung mit dem "Babelfisch" (siehe Douglas Adams, The Hitchhiker's Guide to the Galaxy) dar; mit viel Glück kann man zwar erraten, was im originalen Dokument wirklich stand, aber sehr häufig haben die Resultate des Brabbelfisches nur humoristische Bedeutung.
Für mich ist AltaVista erste Wahl bei weltweiten Suchen, wenn sie sich präzise mit logischen Operatoren strukturieren lassen.
Die Behandlung nationaler Sonderzeichen in HotBot ist verwirrend, da die Behandlung von der Art des Dokumentes oder sogar dem Ort des Auftretens abhängt. Im Textkörper von HTML-Dokumenten werden Sonderzeichen als selbständige Buchstaben verarbeitet und indexiert; darin gleicht HotBot Fireball, Speedfind, Kolibri, Excite und Lycos. Das gilt jedoch nicht für eventuelle META-Beschreibungen oder simple Textfiles, die nicht die Endung HTML (oder HTM) aufweisen: In diesem Fall legt HotBot eventuelle HTML character entities, die Sonderzeichen codieren sollten, verbatim im Index ab. Folglich finden Sie das Wort Rösser in HTML-Dokumenten nur mit rösser und in Textfiles (oder META-Beschreibungen) nur mit rösser. Offenbar hängt es auch mit diesem "Feature" zusammen, daß Sonderzeichen in Seitenabstrakts aus META-Beschreibungen bei der Ausgabe nicht richtig dargestellt werden.
Als einzige internationale Suchmaschine wird HotBot durch HTML tags in einem Wort nicht verwirrt; Sie finden dort also auch die teilweise kursiv geschriebene "Stielblüte" (unter den deutschsprachigen Maschinen können auch Fireball und Speedfind mit solchen Wörtern umgehen).
Ein besonderes Merkmal von HotBot ist das "stemming"; dabei werden zu den eingebenen Suchwörtern sinnverwandte Wörter bestimmt und ebenfalls zur Suche herangezogen. Was dieses Feature, das wohl nur für englische Suchwörter implementiert ist, genau macht, wird nicht verraten; er erzeugt jedoch im allgemeinen mehr Treffer; jedoch kann man sich nicht darauf verlassen, daß die Treffer ohne stemming eine Teilmenge der Treffer mit stemming bilden. Stemming ist mit Bool'schen Verknüpfungen nicht verträglich.
Im untenstehenden Formular sind Bool'sche Verknüpfungen (AND, OR und NOT) erlaubt, die auch geschachtelt werden dürfen (die Defaultverknüpfung ist OR). Für weitere Restriktionen stehen die Modifikatoren domain: (bis zu drei Levels tief), linkdomain: (sucht nach Links auf eine Domain), depth: (Seitentiefe), origindomainsuffix: (sucht nach Seiten aus einem Land, z.B. de), title: (sucht ein Keyword in Seitentiteln), after: (merkwürdiges Datumsformat dd/mm/yy beachten!) und before: zur Verfügung.
Hot Bot ist nicht besonders auf europäische Benützer ausgerichtet; so werden europäische Sites in wesentlich größeren Abständen aktualisiert als amerikanische. Auch die pathologische Behandlung von in den europäischen Sprachen so wichtigen Sonderzeichen bezeugt die alleinige Hinwendung zum amerikanischen Markt.
Nationale Sonderzeichen werden von Infoseek mit "doppelter Indexierung" (wie bei AltaVista oder Austronaut) behandelt: Daher liefert eine Suche nach fallen auch alle Dokumente, die fällen enthalten, aber nicht umgekehrt. Das Äquivalenzzeichen zu scharfem s ist übrigens B (muß groß geschrieben werden, oder sollte ich stattdessen sagen "muB groB geschrieben werden"?), wie ich erst nach längerem Herumprobieren herausfand. Eingabe von HTML character entities ist nicht gestattet.
Die Möglichkeiten einer Feinkontrolle bei der Abfrage sind eher gering: Mit url:, title: und link: beschränkt man das Suchwort auf das entsprechende Feld, mit site: wählt man eine bestimmte Domain (z.B. site:ac.at). Jeder Suchbegriff kann mit + oder - präfixiert werden. Phrasen werden durch Anführungszeichen gekennzeichnet.
Ein nützliches Feature ist die Möglichkeit, eine Suche auf die Resultate der vorherigen Suche zu beschänken. Durch sukzessives Einengen der Suchbegriffe kommt man bald auf ein handhabbares Ausgabevolumen. Eine weitere Eigentümlichkeit ist, daß Resultate vom selben Host zusammengefaßt werden und erst "ungrouped" werden müssen.
Excite behandelt nationale Sonderzeichen wie gewöhnliche Buchstaben und bietet keine Äquivalenzzeichen dazu an (ebenso wie Fireball, Speedfind, Kolibri, HotBot und Lycos). Man kann daher nach Worten, die nationale Sonderzeichen enthalten, nur suchen, wenn man diese Sonderzeichen mit seinem Keyboard auch erzeugen kann. Umgekehrt finden Sie nie nach México, wenn Sie nicht wissen, daß man dieses Land mit einem Akzent schreibt.
Was die Suchmöglichkeiten betrifft, so ist Excite ziemlich enttäuschend: Nur + und - Präfixe sind erlaubt. Es gibt keine Feldsuche oder geographische bzw. zeitliche Selektion.
Das beste Stück an Excite ist die Sortierlogik. Die Power hinter dieser Suchmaschine nutzt man am besten aus, indem man möglichst viele Suchbegriffe vorgibt; nach jeder Suche bekommt man von Excite zehn weitere Stichwörter geliefert, mit denen man die Suche präziser fassen kann. Weiters vermag Excite, alle Stichworte eines Dokumentes als Suchbegriffe für eine neue Suche heranzuziehen, wodurch man effizient thematisch ähnliche Texte finden kann.
Mit diesen Features ist Excite optimal ausgelegt auf unpräzise Suchen ohne Struktur, bei denen dem Suchenden erst nach einigen Versuchen klar wird, was er eigentlich will.
Lycos kennt die meisten logischen Operatoren im Internet: Außer OR, AND und NOT versteht er auch noch ADJ (unmittelbar aufeinanderfolgend in beliebiger Reihenfolge), NEAR (wie AND, aber höchstens 25 Worte auseinander), FAR (wie AND, aber mindestens 25 Worte auseinander), BEFORE (wie AND, aber Reihenfolge relevant). Weiters gibt es OADJ, ONEAR und OFAR, bei denen die Reihenfolge der so verbundenen Stichworte berücksichtigt wird. Der Default-Wortabstand 25 kann für (O)NEAR und (O)FAR geändert werden (z.B. NEAR/n). Dasselbe bei (O)ADJ bedeutet einen Abstand von genau n Worten. Durch Anführungszeichen gruppierte Worte werden als ein Suchbegriff behandelt.
Dafür ist die Selektion nach Sprache ziemlich fehlerhaft, sogar, wenn die Sprache im Dokument durch META-Tags angegeben ist. Ein nützliches Feature ist die Selektion nach Domain, da man damit auch eine "lokale" Suche innerhalb der eigenen Homepage betreiben kann. Weiters kann man gegebene Suchen verfeinern, d.h. innerhalb der Ergebnismenge einer Suche eine neue starten. Allgemeine Feldsuche (Suche nach Links, META-Information) ist zwar nicht möglich, allerdings wird Suche nach Titeln oder URLs unterstützt; letztere kann jedoch nicht mit gewöhnlicher Textsuche kombiniert werden.
Um die Reihenfolge der Ausgabe festzulegen, gibt es eine Vielzahl von Einstellungen, die mit einem Array von Buttons gesteuert werden; allerdings habe ich fast den Eindruck, dieses Feature sei reine Dekoration, da die Einstellungen in der Praxis keine Auswirkung haben. Ein ähnliches Interface weist auch Eule auf.
Lobenswert ist die ausführliche Dokumentation.
Zusätzlich zum gespiderten Volltextindex kann eine Suche bei Northern Light auch noch auf eine umfangreiche Sammlung von Artikeln aus verschiedenen (US-amerikanischen) Periodika zurückgreifen. Will man diese Texte dann allerdings auch lesen, so ist dafür eine Schutzgebühr von einem bis wenigen Dollars zu bezahlen. Natürlich kann man sich stattdessen die entsprechende Zeitschrift beim Kiosk um die Ecke auch kaufen, aber der Nutzen dieser als special collection bezeichneten Quellen liegt darin, daß auch Informationen aus alten, auflagenschwachen oder sonstwie obskuren Journalen rasch zugänglich sind.
Der Submission von neuen URLs stellt Northern Light zuerst einmal einen Intelligenztest für den User voran: Man findet das entsprechende Formular nämich unter dem Punkt "Hilfe". Der Spider von Northern Light heißt Gulliver (weil er weit herumkommt) und spidert Websites ebenso rasch wie vollständig.
Bei der Behandlung von Sonderzeichen geht Northern Light etwas anders vor als andere Suchmaschinen: Der Index nimmt keine Sonderzeichen auf, stattdessen wird Sonderzeichen durch ein Standardzeichen ersetzt (z.B. ä, á, å aber auch æ durch a). Es scheint, als ob das Ersatzzeichen einfach der erste Buchstabe im Namen der entsprechenden HTML character entity wäre: Deshalb wird scharfes ß durch ein rundes s ersetzt, und ð gar durch e!
Derselbe Ersatz der Sonderzeichen erfolgt auch bei der Sucheingabe. Entsprechend können Sie bei Northern Light niemals in einer Suche zwischen Blüten und bluten unterscheiden: Egal, wonach Sie suchen, Sie werden immer beides finden. In der Behandlung von Sonderzeichen ist Northern Light im englischen Sprachraum einzigartig und lediglich mit einigen kleinen deutschen Maschinen (Aladin und Eule) zu vergleichen.
Als einzige Suchmaschine betrachtet Northern Light zwei mit einem Bindestrich verbundene Worte als ein einzelnes Wort: Suchanfragen nach Klein-Kunst und Kleinkunst sind daher äquivalent.
Die Möglichkeiten einer Feinsteuerung bei der Suche sind beträchtlich. Im Suchbegriff sind die logischen Operatoren AND, OR und AND NOT erlaubt, die auch geschachtelt werden dürfen. Weiters ist die Feldsuche für die beiden Modifikatoren title: und url: implementiert; leider kann man nicht nach Links auf eine gegebene Seite suchen. Suchwörter können wie gewohnt mit Anführungszeichen zu Phrasen kombiniert werden. Weiters unterstützt Northern Light zwei Wildcardsymbole: Mit * kann ein Wort nach mindestens 4 Zeichen trunkiert werden, und das % steht für ein beliebiges Zeichen (ab der fünften Position im Wort).
Weiters kann innerhalb eines Zeitfensters gesucht werden (US-Datumsformat dd/mm/yy); Northern Light zieht dazu nicht das Indexierungsdatum heran, sondern das Datum der letzten Modifikation vor der Indexierung. Da jedoch manche WWW-Server dieses Datum im http-Header nicht übertragen, fallen manche Dokumente aus diesen Suchen völlig heraus und können nicht gefunden werden (date non available).
Northern Light kategoriert Websites nach ihrer top-level domain nach militäry, non-profit, commercial und so weiter; zusätzlich kann nach dem Herkunftsland eingeteilt werden. Leider funktionieren diese beiden Schemata nicht unabhängig voneinander, und bei Webseiten außerhalb der USA resultieren mitunter reichlich willkürliche Einteilungen. Weiters bietet Northern Light noch eine Selektion nach der Sprache, die besser funktioniert.
Insgesamt ist Northern Light eine respektable Suchmaschine, deren Verwendung nur empfohlen werden kann.
Google verwendet ein revolutionäres Modell zur Erstellung der Relevanzpunkte in der Ausgabe. Alle anderen Suchmaschinen ordnen die Suchergebnisse entweder einfach nach Datum, oder sie erstellen ein "Relevanz-Ranking" aufgrund der Häufigkeit und Position der Suchworte im Dokument. Google geht andere Wege: Relevanz ist hier eine Eigenschaft des WWW selbst, und nicht der Suche.
Bereits vor jeder Suchabfrage hat Google die Linkstruktur des WWW zur Bewertung möglicher Relevanzen analysiert und dabei zwischen Quellen und Linklisten unterschieden. Quellen sollen Information zu einem bestimmten Thema enthalten, Linklisten sollen auf möglichst viele Quellen verweisen. Der Wert einer Quelle steigt, wenn viele Linklisten auf sie verweisen, und umgekehrt.
Bei der Suche wird nun diese zusätzliche Information ebenfalls ausgewertet. Daher kann Google häufig Wichtiges von Unwichtigem trennen; sehr häufig sind bereits die ersten paar Resultate zufriedenstellend. Auf der anderen Seite werden neue Webdokumente, auf die noch nicht so viele Links zeigen, natürlich schlechter gereiht und sind vielleicht ganz unauffindbar. Bis eine Website so bekannt geworden ist, daß eine signifikante Anzahl von sachverwandten Seiten darauf linkt, vergehen normalerweise einige Monate; dazu kommt noch ein Indexierungscyclus der Suchmaschine. Ein weiterer Nachteil ist, daß einzelne Dokumente einer großen Site kaum Ziele von Links sind, da die meisten Links auf Eingangsseiten gerichtet sind.
Die Google-Macher behaupten, daß das erstgereihte Resultat in den meisten Fällen optimal sei, und bieten einen speziellen Knopf, mit dem man nicht die Suche startet, sondern, ohne die Suchresultate zu Gesicht bekommen zu haben, das von Google erstgereihte Dokument in den Browser lädt. Dieser Knopf ist mit "I'm feeling lucky" beschriftet; mir erschiene "Russisches Roulette" treffender.
Keine besonderen Suchmöglichkeiten wie Bool'sche Operatoren oder Feldsuche werden unterstützt. Lediglich die Suche nach Links ist möglich, da die Linkstruktur des Web bei Google ohnehin gespeicher werden muß. Dazu muß in der Anzeige der Suchresultate die rot-graue Leiste links neben dem Titel angeclickt werden; eine derartige Suche mit dem Eingabefeld ist nicht möglich.
HTML character entities werden von Google wie selbständige Buchstaben behandelt; in Suchwörtern dürfen sie nicht umschrieben werden. Allerdings gibt es da einen ziemlich pathologischen Haken dabei: Bei Sonderzeichen, und nur dort, erkennt Google Groß- und Kleinbuchstaben nicht als äquivalent an: Während die Suchwörter Apfel und apfel dieselben Dokumente finden, ergeben äpfel und Äpfel verschiedene Resultate.
Ein angenehmes und einzigartiges Feature von Google ist es, daß die
Suchmaschine nicht nur Links auf Dokumente, sondern auch Dokumente selbst
liefern kann! Alle von Googlebot gespiderten und in den Index
aufgenommenen Dokumente können auch direkt von Google angefordert
Google kann daher auch als (kurzzeitiges) Internet-Archiv dienen. Da das Dokument komplett mit allen Links, Inlines, Applets und JavaScripts dargestellt wird, kann es gelegentlich zu Problemen kommen, wenn der Dokumentautor eine solche Möglichkeit nicht voraussah.
Autor: Gernot Katzer
gernot.katzer@kfunigraz.ac.at
46156 Zugriffe seit 15.9.1998