Infos zu
Suchmaschinen
Bericht
von: Quelle:
http://www.uni-koeln.de/rrzk/www/suche/google.html
Sven
Clever, RRZK der Universität zu Köln

Unter
all den angebotenen Suchmaschinen im Internet nimmt
Google eine Sonderstellung ein.
Dies zum einen aufgrund seiner geradezu archaisch wirkenden
Oberfläche, die auf die übliche Bannerwerbung verzichtet und
erfreulich übersichtlich und aufgeräumt wirkt.
Zum anderen überzeugt Google aber vor allem durch seine enorme
Schnelligkeit bei einer mehr als guten Trefferquote, einer Kombination,
die man so bei keiner anderen Suchmaschine findet und Google deshalb
ziemlich einzigartig macht
. 1. Die Situation vor Google – viele Suchwerkzeuge, aber wenig
gute Treffer Bevor Google erschien, gab es zwar ein
vielfältiges Angebot an Möglichkeiten, das Internet nach
spezifischen Seiten zu durchsuchen, aber alle hatten ihre Nachteile und
lieferten nur bedingt brauchbare Ergebnisse.
Zum einen gab es die gängigen Suchmaschinen, die automatisch
anhand von Schlüsselwörtern nach den gewünschten Seiten
im Internet fahndeten. Doch angesichts des immer grösser werdenden
Internets wurden diese immer ineffektiver und lieferten fortlaufend
schlechtere Ergebnisse. Dazu kam die Tatsache, dass diese Suchmaschinen
häufig gegen Bezahlung Internet-Seiten in der Trefferliste ganz
oben positionierten und somit das Ergebnis manipuliert wurde. Seiten,
hinter denen zahlungskräftige Unternehmen standen, wurden als
"bester Treffer" aufgeführt, obgleich andere Seiten den gesuchten
Inhalt eigentlich besser abgedeckt hätten.

Auf
der anderen Seite standen die Portale wie
Yahoo.com, die oftmals selbst aus
Suchmaschinen hervorgegangen waren und mit handgepflegten Listen als
Ausgangspunkte beim Surfen im Web dienen sollten. Doch ihrer Natur
entsprechend hatten sie mit dem Problem zu kämpfen, dass sie zwar
populäre Themen relativ gut abdeckten, jedoch bei exotischeren
Wünschen versagten, da die entsprechende Thematik in den
angebotenen Listen schlichtweg nicht aufgeführt war. Ausserdem
waren die Listen selbst natürlich relativ subjektiv und hatten –
mehr noch wie die Suchmaschinen – den Nachteil, dass hinter den
aufgeführten Seiten oftmals solche steckten, deren Betreiber sich
ihre Indexierung einfach erkauft hatten. So startete beispielsweise
Yahoo.com im Februar das Programm "Sponsored Sites", womit sich
Seiten-Betreiber gegen Bezahlung in den Listen aufnehmen lassen
können.
2. Googles Auftritt und rasanter Aufstieg
Dann aber kam Google.
Zwei Studenten der renommierten Stanford-Universität, Larry Page
und Sergey Brin, hatten die Nachteile der gängigen Suchmaschinen
zum Anlass genommen, ein eigenes System zum Finden von Internet-Seiten
zu entwickeln. Das Ergebnis ihrer gemeinsamen Bemühungen wurden
1997 zunächst auf den Servern der Stanford-Universität
gestartet.
Dabei war das wesentliche dieser neuen Suchmaschine sein spezieller
Such-Algorhythmus, "Page-Ranking" genannt, welcher anders an die
Erfassung des Webs heranging als die Konkurrenz.
So misst "Page-Ranking" der Anzahl der referenzierenden Links besondere
Bedeutung bei, d.h. es wird auch berücksichtigt, wie oft auf eine
Internet-Seite von anderen Seiten per Link aus verwiesen wird.
Die dahinterstehende Idee ist so einfach wie effektiv: Dadurch, dass
man die Links der verschiedensten Seiten berücksichtigt,
erhält man als Summe der gegenseitigen subjektiven
Einschätzungen der verschiedenen Web-Anbieter die objektiv besten
Seiten. Google lässt also letztendlich die verschiedenen
Seiten-Betreiber mit ihren Links als gegenseitige Bewerter arbeiten und
nimmt die "herrschende Auffassung" als Ausgangspunkt für die
Positionierung von Internet-Seiten auf den eigenen Trefferlisten.
Dabei hat diese Vorgehensweise noch den Nebeneffekt, dass mit
ständiger Zunahme der Anzahl der Internet-Seiten auch die
Qualität der Suchergebnisse zunimmt, da so gleichsam die Zahl der
verlinkenden Seiten – und damit der gegenseitigen Bewertungen – steigt.
Zudem ist dies wesentlich kostengünstiger als z.B. die Pflege von
Listen per Hand, wie dies bei den Portalen der Fall ist.
Und tatsächlich liefert Google ein wesentlich besseres Trefferbild
ab als seine Pendanten auf dem Suchmaschinen- und Portalsektor: Oft
stehen die für den Anwender relevanten Ergebnisse an vorderster
Stelle. Googles Suchkonzept scheint also tatsächlich zu
funktionieren.

Dabei kann Google mittlerweile laut des renommierten
Web-Dienstes
Searchenginewatch.com die
meisten indexierten Web-Seiten überhaupt vorweisen, im November
2000 etwa waren es bereits 602 Millionen Seiten.

Dagegen hatte z.B.
der direkte Konkurrent
Altavista.com "nur" 350 Millionen
Seiten erfasst.
Zudem unterstützt Google alle Arten des Internet-Zugangs. Neben
des Zugangs per Palm kann selbst mit WAP-fähigen Handys nach
entsprechenden Seiten gesucht werden, wobei Google etwa 2,5 Millionen
diesbezüglicher WML- und HDML-Seiten auf seinem Index hat.
Ein besonderes Feature rundet das positive Bild ab: Sollte die
gefundene Seite gerade einmal nicht erreichbar sein, etwa wenn der
betreffende Server vorübergehend ausgefallen ist oder gar die
ganze Seite entfernt wurde, steht eine Kopie der gesuchten Seite bei
Google zur Verfügung.
Natürlich fallen bei einem solch umfassenden Suchdienst wie Google
gigantische Datenmengen an, die auch fortlaufend verarbeitet werden
wollen und nach dementsprechend gewaltiger Hardware verlangen. Doch wie
bei Google dieses Problem gelöst wurde, zeigt in beeindruckender
Weise, dass auch hier streng darauf geachtet wurde, maximale Leistung
bei relativ geringem (Kosten-)Aufwand zu erbringen: Statt
mächtiger, aber sündhaft teurer Grossrechner dienen Google
als Arbeitspferde mehrere tausend unter dem Betriebssystem Linux
laufende low-cost-PCs, die an mehreren Standorten verteilt sind und
zusammen ein beeindruckendes Netzwerk bilden. Gleich einem Organismus
stellen sie ein Gesamtsystem dar, das Googles Kapazitätenhunger zu
stillen in der Lage ist.
3. Googles Erfolg und
anhaltende Expansion Googles Vorzüge schlagen sich auch in
der Beliebtheit des Dienstes bei den Anwendern nieder.
Nach einem Bericht von
searchenginewatch.com
besuchten im Dezember 2000 bereits 16,2 % aller Surfer die Seiten von
Google. Dagegen hatte die Konkurrenz im Gegenzug schwer an
Popularität eingebüsst; den Such-Dienst Altavista.com etwa
besuchten zur selben Zeit nur noch ca. 8 %.
Im
Januar 2001 lag dann laut Media-Metrix das Unternehmen mit 8,8
Millionen Besuchern auf Platz 25 der meist besuchten US-amerikanischen
Web-Seiten überhaupt; und im Juni 2001, also gerade einmal ein
halbes Jahr später, schon auf Platz 20.
Das beeindruckende dabei ist, dass Google seinen Erfolg lediglich
Mundpropaganda und keinem grossangelegten Werbefeldzug verdankt; ein
Zeugnis von der Qualität dieser Suchmaschine.
Der Erfolg blieb aber natürlich auch der Konkurrenz nicht
verborgen. Aufgrunddessen begannen sogar einige Portale, die Suche per
Google zu lizensieren, um die Nachteile der eigenen Listen zu
kompensieren. So entschloss sich selbst
Yahoo.com als einer
der grössten Portal-Seiten Mitte letzten Jahres, die
Google-Suchtechnik in seine eigene Suchmaschine zu implementieren: Wenn
eine Suche im Yahoo-Verzeichnis erfolglos bleibt, wird automatisch eine
Suche mit der Suchmaschine Google durchgeführt.
Das alles ist ein sicheres Zeichen dafür, dass eine pompöse
Aufmachung wie bei den Portalen nicht alles ist, sondern es letzten
Endes auf die Inhalte ankommt, und dies auch die Anwender erkannt
haben. Googles Popularität ist jedenfalls ungebrochen,
während bei den Portal-Betreibern, deren Seiten im übrigen
sehr teuer in Aufbau und Pflege sind, ein gewisser Katzenjammer
festzustellen ist.

Die beiden
Dienste
Altavista.com
und
Go.com (der Nachfolger
von Infoseek.com) haben jedenfalls im September letzten Jahres ihren
Rückzug vom Portal-Konzept verkündet.
Doch hinsichtlich dieser Entwicklung scheint bei Google eine Art
Gegentendenz feststellbar zu sein: Denn mittlerweile bietet Google
selbst einen grossen, weit über eine Millionen Einträge
umfassenden Internet-Katalog namens "Google Directory" (
http://directory.google.com/)
an, der sehr den Listen ähnelt, wie sie sich bei Portalen wie
Yahoo.com finden. Eine eher irritierende Entwicklung, möchte man
zunächst meinen, schliesslich werden solche Listen wegen ihrer
Subjektivität kritisiert, wovon Google als objektive Suchmaschinen
sich ja gerade abhebt. Doch der erste Eindruck täuscht, denn
Google setzt nicht wie die Portale auf eine Auswahl durch ein
Redaktionsteam, sondern stattdessen auf ein anderes Prinzip: Den
überwiegenden Teil der Adressen erhält Google aus dem
"dmoz"-Projekt

(
http://dmoz.org/), wo die
Seiten eben nicht wie bei anderen Internet-Katalogen von Mitarbeitern
ausgewählt und bewertet werden. Vielmehr kann hier jeder Besucher
als "Editor" am Auf- und Ausbau der Kataloge mitwirken, einer
Betätigung, der bereits mehrere zehntausend Menschen auf der
ganzen Welt nachgehen. Wie beim Page-Ranking-System, auf dem Googles
Suchmaschine basiert, wird also auch hier die "herrschende Meinung" als
Bewertungsmethode herangezogen und so ein relativ objektives Ergebnis
erzielt.
Mitte Februar 2001 erzielte Google dann den nächsten Schlag: Man
übernahm Dejanews, den "Usenet Discussion Service" von
Deja.com. Im Zuge
dessen erlaubt Google es jetzt, über die Usenet-Suche
groups.google.com
das gesamte Usenet-Archiv, das zuvor über Deja.com erreichbar war,
mit Daten seit 1995 zu durchsuchen. Damit hält Google jetzt nach
eigenen Angaben das grösste Usenet-Archiv mit mehr als 650
Millionen Nachrichten; dies entspricht mehr als ein Terabyte
"menschlicher" Kommunikation.
Zudem können nun auch PDF-Dateien mittels Google ermittelt werden.
Dies ist wohl insbesondere für Studenten eine nicht zu
unterschätzende Bereicherung, da gerade im akademischen Bereich
PDF praktisch zum Standard für umfangreiche
Veröffentlichungen geworden ist, die so im Original-Format auf dem
Bildschirm dargestellt werden können.
4. Die
Oberfläche und Bedienung von Google Die Verwendung von
Google gestaltet sich ziemlich unproblematisch.
Der Zugriff kann auf verschiedene Weise erfolgen: Ruft man Google
über
http://www.google.com/
auf, gelangt man von hier aus zur jeweiligen regionalen "Zweigstelle"
von Google; in Deutschland wird entsprechend die deutsche Version
angezeigt. Wer die englische Originaloberfläche benutzen
möchte, muss den ganz oben aufgeführte Link (
http://www.google.com/intl/en/)
betätigen. Über ein spezielles Menü (Preferences /
Sprachoptionen) kann man eine bestimmte Sprache auch voreinstellen.
Diese wird dann beim nächsten Aufruf von Google automatisch
benutzt (sofern im Browser "Cookies" aktiviert sind). Dies ist
insbesondere für Ausländer nützlich, die die Seite in
ihrer jeweiligen Landessprache benutzen möchten – und Google
unterstützt mittlerweile praktisch alle gängigen Sprachen!
Natürlich kann man stattdessen auch direkt die Adresse der
deutschen Version,
http://www.google.de/,
aufrufen. Man gelangt dann sofort auf die deutsche Version von Google
(vgl. Abb. 1).
Abb. 1: Das Suchfenster von Google Wie schon
eingangs erwähnt, ist die Oberfläche von Google zwar sehr
spartanisch, aber dadurch auch sehr übersichtlich gehalten.
Tatsächlich besteht sie im wesentlichen aus einem einfachen
Sucheingabefeld, in welches die zur Suche benötigten
Schlagwörter eingegeben werden.
In den meisten Fällen reicht es aus, ein oder mehrere
beschreibende Begriffe einzugeben und anschliessend die Eingabetaste zu
drücken. Alternativ kann man auch die Schaltfläche "Google
Suche" betätigen, um die Liste der Suchergebnisse anzuzeigen.
Bei einer Suche nach Seiten, bei der man mittels der Eingabe von
Schlagwörtern wahrscheinlich sofort gute Ergebnisse erzielen wird,
kann man nach Eingabe der Suchbegriffe auch auf die Schaltfläche
"Auf gut Glück!" klicken, wodurch man automatisch auf die
Web-Seite des erstaufgeführten Suchergebnisses weitergeleitet wird.
Bei "komplizierteren" Suchen, etwa nach Seiten mit Inhalten, die sich
nicht klar mit Schlagwörtern eingrenzen lassen, kann man auch die
verschiedenen Suchoptionen von Google bemühen. Seit dem letzten
Jahr sind diesbezüglich bei Google interessante Features
hinzugefügt worden. So kann nun auch mit den Bool`schen Operatoren
"UND" bzw. "ODER" gearbeitet werden, wobei Google automatisch den
Operator "UND" zwischen den eingegebenen Wörtern einfügt. Im
Suchergebnis erscheinen also nur die Seiten, in denen alle Suchbegriffe
enthalten sind. Zu beachten ist, dass Google solche Seiten höher
einstuft, in denen die Suchbegriffe nahe beieinander liegen, es wird
also die Relevanz der Ergebnisse auch anhand der Nähe der
Suchbegriffe ermittelt. Dies sollte man bei seiner Sucheingabe
berücksichtigen, um effektive Ergebnisse zu erhalten und sich
stattdessen nicht durch massenhaft irrelevante Ergebnisse arbeiten zu
müssen.
Ausserdem sucht Google nur nach Seiten, die den eingegebene
Suchbegriffen exakt entsprechen (d.h. "Wildcards" werden nicht
unterstützt!), weshalb man Suchbegriffe in verschiedenen Versionen
eingeben sollte. Sollte dies nicht zu brauchbaren Ergebnissen
führen, sollte man vielleicht die Suchanfrage anders formulieren.
Abb. 2: Die "Erweiterte Suche" unter Google Sollte
die einfache Suche nicht ausreichen, bietet Google unter dem
Menüpunkt "Erweiterte Suche" (rechts neben dem Eingabefeld, siehe
Abb. 1) auch die Möglichkeit an, eine komplexere Suchanfrage zu
starten. Von besonderem Interesse ist hier das Feld "Ergebnisse
finden". In Abb. 2 ist beispielhaft eine Suche mittels der hier
angebotenen Vorgehensweisen aufgeführt, wobei die verschiedenen
Suchmöglichkeiten auch kumulativ verwendet werden können. Von
letzterer Möglichkeit sollte man auch ausgiebig Gebrauch sollen,
um die Suche möglichst präzise zu gestalten.
Will man etwa Seiten zur Thematik der Geschichte der Raumfahrt finden,
kann man mit der Eingabe von "Geschichte" und "Raumfahrt" in das Feld
"Mit allen Worten" nach Seiten suchen lassen, in denen beide Begriffe
vorkommen (obgleich natürlich die Eingabe einer grösseren
Zahl an Schlagworten die Chance erhöht, die gewünschte Seite
zu erhalten).
Ist dagegen eine bestimmte Wortgruppe bekannt – wie hier etwa
"Geschichte der bemannten Raumfahrt" –, kann man diese in das
diesbezügliche Feld eingeben.
Ist man sich bei bestimmten Begriffen nicht sicher, ob sie so oder in
anderer Form – etwa als Synonym – auf der gewünschten Seite
vorkommen, kann man auch mehrere Alternativbegriffe in das Feld "mit
irgendeinem der Wörter" eintragen. Hier wird z.B. nach Seiten
gesucht, in denen entweder "Astronauten" oder "Kosmonauten"
Erwähnung finden.
Man kann aber zugleich auch eine negative Suche durchführen in dem
Sinne, dass bestimmte Begriffe auf der gesuchten Seite nicht vorkommen
sollen, um die Suche weiter einzugrenzen. Hierzu dient das Eingabefeld
"ohne die Wörter". So sollen bei der Suche in Abb. 2 auf keinen
Fall die Begriffe "Satelliten", "Sputnik" und "Hubble" vorkommen.
Wurde von Google die Suche anhand der eingegebenen Kriterien
durchgeführt (und noch einmal: diese Suche geschieht i.d.R. so
schnell, dass man noch nicht einmal bemerkt, dass überhaupt eine
Suche stattgefunden hat; die Suche nach Seiten zum Thema "Google"
dauert etwa nur 0.05 Sekunden, vgl. Abb. 3), listet Google die
Ergebnisse übersichtlich auf.
Abb. 3: Die Trefferliste von Google; hier wurde nach
Seiten zur Thematik "Google" gesucht Dabei werden die Treffer
automatisch nach Domains sortiert. Treffer aus der selben Domain werden
etwas eingerückt untereinander dargestellt (vgl. hierzu und zum
folgenden jeweils Abb. 3).
Ausserdem bietet Google eine aussagekräftige Vorschau für
jedes Ergebnis. Statt feststehender Zusammenfassungen wird in den
Suchergebnissen ein Auszug aus dem Text angezeigt, der auf die
Suchanfrage abgestimmt ist, und in dem die Suchbegriffe visuell
hervorgehoben sind. So gewinnt man schnell einen Überblick
über die Relevanz der Ergebnisse, ohne alle Seite selbst aufrufen
zu müssen.
Sollte der Server der gewünschten Seite ausgefallen oder die Seite
selbst mittlerweile aus dem Netz entfernt worden sein, kann man auf
Googles Web-Seiten-Cache zurückgreifen (beim jeweiligen
Suchergebnis unter "Archiv"), in dem zahlreiche Kopien von Seiten
gespeichert sind. Häufig kann zudem auf das Material im Cache
schneller zugegriffen werden als über den Link zur eigentlichen
Seite; freilich sind die auf diese Weise erhaltenen Informationen
möglicherweise nicht auf dem neuesten Stand. In den meisten
Fällen ist das aber immer noch besser als ein "404 Not
Found"-Fehler.
Ferner kann man noch mittels "Ähnliche Seiten" nach Seiten mit
derselben Thematik suchen lassen.
Und ist ein Treffer auch im internen Verzeichnis von Google enthalten,
wird mittels Link auf diese Kategorie verwiesen, so dass man sich
weitere Treffer aus derselben Kategorie anzeigen lassen kann.
Sollte die gefundene Seite in einer Sprache vorliegen, derer man nicht
mächtig ist, bietet Google mittlerweile auch noch einen
Übersetzer an, mit dem sich ausländische Texte auf deutsch
anzeigen lassen (vgl. Abb. 1).
5. Die neue
Google-Toolbar Neben dem herkömmlichen Aufrufen von Google
durch Eingabe der betreffenden URL
http://www.google.de
besteht auch (und zur Zeit auch noch nur) für den MS Internet
Explorer die Möglichkeit, die wesentlichen Menüpunkte von
Google in den Browser als Toolbar einzubinden, so dass man vom Browser
aus direkt eine Suche mit Google starten kann, ohne die Google-Homepage
jedesmal aufrufen zu müssen.
Abb. 4: Die Google-Toolbar mit den einzelnen
Menüpunkten Um die Toolbar in den Internet Explorer zu
integrieren, muss diese nur heruntergeladen und installiert werden. Die
Toolbar erscheint dann automatisch mit dem Aufrufen des Internet
Explorer in dessen Symbolleiste.
Unter
http://toolbar.google.com/intl/de/
finden sich Hinweise zum Funktionsumfang der Google-Toolbar und ein
Link zum Download des Installationspakets.
6.
Weitergehende Hilfe zu Google... Last but not least sei noch
darauf hingewiesen, dass unter der URL
http://www.google.de/intl/de/help.html
eine kurze Erläuterung der prinzipiellen Vorgehensweise bei der
Suche mit Google als Online-Hilfe zur Verfügung steht. Hier finden
sich nicht nur Suchtipps für Anfänger als auch
Fortgeschrittene, sondern auch Hinweise für die Auslegung von
Suchergebnissen. Da Google ständig verbessert und erweitert wird,
empfiehlt es sich selbst als erfahrener Google-"Veteran", von Zeit zu
Zeit die Hilfe einzusehen, um sich über möglicherweise neu
eingeführte Features zu informieren, die die Suche im Netz
erleichern.
Quelle:
http://www.uni-koeln.de/rrzk/www/suche/google.html | Sven
Clever, RRZK der Universität zu Köln
Alles wichtige über Suchmaschinen
Der Erfolg von Google hat
viele Gründe. Der Wichtigste: Google glänzt mit
hervorragenden Suchfunktionen. Anfangs durchsuchte Google
ausschließlich HTML-Web-Seiten – mittlerweile wertet die Suchmaschine
auch PDF-Dokumente aus, recherchiert in Newsgroups
und hilft beim gezielten Aufspüren von Bildern.
Dazu beigetragen hat
auch, dass Google eine reine Suchmaschine (geblieben) ist. Die
Betreiber haben nicht den Fehler einiger Konkurrenten begangen, ihren
Dienst zu einem Allzweckportal mit Mail- und Shopping- Diensten
auszubauen, wie es etwa Altavista und Lycos
versucht haben. Die Beschränkung auf ihre Hauptaufgabe macht
Google schlank und schnell. Weder Werbebanner noch Info-Overload
verstellen den Blick auf das Wesentliche – das Feld für die
Eingabe der Suchbegriffe. Geld verdient Google mit Sponsored
Links, die sich Firmen für bestimmte
Schlüsselwörter kaufen können, und mit der Vergabe von
Lizenzen für die Google-Technik an andere Unternehmen.
Googles Geheimrezept:
Page-Rank-Bewertungsverfahren
Der Grund dafür, dass
die Engine selbst bei komplizierten Suchanfragen unter den ersten
Treffern so gut wie immer relevante Ergebnisse liefert, liegt im
Bewertungsverfahren – dem Page Ranking. Eine Reihe von Suchmaschinen
zieht ausschließlich den Inhalt des indizierten Dokuments
für die Bewertung heran. Das heißt: Für die Einordnung
der Suchergebnisse ist allein ausschlaggebend, an welchen Stellen und
wie oft die Suchbegriffe enthalten sind. Je öfter beispielsweise
ein Begriff in einem Dokument auftaucht, umso weiter oben wird die
Seite einsortiert.
Google hingegen bewertet
außerdem, wie viele Links es im Internet
auf die entsprechende Site gibt. Google sortiert die Trefferlisten also
auch danach, wie oft auf eine Web-Seite
von anderen Web-Seiten aus verlinkt wird. Das Grundprinzip: Google
interpretiert einen Link von Seite A auf Seite B als eine Stimme von
Seite A für Seite B. Aus der Anzahl der für eine Seite
abgegebenen Stimmen geht die Wichtigkeit dieser Seite hervor. Eine
Seite, die 1000 „Stimmen“ aufweist, steht daher im Ranking weiter oben
als eine Seite, die nur 600 „Stimmen“ hat. Dieses Grundprinzip
verfeinert Google allerdings noch, indem es nicht einfach die Anzahl
der Links zählt, sondern jeden Link auch nach dem Inhalt der Seite
gewichtet, auf der er platziert ist.
Im Lauf der Zeit hat
Google seinen Ranking-Algorithmus immer mehr verbessert. So nutzt der
Suchdienst mittlerweile auch ausgeklügelte Textanalysetechniken,
um das Umfeld der Suchbegriffe zu untersuchen. Bei der Bewertung der
entsprechenden Seiten ist dann nicht mehr nur ausschlaggebend, ob diese
von vielen anderen Seiten verlinkt werden, sondern auch, ob die auf
diese Seite verweisenden Websites etwas mit dem grundlegenden Thema der
Suchanfrage zu tun haben. Ist das nicht der Fall, handelt es sich
nämlich in der Regel nur um einen entfernt relevanten Link, der
von der Suchmaschine als solcher bewertet und nicht oder nur am Rande
berücksichtigt wird.
Anbieterkonzentration: Nur noch wenige
unabhängige Suchmaschinen
Die meisten Anwender
nutzen (fast) ausschließlich Google, auch wenn sie auf Nachfrage
ohne langes Nachdenken unzählige andere Suchmaschinen wie
Altavista, Lycos, Firebird oder die Suchdienste bei AOL, T-Online und
MSN nennen könnten.
Technisch gesehen gibt
es ohnehin nur noch zwei Hauptanbieter: Google und jetzt Overture, das
gerade vor kurzem Altavista und Fast aufgekauft hat und inzwischen zum
Yahoo-Konzern gehört. Dazu kommen noch Alltheweb, Inktomi, Teoma
und Wisenut, die inzwischen allesamt von Yahoo übernommen wurden.
Doch nun droht dem
Marktführer Konkurrenz. Zum einen wurden traditionelle
Suchmaschinen wie Altavista mit neuen Techniken aufgerüstet. Zum
anderen sind neue Suchprojekte – etwa Kartoo, Teoma und Wondir –
entstanden, die Google mit einer benutzerfreundlicheren
Bedienerführung, einer verbesserten Suchtechnik oder schlichtweg
mit relevanteren Fundstellen Paroli bieten möchten.
Wisenut:
In Sachkategorien
eingeteilte Treffer
Ebenso
aufgeräumt wie Google wirkt Wisenut
, das auch einen vergleichbaren Suchalgorithmus verwendet. Das
„WiseRank“ zieht für die Bewertung sowohl die Link-Struktur unter
den Dokumenten als auch den Inhalt der Seiten, auf denen die Links
stehen, heran.
Außerdem
prüft Wisenut mit Textanalyse das Wortumfeld des Suchbegriffs, um
sicherzugehen, dass beim Ranking diejenigen Seiten ganz oben stehen,
die sich tatsächlich intensiv mit Themen rund um die Suchbegriffe
befassen. Damit liefert Wisenut ähnlich gute Ergebnisse wie
Google, auch wenn der indizierte Datenbestand nach Angaben des
Betreibers noch nicht an den von Google heranreicht.
Im Unterschied zu Google
teilt Wisenut die gefundenen Treffer in Kategorien ein. Dazu sucht es
nicht nur nach den eingegebenen Begriffen, sondern kategorisiert
zusätzlich nach Analyse der Treffer nach weiteren Wörtern,
die in mehreren Dokumenten gleichzeitig enthalten sind.
So unterteilt Wisenut
die Treffer beim Stichwort „Madonna“ etwa in „World Tour“,
„Konzertkarten“ und „Bilder“. Zwar sind die Kategorien nicht immer
optimal gewählt, doch insgesamt ist die Technik gerade bei solchen
Anfragen von Nutzen, bei denen es Treffer in Hülle und Fülle
gibt.
Teoma: Suche mittels Subject
Specific Popularity
Zu den
schärfsten
Google-Konkurrenten zählt Teoma
. Grund hierfür ist zum einen das
Subject-Specific-Popularity-Verfahren, auf dessen Basis Teoma die
Relevanz einer Site bewertet. Diese Technik ist eine Weiterentwicklung
von Googles Page-Rank, mit dem der Marktführer misst, wie viele
Links es auf eine Seite gibt.
Teoma erfasst mit diesem
Verfahren, wie oft Websites
von Fachleuten auf eine bestimmte Website
verlinken. Das Ranking-Verfahren basiert auf der Annahme, dass die
Websites von Experten – damit sind Seiten gemeint, die sich intensiv
mit einem bestimmten Thema beschäftigen – in der Regel relevante
Links zu anderen Websites mit demselben Thema kennen.
Ein Beispiel: Wenn viele
Professoren-Websites auf die Website einer bestimmten Universität
verweisen, dann muss die Universität unter Wissenschaftlern einen
guten Ruf genießen. Wenn dagegen viele Studenten mit ihren Sites
auf dieselbe Universität verlinken, sagt das über die
wissenschaftliche Reputation nicht sonderlich viel aus. Die
Subject-Specific- Popularity-Technik erkennt diesen Unterschied, das
Page-Rank dagegen nicht.
Für sein
Ranking-Verfahren teilt Teoma das Netz
in Themengebiete (Communities) auf und sucht für die einzelnen
Communities nach zentralen Expertenseiten. Hierfür sammelt Teoma
alle Seiten, in denen die eingegebenen Suchbegriffe enthalten sind oder
wo entsprechende Links vermuten lassen, dass sie wichtig sind. Diese
Sammlung an Websites bildet dann eine Themen-Community. Für das
Ranking zieht Teoma dann ausschließlich Verweise zwischen
Community-Mitgliedern heran und führt eine Klassifizierung der
Suchergebnisse innerhalb der Community durch. Dazu sucht Teoma
innerhalb einer Community nach Sites, die wechselseitig aufeinander
verlinkt sind. Den Text der gefundenen Sites durchsucht die Suchmaschine
nach den häufigsten Wörtern und erzeugt damit die Bezeichnung
der Gruppe.
Teoma erkennt zu jeder
vom Anwender gestarteten Suchanfrage, auf welche Websites mit den
gesuchten Begriffen die jeweiligen Fachexperten-Websites verlinken, und
folgert daraus, dass diese Websites sehr relevante Inhalt bieten. Also
listet sie Teoma bei der Anzeige der Fundstellen auf den vorderen
Positionen auf.
Bei der Darstellung der
Fundstellen verwendet Teoma einen innovativen Ansatz, der sich deutlich
von der Anzeige der Suchergebnisse bei Google unterscheidet. Dabei
teilt die Suchmaschine die Resultate in drei Gruppen ein: in eine
Trefferliste („Results“), in weiterführende Schlagwörter
(„Refine“) und in themenspezifische Expertenseiten („Resources“).
Die Trefferkategorie
„Results“ beherbergt die traditionelle und von Google bekannte
Trefferliste. Sie zeigt wie bei Google die konkreten Ergebnisse der
Suchanfrage. Um die Suchanfrage weiter einzugrenzen, muss der Anwender
auf einen der Überbegriffe klicken, die sich in der Kategorie
„Refine“ befinden. Teoma ergänzt daraufhin die Anfrage um diesen
Begriff und startet die Suche neu. Der Schwerpunkt von Teoma liegt
jedoch bei den Treffern in der „Resources“- Kategorie: Hier zeigt der
Suchdienst passend zum jeweiligen Suchthema die wichtigsten allgemeinen
Web-Seiten
Wondir: Fünf
Suchmethoden für fünf Quellenarten
Hinter Wondir steht kein
wirtschaftliches Interesse, sondern eine gemeinnützige
Organisation, die nach eigener Aussage für mehr Wissenstransfer
sorgen will. Die Betreiber bekunden, dass sie keine
Treffereinträge verkaufen. Die Suchresultate sollen dadurch frei
von kommerziellen Einflüssen sein.
Wondir bietet dem
Anwender fünf Quellen: Frage- und Antwort-Datenbanken („Related
Questions With Answers“), Nachrichtenarchive („News Articles“),
Newsgroups und Mailinglisten („News Groups & Mailing Lists“),
Fachleute („People To Ask“) und das World Wide Web, das Wondir per
Meta- Suche erschließt („Web Resources“).
Wondir sucht also nicht
selber per Volltextrecherche, sondern greift auf mehrere populäre
Suchmaschinen zurück, beispielsweise auf Google, Alltheweb und
Altavista. Deren Ergebnisse bereitet Wondir auf und stellt daraus eine
Trefferliste zusammen. Daneben zeigt Wondir eine Auswahl relevanter
Newsgroups und Mailinglisten zum Suchbegriff an und vermittelt
kostenlose Mailkontakte zu von der Suchmaschine registrierten Experten
eines Themas.
Außerdem
verfügt Wondir über eine große Fragen- und
Antwort-Datenbank mit passenden Einträgen zu vielen Suchbegriffen.
Weitere Treffer ermittelt Wondir durch eine Übersicht der
relevanten News-Artikel zu dem vom Anwender eingegebenen Suchbegriff.
Gerade bei komplizierten
Recherchen lohnt es sich oft, auf Wondir zurückzugreifen.
Kartoo: Grafische
Trefferansicht der Resultate

Der Suchdienst Kartoo
nutzt eine Meta-Anfrage bei allen wichtigen Volltextsuchmaschinen von
Google bis Fireball. Das Besondere: Kartoo bereitet die Treffer visuell
auf.
Neben einer normalen
Trefferliste zeichnet die Suchmaschine
eine Ergebniskarte, auf der jede Web-Seite
als Punkt und jede Verlinkung zwischen den Web-Seiten als
Verbindungslinie erscheint. Je größer ein Punkt ist, desto
relevanter ist die Website.
Bei der Suche selbst
baut Kartoo auf einen neuartigen Ansatz: das Clustering, also ein
gezieltes Zusammenführen thematisch verwandter Seiten. Das
heißt, Kartoo bietet zu jeder Anfrage Schlagwörter, die die
Suche weiter eingrenzen.
So zeigt der Suchdienst
beispielsweise zu allgemeinen Anfragen wie nach „Boris Becker“ unter
anderem die Überbegriffe („Themen“) „Tennis“, „Biografie“ und
„Triumph und Scheitern“ an. Kartoos Cluster- Technik ist die
Voraussetzung dafür, dass der Anwender die Schlagworte direkt in
der Suchkarte angezeigt bekommt. Die Kartendarstellung sorgt für
einen guten Themenüberblick. Zum Umblättern zur nächsten
Trefferkarte klicken Sie einfach mit der Maus
auf die Schaltfläche „nächste Karte“.
Neben der
charakteristischen Kartendarstellung bietet Kartoo für seine
Top-Treffer auch die Darstellung als klassische Ergebnisliste. Wie bei
allen anderen Suchdiensten ist diese Liste nach Relevanz sortiert: Das
Wichtigste kommt immer zuerst.
Wollen Sie die Suche
weiter eingrenzen, klicken Sie bei der Anzeige der Treffer einfach
eines der angebotenen Schlagwörter an. Am rechten oberen
Fensterrand der Ergebnisdarstellung liegt die Optionsleiste. Damit
steuern Sie die Darstellung (mit oder ohne Link-Linien), legen fest,
welche Suchmaschinen
Kartoo verwenden soll, und speichern die Ergebnisse.
Yahoo:
Vom Web-Katalog in
Richtung Web-Suchdienst
Bei der Suche nach bestimmten
Begriffen sind Volltextsuchmaschinen manchmal einfach nicht das
geeignete Mittel. Wer über ein allgemeines Thema – beispielsweise
eine Sportart – recherchiert, bekommt so viele Treffer serviert, dass
das Sichten und Prüfen der Fundstellen de facto sinnlos ist.
Denn trotz aller
mathematischer und statistischer Verfahren können Suchmaschinen,
anders als Menschen, nicht über die Substanz und den
Wahrheitsgehalt einer Information entscheiden, die sich auf einer
Website findet. Bei allgemeinen Themen sollten Sie daher zunächst
per Web-Katalog recherchieren, also mittels eines von Redakteuren
erstellten Link- Katalogs. Der populärste Web-Katalog dürfte Yahoo sein.
Doch Yahoo bietet
mittlerweile noch mehr: Seit dem Kauf der Volltextsuchmaschine Inktomi
stellt das Web-Portal von Yahoo Anwendern eine Art Komfortsuche zur
Verfügung, die klassische Katalogeinträge mit den Treffern
von Inktomi sowie Suchergebnissen von Partnersuchdiensten verbindet.
Damit bietet Yahoo als derzeit einziger Suchdienst ein katalogbasiertes
Web-Portal mit eigener Volltexttechnik und zugekauften Suchergebnissen
anderer Anbieter.
Turbo 10: Blick in die
Tiefen des Webs
Die Webspider von
Volltextsuchmaschinen wie Google oder Alltheweb können nur einen
Teil des Webs absuchen. Bei vielen Web-Seiten
stehen Volltext-Webspider vor verschlossenen Türen und können
die Seiteninhalte nicht richtig herunterladen – und infolgedessen auch
nicht im Index speichern.
Der erste Grund:
Webspider brauchen möglichst reinen HTML-Code. Nicht erfassen
können sie beispielsweise vollständig grafisch erstellte
Sites („Flash-Sites“), dynamische Sites, die auf speziellen
Datenbanksystemen basieren, und Sites, die bei der Benutzernavigation
vorwiegend auf Grafiken („Image Maps“) oder Scripts setzen.
Ein weiterer Grund liegt
in der Verzeichnisstruktur mancher Websites.
Die Spider der Suchmaschinen
sind darauf ausgerichtet, Inhalte von Web-Seiten zu erfassen und
über Links die folgenden Web-Seiten anzusteuern. Da sie kein
Navigationssystem besitzen, können bei Web-Seiten mit tiefen
Verzeichnisstrukturen Probleme auftreten.
Es kann sein, dass der
Spider sich verläuft, nicht alle Seiten erfasst und nicht mehr
zurück zur Startseite findet. Deshalb berücksichtigen
Suchmaschinen meist maximal fünf oder sechs Verzeichnisebenen,
viele Spider gehen sogar nur bis zur zweiten Verzeichnisebene. Die in
den tieferen Ebenen liegenden Web-Seiten bleiben für Suchmaschinen
daher in der Regel unsichtbar („Invisible Web“ oder „Deep Web“).
Die Suchmaschine Turbo 10
hat sich genau auf diesen Teil des Webs spezialisiert. Sie versucht,
mittels spezieller, als „Trawler“ bezeichneter Algorithmen systematisch
Internet-Datenbanken abzufragen und mit den Ergebnissen einer
Meta-Suche bei anderen Suchdiensten zu verknüpfen. Damit sollen
sich auch solche Inhalte per Suchmaschine
recherchieren lassen, die robotbasierte Maschinen wie Google
normalerweise nicht indizieren.
Suchmaschinen,
Optimieren & Eintragen mit Web500