Dann werden da "unwichtige" Sachen herausgeworfen, und der Rest indiziert und nach einem Schema gewichtet, das viele gerne wüssten
Wahrscheinlich wissen es die Meisten schon: Angeblich wird nach Relevanz sortiert. Das ist aber gar nicht möglich, da das Internet dazu viel zu doof ist. Es arbeitet im Prinzip immer noch mit den aus BTX-Zeiten bekannten Seitennummern und bietet keine Möglichkeit, eine Seite dahingehend zu kennzeichnen, welcher Art die darin befindliche Information ist. Diese Kennzeichnung - und deren Abgleich mit dem Anliegen des Suchenden - wäre jedoch erforderlich, um festzustellen, ob eine Seite überhaupt ein Fünkchen Relevanz aufweisen kann. Denn oft genug ist der Suchbegriff mehrdeutig. Wenn ich z. B. sage "die Daimler-Homepage besitzt höchste Relevanz, wenn es um den Namen Mercedes geht", dann ist das etwa so richtig wie die Aussage "Agathis klingt nicht". Richtig wäre z. B. "... besitzt höchste Relevanz unter denjenigen Betreibern, die den Begriff Mercedes als Warenzeichen verwenden" oder "Agathis klingt nicht nach Carbonfiber".
Also hat man sich überlegt, ob man die Seiten nicht nach Beliebtheit oder Kompetenz sortieren könnte. Alle Seiten, die den Suchbegriff verwenden, werden ungeachtet ihrer Relevanz in einen Topf geworfen und dann innerhalb dieser Auswahl eine Gewichtung vorgenommen. Je mehr andere Seiten auf eine Seite verlinken, umso mehr Leute scheinen mit den auf der verlinkten Seite enthaltenen Informationen zufrieden zu sein. Das wissen natürlich auch Leute, die etwas verkaufen wollen. Diese melden sich gern im erstbesten Internet-Forum an, nur um dort einen Link auf ihre Homepage zu posten, und machen dasselbe Spiel noch mit weiteren Foren, die ihnen nicht am Herzen liegen. Wenn also die fiktive Pornofirma Tinkerbell es schaffen sollte, längere Zeit unentdeckt ein Forum nach dem anderen zu "kapern", erscheint sie irgendwann zuoberst in der Liste, und Leute, die etwas über die gleichnamige Zeichentrick-Elfe lesen wollen, werden in die Irre geführt. Es bedarf wohl keiner Erwähnung, dass Pornoseiten alles andere als relevant sind, wenn es um Märchenfiguren geht.
Damit eine Seite aber überhaupt gefunden wird, muss der gesuchte Begriff darin erst einmal vorkommen. Das verleitet manche Seitenbetreiber zum Keyword-Spamming. Es werden also Begriffe aufgenommen, die mit der Seite nichts zu tun haben, um möglichst viele Besucher anzulocken. Früher wurden Seiten sogar um so höher gewichtet, je öfter der Suchbegriff darin vorkommt. Das führte dann zu einer anderen Art von Keyword-Spamming, bei dem die Betreiber ihre Seiten regelrecht mit demselben Suchbegriff vollgestopft haben. Inzwischen steigt die Gewichtung zwar noch an, wenn der Begriff in einem längeren Text mehr als einmal vorkommt, aber ab einer bestimmten Häufigkeit wird von Spam ausgegangen und die Gewichtung wieder reduziert.