Google Dance - Das Index-Update der Suchmaschine Google - Druckversion +- net-board.net Archiv (https://net-board.net) +-- Forum: Pause vom Designen und Coden (https://net-board.net/forumdisplay.php?fid=10) +--- Forum: Laberecke (https://net-board.net/forumdisplay.php?fid=5) +--- Thema: Google Dance - Das Index-Update der Suchmaschine Google (/showthread.php?tid=617) |
Google Dance - Das Index-Update der Suchmaschine Google - SunSonic - 30.09.2002 Google Dance - Das Index-Update der Suchmaschine Google Die Bezeichnung "Google Dance" ist eine vielerorts anzutreffende Umschreibung des Verhaltens der Suchmaschine Google im Laufe eines Index-Updates. Das Index-Update erfolgt im Schnitt einmal pro Monat und zeigt sich vor allem dadurch, dass Google's kompletter Cache indexierter Seiten diese zum Stand des letzten Spiderns widerspiegelt und dass sich deutliche Veränderungen in den Suchergebnissen feststellen lassen. Dabei erfolgt das Update jedoch nicht im Sinne eines Umschaltens von einem alten Index auf einen neuen. Vielmehr erstreckt sich das Update über mehrere Tage, wobei sich Resultate aus dem alten und dem neuen Index auf http://www.google.com stets abwechseln. Zunächst erscheinen Ergebnisse aus dem neuen Index nur sporadisch. Später tauchen sie immer häufiger auf. Google "tanzt". Der jeweilige Beginn der Index-Updates vergangener Monate wurde von Brett Tabke, dem Administrator der WebmasterWorld, übersichtlich zusammengestellt. Der letzte Google Dance ist gerade abgeschlossen. Er verlief in der Zeit vom 26.09.2002 bis zum 29.09.2002. Der nächste Google Dance wird voraussichtlich gegen Ende Oktober stattfinden. Über seinen Verlauf wird dann wiederum an dieser Stelle berichtet. Vor allem aber soll hier beschrieben werden, weshalb Google tanzt. Die technischen Hintergründe des Google Dance Die Suchmaschine Google liefert Suchergebnisse von mehr als 10.000 Servern, bei denen es sich um schlichte Linux-PCs handelt, die Google in erster Linie aus Kostengründen einsetzt. Ein Index-Update kann dabei natürlich nicht auf allen Servern gleichzeitig erfolgen. Der neue Index muss sukzessive auf den einzelnen Servern aufgespielt werden. Es herrscht weithin die Vorstellung, dass Google während des Google Dance in irgendeiner Form intern steuert, ob auf eine Suchanfrage hin ein Server mit neuem oder ein Server mit altem Index antwortet. Da jedoch Google einen inversen Index nutzt, wäre die sehr kompliziert. Wie später gezeigt wird, findet auch tatsächlich keine derartige Steuerung innerhalb des Systems statt. Vielmehr liegt die Ursache für den Google Dance in Google's Nutzung des Domain Name Systems (DNS). Google Dance und DNS Es ist nicht nur Google's Index auf viele tausend Server verteilt, diese Server befinden sich zudem in derzeit sieben Rechenzentren. Sie liegen hauptsächtlich in den USA (z.B in Santa Clara, Kalifornien und Herndon, Virginia), im Juni 2002 ging allerdings Google's erstes eurpäisches Rechenzentrum in Zürich (Schweiz) online. Es ist für die Zukunft mit weiteren - eventuell über den Globus verstreuten - Rechenzentren zu rechnen. Nun wäre es theoretisch denkbar, dass sämtliche Suchanfragen zentral erfasst und dann an die einzelnen Rechenzentren verteilt werden. Dies ist allerdings offensichtlich ineffizient. Jedes Rechenzentrum hat vielmehr eigene IP-Adressen - also eigene numerische Adressen innerhalb des Internets - und die Art und Weise, wie auf diese IP-Adressen zugegriffen wird, regelt das Domain Name System. Das DNS funktioniert grundsätzlich folgendermaßen: Datentransfers erfolgen im Internet immer nur zwischen IP-Adressen. Informationen darüber, welche Domain zu welcher IP-Adresse auflöst, halten die Name Server des DNS bereit. Gibt ein Nutzer eine Domain in seinen Browser ein, ermittelt der lokal konfigurierte Name Server die dazugehörige IP-Adresse, indem er den für die jeweilige Domain zuständigen Name Server kontaktiert. (Dabei ist das DNS hierarchisch strukturiert. Eine Wiedergabe des exakten Vorgangs würde an dieser Stelle jedoch zu weit führen.) Diese IP-Adresse wird dann im lokal konfigurierten Name Server gecached, damit nicht bei jeder Verbindung wiederum eine Anfrage über das DNS erfolgen muss. Für jede Domain wird dabei festgelegt, wie lange sie im Cache eines Name Servers verbleiben darf. Dieser Wert ist die Time To Live (TTL) einer Domain. Sobald die TTL abgelaufen ist, muss ein Name Server die IP-Adresse wiederum über das DNS beim zuständigen Name Server anfordern. Oft wird die TTL auf einen oder mehrere Tage festgelegt. Im Falle der Domain http://www.google.com ist die Time To Live jedoch mit 5 Minuten wesentlich kürzer. Damit dürfen Name Server die IP-Adresse der Domain http://www.google.com nur fünf Minuten cachen und müssen sie dann wieder beim zuständigen Name Server Google's anfordern. Google's Name Server gibt bei Anfragen die IP-Adresse von nur einem Rechenzentrum zurück. Suchanfragen an Google werden also an ständig wechselde Rechenzentren gerichtet. Die Verteilung der Name-Server-Einträge dürfte dabei einerseits auf der Auslastung der einzelnen Rechenzentren basieren. Damit würde Google eine grobe Form des Load Balancing über das DNS durchführen. Andererseits lassen Tests für unterschiedliche Name Server darauf schließen, dass die geographische Lage eines Name Servers Einfluss darauf hat, welche IP-Adressen er relativ häufiger erhält. Auf diese Weise können die Datenübertragungsstrecken reduziert werden. Die DNS-Einträge für http://www.google.com können hier am Beispiel eines ausgewählten Name Servers verfolgt werden. Der Zusammenhang zwischen Rechenzentren, DNS und Google Dance ist einfach: Im Zuge des Google Dance erhalten nicht alle Rechenzentren gleichzeitig den neuen Index. Es wird vielmehr in einem Rechenzentrum nach dem anderen der neue Index auf den Servern aufgespielt. Stellt ein Benutzer während des Google Dance eine Suchanfrage an Google, so kann er zu einem Zeitpunkt noch das Ergebnis von einem Rechenzentrum erhalten, das noch den alten Index nutzt, und bereits nach wenigen Minuten erhält er das Ergebnis auf die selbe Suchanfrage hin von einem Rechenzentrum, das den neuen Index nutzt. Für ihn hat sich das Update scheinbar binnen weniger Minuten und auf einen Schlag vollzogen. Dieser Vorgang kann sich natürlich auch umkehren, so dass Google scheinbar laufend zwischen dem alten und dem neuen Index wechselt. IP-Adressen und Domains der einzelnen Rechenzentren Der Verlauf des Google Dance könnte grundsätzlich durch Suchanfragen bei den IP-Adressen der jeweiligen Rechenzentren erfolgen. In der Regel werden jedoch bei Suchanfragen die IP-Adressen auf http://www.google.com umgelenkt. Google hält allerdings für die einzelnen Rechenzentren eigene Domains bereit, die stets zu den jeweiligen IP-Adressen auflösen. Diese Domains und ihre entsprechenden IP-Adresses können der folgenden Auflistung entnommen werden. Domain IP-Adresse www-ex.google.com 216.239.33.100 www-sj.google.com 216.239.35.100 www-va.google.com 216.239.37.100 www-dc.google.com 216.239.39.100 www-ab.google.com 216.239.51.100 www-in.google.com 216.239.53.100 www-zu.google.com 216.239.55.100 Neben den Domains der Form www-xx.google.com existieren zusätzlich entsprechende Domains www-xx2.google.com. Die jeweilige IP-Adresse einer Domain der Form www-xx2.google.com endet auf .101 anstatt auf .100. Über die beiden Domains bzw. IP-Adressen eines jeden Rechenzentrums wird stets der gleiche Index angesprochen. Beobachter des Google Dance vermuten oft, dass das Index-Update abgeschlossen ist, sobald sie den neuen Index auf http://www.google.com entdecken bzw. wenn sie den alten Index für eine gewisse Zeit nicht mehr auf http://www.google.com sehen können. Letztlich ist das Update jedoch erst abgeschlossen, wenn keine der oben aufgelisteten Domains mehr Resultate aus dem alten Index aufweist. Das Update eines jeweiligen Rechenzentrums erfolgt scheinbar von einem Moment auf den anderen. Sobald ein Rechenzentrum einmal den neuen Index präsentiert, werden von dort keine Ergebnisse aus dem alten Index mehr geliefert. Dies ist lediglich so zu erklären, dass Google's Index mehrfach redundant in einem Rechenzentrum vorgehalten wird. Zunächst wird nur ein Teil (eventuell die Hälfte) aller Server eines Rechenzentrums mit dem neuen Index versehen. Für diesen Zeitraum wird bei Suchanfragen nur der andere Teil der Server angesprochen. Ist das Update des einen Teils der Server abgeschlossen, wird bei Suchanfragen nur dieser Teil der Server angesprochen, während der andere Teil der Server den neuen Index erhält. Für den Benutzer vollzieht sich dass Update eines Rechenzentrums dann zu genau einem Zeitpunkt. Anzumerken bleibt letztlich, dass der Zugriff auf die einzelnen Rechenzentren generell über das DNS gesteuert wird, zum Teil jedoch auch Suchanfragen gezielt weitergeleitet werden. Dies ist allerdings leicht zu erkennen: Wenn bei einer Suche auf einer der oben aufgelisteten Domains der Link zu Google's Cache des Suchergebnisses nicht auf die der Domain entsprechenden IP-Adresse verweist, ist die Suchanfrage weitergeleitet. Sobald das passiert, verhindert Google - aus welchen Gründen auch immer - den Zugriff auf ein bestimmtes Rechenzentrum. Die Google Dance Testdomains www2 und www3 Der Beginn eines Google Dance kann stets anhand der beiden Testdomains www2.google.com und www3.google.com beobachtet werden. Den beiden Domains ist im Zeitablauf relativ fix jeweils eine (oft die gleiche) IP-Adresse zugeordnet. Vor Beginn des Google Dance wird zumindest einer der beiden Domains über das DNS die IP-Adresse desjenigen Rechenzentrums zugewiesen, dessen Server den neuen Index zuerst erhalten. Der monatliche Aufbau eines komplett neuen Index ist mit vielen Risiken verbunden. Schließlich muss Google in kürzester Zeit einige Milliarden Dokumente spidern und anschließend viele TeraByte Daten verarbeiten. Damit sind Tests eines neuen Index unumgänglich. Natürlich benötigen nicht die Google-Mitarbeiter selbst die Domains www2.google.com und www3.google.com zu Testzwecken. Sie haben sicherlich die verschiedensten Möglichkeiten ihren Index zu überprüfen, wobei sie allerdings starken zeitlichen Restriktionen unterworfen sind. Ein neuer Index wird also vielmehr über Testdomains einer interessierten Öffentlichkeit zugänglich gemacht, die sich in den verschiedensten Foren intensiv über die jeweiligen Index-Updates austauscht. Dieser Austausch kann dann von Google-Mitarbeitern verfolgt werden. Dabei bleibt das Update der allgemeinen Öffenlichkeit zunächst weitestgehend verborgen, da Google's Name Server vor Beginn des Updates in der Regel so eingestellt wird, dass http://www.google.com nicht mehr zu der IP-Adresse desjenigen Rechenzentrums auflöst, das den neuen Index zuerst erhält. Sobald auch der gar nicht so kleinen Gruppe von Testnutzern keine groben Fehlfunktionen durch das Index-Update auffallen, wird Google's Name Server wieder so eingestellt, dass http://www.google.com auch wieder auf die IP-Adresse desjenigen Rechenzentrums aufgelöst wird, dass den neuen Index zuerst erhalten hat, und der Google Dance beginnt. Sollten sich beim Test des neuen Index durch die Nutzer allerdings gravierende Fehlfunktionen zeigen, besteht grundsätzlich die Möglichkeit, das Update der anderen Rechenzentren erst gar nicht einzuleiten. Die Domain http://www.google.com würde nicht auf die IP-Adresse des Rechenzentrums mit dem fehlerhaften Index auflösen und die Fehlfunktionen blieben der breiten Öffentlichkeit verborgen. In diesem Falle könnte der Index neu aufgebaut oder aber gegebenenfalls das Web neu gespidert werden. Die Suchergebnisse die sich vor Beginn des eigentlichen Google Dance auf www2.google.com bzw. www3.google.com zeigen, werden bei einem reibungslosen Update zu einem späteren Zeitpunkt also stets auch auf http://www.google.com erscheinen. Dabei können sich allerdings immer noch geringfügige Fluktuationen ergeben. Zum einen gleicht der Index des einen Rechenzentrums nie exakt dem eines anderen. Dies lässt sich oft sehr leicht an der Anzahl der Suchergebnisse für beliebige Suchanfragen bei den weiter oben aufgelisteten Domains der einzelnen Rechenzentren ablesen. Zum anderen wird oft vermutet, dass die iterative PageRank-Berechnung beim ersten Aufspielen eines neuen Index nicht komplett abgeschlossen ist, so dass zunächst lediglich vorläufige Werte in die Rankings eingehen. Die neuen PageRank-Werte im Laufe des Google Dance Natürlich sind Positionsveränderungen der eigenen Seiten nach Beginn des Google Dance das wichtigste für jeden Webmaster. Daneben interessieren sich die meisten jedoch auch für die Entwicklung der PageRank-Werte ihrer Seiten. Bei der Abfrage der PageRank-Werte über die Google Toolbar kontaktiert diese jedoch in der Regel das Rechenzentrum, welches gerade im DNS-Eintrag für http://www.google.com festgelegt ist. Somit werden gerade zu Beginn des Google Dance meist die alten PageRank-Werte angezeigt. Für dieses Problem existiert allerdings eine Lösung. Google übermittelt den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel zu Textdateien fand im August 2002 statt. Die PageRank-Dateien können direkt von der Domain http://www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche): http://www.google.com/search? client=navclient-auto& ch=0123456789& features=Rank& q=info:http://www.domain.com/ Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die letzte Ziffer in dieser Zeile. Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert "navclient-auto" für den Parameter "client" die Toolbar. Mit dem Parameter "q" wird die abgefragte URL übermittelt. Der Wert "Rank" für den Parameter "features" legt fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter "ch" wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann. Die von der Toolbar abgerufenen PageRank-Dateien werden vom Internet Explorer gecached. Ihre jeweilige URL sowie die entsprechende Prüfsumme kann also im Ordner Temporary Internet Files eingesehen werden. Damit können die PageRank-Dateien direkt im Browser betrachtet werden. Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen einsehbar sind und die Abfrage nicht automatisiert erfolgt, sollte ein direkter Einblick keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an Google. Es ist: Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10) Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird. Nun aber dazu, wie die neuen PageRank-Werte in Erfahrung zu bringen sind: Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht von der Domain http://www.google.com, sondern von IP-Adressen wie z.B. 216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren Parameter "failedip" mit Werten wie z.B. "216.239.35.102;1111", dessen Bedeutung nicht ganz klar ist. Es ist allerdings recht einfach, an die neuen PageRank-Werte zu gelangen: In der URL sind lediglich die IP-Adressen so zu modifizieren, dass Anfragen an ein Rechenzentrum gerichtet werden, dass bereits das Index-Update erhalten hat. Die erforderlichen Informationen hierzu finden sich weiter oben. Google und PageRank sind geschützte Marken der Google Inc., Mountain View CA, USA. Sämtliche Inhalte dieser Website können im WWW wiedergegeben werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und ein direkter HTML-Link auf die entsprechende Seite unter dance.efactory.de gesetzt wird. - Kameltreiber - 30.09.2002 AHA :na_und: Du bist soeben mit dem längsten Forumeintrag in die Geschichte des Netboards eingegangen - screenyfs - 30.09.2002 Wow! 8o Ich werds mir nachher mal angucken. Mein Bruder macht grad Stress, der will an den Computer - MasterP - 30.09.2002 Das kann man laut sagen! @screeny wenn dein bruder Strss macht dann hau ihm paar auf's maul, dass was bei meinen Bruder nett geht! - screenyfs - 30.09.2002 Mein Bruder bringt immer so geniale Sachen: Macht 1 Minute bevor ich dran bin ein Internetspiel auf und sagt er dürfte das noch zuende spielen |