Crawl Caching Proxy
26. April 2006 in GoogleIm Zusammenhang mit der vor einigen Tagen gemachten Entdeckung, dass auch Seiten im Index erscheinen, die vom Mediabot gespidert wurden, hat Matt Cutts über den von Google eingesetzten Crawl Caching Proxy geschrieben. Im Zuge der Umstellung auf die Bigdaddy-Architektur wurde dieser Cache eingeführt um die genutzte Bandbreite zu minimieren. Ein weiteres Mittel um dieses Ziel zu erreichen ist die verbesserte gzip-Unterstützung des Bigdaddy-Googlebots.
Der neue Cache bewirkt, dass einmal gespiderte Seiten auch für andere Google-Dienste bereitgestellt werden und eine Seite nicht mehrmals gespidert werden muss. Wie schon vorher festgestellt beeinflusst aber ein Service trotzdem nicht den anderen. Matt Cutts weisst ausserdem darauf hin, dass die robots.txt trotzdem von den verschiedenen Diensten beachtet wird. Google hat nun auch die betreffenden Antworten in der FAQ aktualisiert.
Kommentare deaktiviert





