Kategorien
Geeky In eigener Sache Meckerecke

Supplemental Index Hölle

Faszinierenderweise und durch Lum in den Kommentaren darauf gebracht, weiß ich nun, dass beinahe alle meine Artikel in Googles Supplemental Index Hölle gelandet sind. Warum auch immer … vor ein paar Monaten habe ich mal ein bisschen aufgeräumt und meine robots.txt und Metatags angepasst, damit Google&Co nicht immer die Kommentarfeeds und Kategorieseiten indizieren. Es hat gewirkt und fortan waren nur noch Artikel selbst und die Homepage des Blogs zu finden, siehe auch folgende Suchergebnisse: site:sebbi.de.

Jetzt zwar auch, aber scheinbar geht es um irgendeinen „Duplicate Content“, also Seiten die so ähnlich wie andere Seiten aussehen, bzw. die Irrelevanz der Seiten in Googles Augen. Dazu gibt es bei denen den sogenannten Supplemental Index, in den alle Seiten kommen, die nicht für den Hauptindex in Frage kommen. Darin sind fast alle meine Artikel gelandet: site:sebbi.de *** -dfgdf.

Ich verstehe zwar immer noch nicht wieso dann ein Artikel für „youporn“ überhaupt nicht mehr, für „you porn“ dafür aber an 3. Stelle gelistet wird. Ich weiß auch nicht, ob obige Suche tatsächlich die Ergebnisse des „Supplemental Index“ sind, denn ich habe kein Blog gefunden bei dem nicht fast alle Seiten dort angezeigt werden, auch die SEO Blogs da draußen haben alle Artikel in diesem Index, wenn diese Abfrage denn stimmt. Für spiegel.de werden dort interessanterweise sogar mehr Seiten aufgelistet als bei der normalen Abfrage. Komisch oder?

Was bleibt ist ein kleiner Verdacht, dass meine Homepage gegenüber einem Feed (der momentan als Ergebnis angezeigt wird) verloren hat, weil ich die Artikelzahl auf der Startseite von 10 auf 5 herabgesetzt habe. Außerdem stand bei jedem Artikel die gleiche Beschreibung in den Meta-Tags … vielleicht war das auch nicht so gut. Mal sehen wie sich diese Woche entwickelt, jetzt wo alles wieder zurückgedreht ist. Ich finde das jedenfalls nicht mehr so witzig, dass ich bei Google nur noch für einige Porn-Begriffe im Index auftauche und meine eigentlichen Artikel nicht mehr gefunden werden. Wehe, wenn der GoogleBot meine Webseite als Pornoseite abgestempelt hat und deswegen alles andere keinen Wert mehr haben soll :-(

Kategorien
In eigener Sache

Feeds und die robots.txt

Meine Suchfunktion rechts oben basiert ja nun seit ein paar Tagen auf Google und funktioniert so weit ganz gut. Gestern habe ich allerdings nach ein paar Sachen gesucht und mir wurden ständig die Kommentarfeeds verschiedener Artikel als Ergebnisse angezeigt („Comments on: blablabla“). Nicht gut, aber wie verhindert man so etwas?

Relativ einfach geht das mit der robots.txt. Denn entgegen der Spezifikation versteht zumindest der Googlebot auch Wildcards und so kann man recht elegant ungewolltes ausschließen. Meine robots.txt enthält denn auch folgende Einträge:


User-agent: *
Disallow: /wp-
Disallow: /blogger
Disallow: */trackback$
Disallow: */trackback/$
Allow: /wp-content/uploads
User-agent: Googlebot
Disallow: */feed$
Disallow: */feed/$

Das sorgt erstmal dafür, dass alle wp-Verzeichnisse ignoriert werden, aber die hochgeladenen Bilder trotzdem in der Bildersuche erscheinen. Dann wird die Blogger-Seite ausgeschlossen, weil ich nicht mit den Inhalten fremder Blogs gefunden werden will und schlussendlich werden alle Urls, die auf „trackback“ enden ignoriert. Und dann – speziell für den Googlebot – kommt der Hinweis, dass die Feeds ebenfalls ignoriert werden sollen. Testen kann man das verhalten des Googlebots übrigens hervorragend mit den Google Webmaster Tools.

Frank Helmschrott beschreibt in seinem Blog noch eine andere Möglichkeit und zwar über ein Plugin, das im Feed einen bestimmten Wert setzt, der scheinbar auch die Indizierung durch Suchmaschinen verhindert.

Übrigens halten sich Dienste wie Blogfox, Feedster und Blogpulse an die Regeln in der robots.txt. Schreibt man die Feedregeln also in den Abschnitt für alle Bots wird man also wahrscheinlich nichts mehr von solchen Diensten haben. Technorati scheint sich aber nicht daran zu halten … eigentlich eine Frechheit. Wie es mit dem oben genannten Plugin aussieht? Keine Ahnung … ich finde die robots.txt Variante eleganter und hoffe, dass die Suchergebnisse bald auch tatsächlich nur Artikel und nicht irgendwelche Feeds hervorbringen :-)