Oft beschweren sich Webmaster, dass ihre Seiten bei Google gelistet werden, obwohl das entsprechend deren robots.txt Dateien nicht gestattet wäre. Google Wizard Matt Cutts erklärt im folgenden Video, was genau passiert, und warum kein Fehler seitens der Suchmaschinen vorliegt.
[youtube=http://www.youtube.com/watch?v=KBdEwpRQRD0]
Zusammengefasst: ein “Disallow” in robots.txt wendet sich an die bots (Crawler) der Suchmaschinen, und teilt ihnen mit, dass die Seite nicht analysiert werden darf. Daran halten sich die bots auch. Damit allein ist aber die Suchmaschinen noch nicht angewiesen, gar nichts über die Seite zu wissen.
Schließlich werden ja auch andere Seiten analysiert, die auf die betreffende Seite mit Linktexten verweisen. Diese Linktexte werden unverändert ausgewertet, und lassen daher manche der gesperrten Seiten in Suchergebnissen auftauchen, obwohl die Seiten selbst nicht analysiert wurden. Nicht analysierte Seiten erkennt man meist daran, dass unter dem Titel in den Suchergebnisseiten kein Beschreibungstext zu lesen ist.
Mit Hilfe des Google Removal Tool bzw. mit Hilfe des “noindex”-Meta-Tags wird die Seite vollständig aus den Google-Suchergebnissen ausgeschlossen, also auch dann, auch wenn von anderen Webseiten auf sie verlinkt wird.


[...] Matt Cutts über uncrawled URLs in Google Suchergebnissen « Blog aus der E-Werkstatt ewerkstatt.wordpress.com/2009/10/06/matt-cutts-uber-uncrawled-urls-in-google-suchergebnissen – view page – cached Oft beschweren sich Webmaster, dass ihre Seiten bei Google gelistet werden, obwohl das entsprechend deren robots.txt Dateien nicht gestattet wäre. — From the page [...]