Eines der Tools zur Verwaltung der Indexierung von Websites durch Suchmaschinen ist die Datei robots.txt. Es wird hauptsächlich verwendet, um zu verhindern, dass alle oder nur bestimmte Roboter den Inhalt bestimmter Seitengruppen herunterladen. Auf diese Weise können Sie "Müll" in den Suchmaschinenergebnissen beseitigen und in einigen Fällen das Ranking der Ressource erheblich verbessern. Für eine erfolgreiche Anwendung ist es wichtig, die richtige robots.txt-Datei zu haben.
Notwendig
Texteditor
Anweisungen
Schritt 1
Erstellen Sie eine Liste von Robots, für die spezielle Ausschlussregeln festgelegt oder Richtlinien des erweiterten robots.txt-Standards sowie nicht standardmäßige und spezifische Richtlinien (Erweiterungen einer bestimmten Suchmaschine) verwendet werden. Geben Sie in diese Liste die Werte der User-Agent-Felder der HTTP-Request-Header ein, die von den ausgewählten Robots an den Site-Server gesendet werden. Die Namen der Roboter sind auch in den Referenzabschnitten der Suchmaschinen-Sites zu finden.
Schritt 2
Wählen Sie in der im ersten Schritt zusammengestellten Liste die URL-Gruppen der Site-Ressourcen aus, auf die jedem der Robots der Zugriff verweigert werden soll. Führen Sie die gleiche Operation für alle anderen Robots (einen unbegrenzten Satz von Indexierungs-Bots) durch. Mit anderen Worten, das Ergebnis sollten mehrere Listen sein, die Links zu Abschnitten der Site, Seitengruppen oder Quellen von Medieninhalten enthalten, die nicht indexiert werden dürfen. Jede Liste muss einem anderen Roboter entsprechen. Es sollte auch eine Liste verbotener URLs für alle anderen Bots geben. Erstellen Sie Listen basierend auf dem Vergleich der logischen Struktur der Site mit dem physischen Standort der Daten auf dem Server sowie durch Gruppieren der URLs der Seiten nach according ihre funktionalen Eigenschaften. Sie können beispielsweise den Inhalt aller Servicekataloge (nach Standort gruppiert) oder alle Benutzerprofilseiten (nach Zweck gruppiert) in die Ablehnungslisten aufnehmen.
Schritt 3
Wählen Sie die URL-Zeichen für jede der Ressourcen aus, die in den im zweiten Schritt erstellten Listen enthalten sind. Wenn Sie Ausschlusslisten für Robots verarbeiten, die nur standardmäßige robots.txt-Anweisungen und nicht definierte Robots verwenden, markieren Sie die eindeutigen URL-Teile der maximalen Länge. Für die restlichen Adressgruppen können Sie Vorlagen nach den Vorgaben bestimmter Suchmaschinen erstellen.
Schritt 4
Erstellen Sie eine robots.txt-Datei. Fügen Sie Gruppen von Direktiven hinzu, die jeweils einer Reihe von Verbotsregeln für einen bestimmten Roboter entsprechen, deren Liste im ersten Schritt zusammengestellt wurde. Letzterem sollte eine Gruppe von Anweisungen für alle anderen Roboter folgen. Trennen Sie Regelgruppen durch eine einzelne Leerzeile. Jeder Regelsatz muss mit einer User-Agent-Anweisung beginnen, die den Roboter identifiziert, gefolgt von einer Disallow-Anweisung, die die Indexierung von URL-Gruppen verbietet. Machen Sie die im dritten Schritt erhaltenen Zeilen mit den Werten der Disallow-Anweisungen. Trennen Sie die Anweisungen und ihre Bedeutungen durch einen Doppelpunkt. Betrachten Sie das folgende Beispiel: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Dieser Satz von Anweisungen weist den Hauptroboter des of Yandex-Suchmaschine, um die URL nicht zu indizieren, die die Teilzeichenfolge / temp / data / images / enthält. Es verhindert auch, dass alle anderen Robots URLs indexieren, die / temp / data / enthalten.
Schritt 5
Ergänzen Sie robots.txt mit erweiterten Standardrichtlinien oder spezifischen Suchmaschinenrichtlinien. Beispiele für solche Anweisungen sind: Host, Sitemap, Anfragerate, Besuchszeit, Crawling-Verzögerung.