Jedním z nástrojů pro správu indexování stránek pomocí vyhledávačů je soubor robots.txt. Používá se hlavně k tomu, aby zabránil všem nebo pouze určitým robotům ve stahování obsahu určitých skupin stránek. To vám umožní zbavit se „odpadu“ve výsledcích vyhledávače a v některých případech výrazně zlepšit hodnocení zdroje. Pro úspěšnou aplikaci je důležité mít správný soubor robots.txt.
Nezbytné
textový editor
Instrukce
Krok 1
Vytvořte seznam robotů, pro které budou nastavena speciální pravidla pro vyloučení, nebo budou použity směrnice rozšířeného standardu robots.txt, stejně jako nestandardní a konkrétní směrnice (rozšíření konkrétního vyhledávače). Do tohoto seznamu zadejte hodnoty polí User-Agent hlaviček požadavků HTTP odeslaných vybranými roboty na server lokality. Jména robotů lze také najít v referenčních částech stránek vyhledávače.
Krok 2
V seznamu sestaveném v prvním kroku vyberte skupiny adres URL prostředků webu, ke kterým má být odepřen přístup každému z robotů. Proveďte stejnou operaci pro všechny ostatní roboty (neurčitá sada indexovacích robotů). Jinými slovy, výsledkem by mělo být několik seznamů obsahujících odkazy na části webu, skupiny stránek nebo zdroje mediálního obsahu, jejichž indexování je zakázáno. Každý seznam musí odpovídat jinému robotovi. Rovněž by měl existovat seznam zakázaných adres URL pro všechny ostatní roboty. Seznamy vytvářejte na základě srovnání logické struktury webu s fyzickým umístěním dat na serveru a také seskupením adres URL stránek podle jejich funkční vlastnosti. Můžete například zahrnout do seznamů zamítnutí obsah jakýchkoli katalogů služeb (seskupených podle umístění) nebo všech stránek uživatelských profilů (seskupených podle účelu).
Krok 3
Vyberte značky URL pro každý ze zdrojů obsažených v seznamech zkompilovaných ve druhém kroku. Při zpracování seznamů vyloučení pro roboty, které používají pouze standardní směrnice robots.txt a nedefinované roboty, zvýrazněte jedinečné části adresy URL maximální délky. Pro zbývající sady adres můžete vytvořit šablony v souladu se specifikacemi konkrétních vyhledávačů.
Krok 4
Vytvořte soubor robots.txt. Přidejte do něj skupiny směrnic, z nichž každá odpovídá sadě zákazových pravidel pro konkrétního robota, jejichž seznam byl sestaven v prvním kroku. Po druhém by měla následovat skupina směrnic pro všechny ostatní roboty. Oddělte skupiny pravidel jediným prázdným řádkem. Každá sada pravidel musí začínat směrnicí User-agent identifikující robota, následovanou směrnicí Disallow, která zakazuje indexování skupin adres URL. Vytvořte řádky získané ve třetím kroku s hodnotami směrnic Disallow. Oddělte směrnice a jejich význam dvojtečkou. Zvažte následující příklad: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Tato sada směrnic dává pokyn hlavnímu robotovi Vyhledávač Yandex neindexuje adresu URL, která obsahuje podřetězec / temp / data / images /. Rovněž zabrání všem ostatním robotům v indexování adres URL obsahujících / temp / data /.
Krok 5
Doplňte soubor robots.txt o rozšířené standardní směrnice nebo specifické směrnice pro vyhledávače. Příklady takových směrnic jsou: Hostitel, Sitemap, Požadavek na rychlost, Doba návštěvy, Zpoždění procházení.