Většina ostřílených blogerů jistě ví, co je soubor robots.txt a proč tento soubor potřebujete. Jen málo autorů se však po instalaci blogu na WordPressu okamžitě vrhne na vytvoření souboru robots.txt.
Robots.txt je textový soubor, který se nahraje do kořenového adresáře vašeho webu a obsahuje pokyny pro prohledávače. Hlavním účelem jeho použití je zakázat indexování jednotlivých stránek a sekcí na webu. Pomocí souboru robots.txt však můžete také určit správné zrcadlení domény, předepsat cestu k souboru Sitemap a podobně.
Většina moderních vyhledávačů se naučila dobře procházet populární CMS a obvykle se nepokouší indexovat obsah, který k tomu není určen. Google například nebude indexovat vaši oblast správy blogu WordPress, i když ji nezadáte přímo v souboru robots.txt. V některých případech však může být použití přímých zákazů stále užitečné. A to mluvíme především o zákazu duplicitního obsahu.
Někteří webmasteři zacházejí tak daleko, že zakazují indexování stránek kategorií a značek, protože jejich obsah částečně duplikuje obsah hlavní stránky. Většina se ale omezuje na zákaz zpětného sledování a stránek feedu, které zcela duplikují obsah článku a vůbec nejsou určeny pro vyhledávače. Takové preventivní opatření nejenže „vyčistí“výsledky webu, ale také vás ušetří před možnými filtry vyhledávání, zejména po zavedení nového algoritmu Google Panda.
Zde jsou doporučené směrnice pro soubor robots.txt (bude fungovat pro téměř jakýkoli blog WordPress):
Uživatelský agent: * Zakázat: /wp-login.php Zakázat: /wp-register.php Zakázat: /xmlrpc.php Zakázat: / wp-admin Zakázat: / wp-includes Zakázat: / wp-content / plugins Zakázat: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Pamatujte, že v souboru robots.txt jsou administrativní složky wp-admin a wp-includes zcela uzavřeny pro indexování. Složka wp-content je uzavřena pouze částečně, protože obsahuje adresář pro nahrávání, který obsahuje všechny obrázky z vašeho blogu, které by měly být indexovány.
Vše, co musíte udělat, je zkopírovat směrnice z výše uvedeného kódu (všimněte si, že každá směrnice musí být napsána na novém řádku), uložit je do textového souboru s názvem robots.txt a nahrát je do kořenového adresáře vašeho webu.
To, zda soubor robots.txt funguje správně, můžete kdykoli zkontrolovat pomocí rozhraní Google Webmaster Tools a Yandex Webmaster interface.