Robots txt disallow Zakázat všem vše. Jak zabránit indexování potřebných stránek. Jak hledat stránky, které je třeba zavřít z indexování

08.07.2020

Při návštěvě webu vyhledávací robot využívá omezené množství zdrojů pro indexování. To znamená, že vyhledávací robot může stáhnout určitý počet stránek při jedné návštěvě. V závislosti na frekvenci aktualizací, objemu, počtu dokumentů a mnoha dalších mohou roboti přicházet častěji a stahovat více stránek.

Čím více a častěji se stránky stahují, tím více rychlejší informace z vašeho webu se dostane do výsledků vyhledávání. Kromě toho, že se stránky budou zobrazovat rychleji ve vyhledávání, rychleji se projeví i změny v obsahu dokumentů.

Rychlé indexování stránek

Rychlé indexování stránek webu pomáhá bojovat proti krádeži unikátního obsahu, umožňuje díky své čerstvosti a relevantnosti. Ale to nejdůležitější. Rychlejší indexování umožňuje sledovat, jak určité změny ovlivňují pozici webu ve výsledcích vyhledávání.

Špatné, pomalé indexování stránek

Proč je stránka indexována špatně? Důvodů může být mnoho a zde jsou hlavní důvody pomalého indexování webu.

Stránky webu se načítají pomalu. To může způsobit úplné vyloučení webu z indexu.
Stránka je zřídka aktualizována. Proč by robot často přišel na web, kde se nové stránky objevují jednou za měsíc.
Nejedinečný obsah. Pokud web obsahuje (články, fotografie), vyhledávač sníží důvěru (důvěru) k vašemu webu a sníží spotřebu zdrojů pro jeho indexování.
Velké množství stránek. Pokud má web mnoho stránek a ne, pak může indexování nebo opětovné indexování všech stránek webu trvat velmi dlouho.
Složitá struktura webu. Složitá struktura webu a velké množství příloh velmi ztěžují indexování stránek webu.
Spousta stránek navíc. Každý web má vstupní stránky, jejichž obsah je statický, jedinečný a užitečný pro uživatele, a vedlejší stránky, jako jsou , přihlašovací stránky nebo filtrovací stránky. Pokud takové stránky existují, je jich obvykle hodně, ale ne všechny se indexují. A stránky, které se tam dostanou, soutěží se vstupními stránkami. Všechny tyto stránky jsou pravidelně reindexovány, což spotřebovává již tak omezené zdroje přidělené pro indexování vašeho webu.
Dynamické stránky. Pokud jsou na webu stránky, jejichž obsah nezávisí na dynamických parametrech (příklad: site.ru/page.html?lol=1&wow=2&bom=3), výsledkem je mnoho duplikátů webu site.ru/page.html může se zobrazit vstupní stránka.

Existují další důvody pro špatné indexování stránek. Nejčastější chybou však je.

Odstraňte vše z indexování

Existuje mnoho příležitostí, jak racionálně využít zdroje, které vyhledávače přidělují na indexování webu. A právě robots.txt otevírá široké možnosti pro správu indexování webu.

Pomocí direktiv Allow, Disallow, Clean-param a dalších můžete efektivně distribuovat nejen pozornost vyhledávacího robota, ale také výrazně snížit zátěž webu.

Nejprve musíte z indexování vyloučit vše nepotřebné pomocí direktivy Disallow.

Například deaktivujeme přihlašovací a registrační stránky:

Disallow: /login Disallow: /register

Zakázat indexování značek:

Disallow: /tag

Některé dynamické stránky:

Disallow: /*?lol=1

Nebo všechny dynamické stránky:

Disallow: /*?*

Nebo nulujte stránky s dynamickými parametry:

Čistý parametr: lol&wow&bom /

Na mnoha webech se počet stránek nalezených robotem může lišit od počtu stránek ve vyhledávání 3 nebo vícekrát. To znamená, že více než 60 % stránek webu se neúčastní vyhledávání a jsou balastem, který je nutné buď zadat do vyhledávání, nebo se ho zbavit. Vyloučením nepřistávacích stránek a přiblížením počtu stránek ve vyhledávání ke 100 % zaznamenáte výrazné zvýšení rychlosti indexování stránek, vyšší pozice ve výsledcích vyhledávání a větší návštěvnost.

Více o indexování stránek, dopad indexování na vydání, stránky webu, další způsoby, jak urychlit indexování stránek a důvody špatného indexování stránek přečtěte si následující příspěvky. Mezitím.

Odhoďte nepotřebný balast a jděte na vrchol rychleji.

Jak zabránit indexování určitých stránek?

Oprávnění a zákazy indexování přebírají všechny vyhledávače ze souboru robots.txt umístěný v kořenovém adresáři serveru. Zákaz indexování několika stránek se může objevit například z důvodů utajení nebo z přání neindexovat stejné dokumenty v různých kódováních. Čím menší je váš server, tím rychleji jej robot obejde. Zakažte proto všechny dokumenty v souboru robots.txt, které nemá smysl indexovat (například statistické soubory nebo seznamy souborů v adresářích). Zvláštní pozornost věnujte skriptům CGI nebo ISAPI – náš robot je indexuje spolu s dalšími dokumenty.

Ve své nejjednodušší podobě (je povoleno vše kromě adresáře skriptu) vypadá soubor robots.txt takto:

User Agent: *
Disallow: /cgi-bin/

Podrobný popis specifikace souboru naleznete na stránce: "".

Při psaní robots.txt věnujte pozornost následujícím běžným chybám:

1. Řádek s polem User-Agent je povinný a musí předcházet řádkům s polem Zakázat. Například následující soubor robots.txt nic nezakazuje:

Disallow: /cgi-bin
Disallow: /forum

2. Prázdné řádky v souboru robots.txt jsou důležité, oddělují položky týkající se různých robotů. Například v následujícím fragmentu souboru robots.txt je řádek Disallow: /forum ignorováno, protože před ním není žádná siločára user-agent.

User Agent: *
Disallow: /cgi-bin
Disallow: /forum

3. Linie s polem Zakázat může zabránit indexování dokumentů pouze s jednou předponou. Chcete-li zakázat více předpon, napište více řádků. Například níže uvedený soubor zabraňuje indexování dokumentů začínajících na „ /cgi-bin/forum“, které s největší pravděpodobností neexistují (a ne dokumenty s předponami /cgi-bin a /Fórum).

User Agent: *
Disallow: /cgi-bin /forum

4. V řádcích s polem Zakázat ne absolutní, ale relativní předpony se píší. To je ten soubor

User Agent: *
Disallow: www.myhost.ru/cgi-bin

zakazuje například indexování dokumentů http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, ale NEZABRAŇUJE indexování dokumentu http://www.myhost.ru/cgi-bin/counter.cgi.

5. V řádcích s polem Zakázat jsou specifikovány předpony a ne něco jiného. Takže soubor:

User Agent: *
Zakázat: *

zakazuje indexování dokumentů začínajících znakem "*" (které ve své podstatě neexistují) a velmi se liší od souboru:

User Agent: *
zakázat: /

což zabraňuje indexování celého webu.

Pokud nemůžete vytvořit/upravit soubor robots.txt, pak není vše ztraceno - stačí přidat další značku do kódu HTML vaší stránky (uvnitř značky ):

Potom tento dokument také nebude indexován.

Můžete také použít značku

To znamená, že robot vyhledávače by neměl sledovat odkazy z této stránky.

Chcete-li současně zakázat indexování stránky a obejít z ní odkazy, použijte značku

Jak zabránit indexování určitých částí textu?

Chcete-li zabránit indexování určitých částí textu v dokumentu, označte je značkami

Pozornost! Značka NOINDEX nesmí narušit vnoření jiných značek. Pokud zadáte následující chybnou konstrukci:

…kód1…

…kód2…

…kód3…

zákaz indexování bude zahrnovat nejen „kód1“ a „kód2“, ale také „kód3“.

Jak vybrat hlavního virtuálního hostitele z více zrcadel?

Pokud je vaše stránka umístěna na stejném serveru (stejná IP), ale je viditelná ve vnějším světě pod různými názvy (zrcadla, různí virtuální hostitelé), Yandex doporučuje, abyste vybrali název, pod kterým chcete být indexováni. V opačném případě si Yandex vybere hlavní zrcadlo sám a indexování jiných jmen bude zakázáno.

Aby bylo zrcadlo, které jste si vybrali, indexováno, stačí zakázat indexování všech ostatních zrcadel pomocí . To lze provést pomocí nestandardního rozšíření robots.txt – směrnice Hostitel, s uvedením názvu hlavního zrcadla jako jeho parametru. Pokud www.glavnoye-zerkalo.ru je hlavní zrcadlo, pak by robots.txt měl vypadat nějak takto:

User Agent: *
Disallow: /forum
Disallow: /cgi-bin
Hostitel: www.glavnoye-zerkalo.ru

Pro kompatibilitu s roboty, kteří při zpracování robots.txt plně nedodržují standard, musí být direktiva Host přidána do skupiny počínaje položkou User-Agent, bezprostředně za položky Disallow.

direktivní argument Hostitel je název domény s číslem portu ( 80 výchozí), oddělené dvojtečkou. Pokud některý web není zadán jako argument pro Hostitel, znamená to přítomnost směrnice zakázat: /, tj. úplný zákaz indexování (pokud je ve skupině alespoň jedna správná směrnice Hostitel). Takže soubory robots.txt druh

User Agent: *
Hostitel: www.myhost.ru

User Agent: *
Hostitel: www.myhost.ru:80

jsou ekvivalentní a zakazují indexování jako www.otherhost.ru, a www.myhost.ru:8080.

Parametr direktivy Host se musí skládat z jediného platného názvu hostitele (tj RFC 952 a jiná než IP adresa) a platné číslo portu. Špatné řádky Hostitel ignoroval.

# Příklady ignorovaných příkazů hostitele
Hostitel: www.myhost-.ru
Hostitel: www.- myhost.ru
Hostitel: www.myhost.ru:0
Hostitel: www.my_host.ru
Hostitel: . my-host.com:8000
Hostitel: my-host.ru.
Hostitel: my..host.ru
Hostitel: www.myhost.ru/
Hostitel: www.myhost.ru:8080/
Hostitel: http://www.myhost.ru
Hostitel: www.mysi.te
Hostitel: 213.180.194.129
Hostitel: www.firsthost.ru, www.secondhost.ru
Hostitel: www.firsthost.ru www.secondhost.ru

Pokud máte server Apache, můžete namísto použití direktivy Host nastavit robots.txt pomocí direktiv SSI:

User Agent: *
zakázat: /

V tomto souboru má robot zakázáno obcházet všechny hostitele kromě www.main_name.ru

Chcete-li povolit SSI, nahlédněte do dokumentace k vašemu serveru nebo se obraťte na správce systému. Výsledek můžete zkontrolovat jednoduchým dotazem na stránky:

Http://www.main_name.ru/robots.txt
http://www.other_name.ru/robots.txt atd. Výsledky by měly být různé.

Doporučení pro webový server Russian Apache

V souboru robots.txt na stránkách s ruským Apache by všechna kódování, kromě hlavního, měla být pro roboty zakázána.

Pokud jsou kódování rozložena podle portů (nebo serverů), pak je nutné vydat RŮZNÉ robots.txt na různých portech (serverech). Konkrétně ve všech souborech robots.txt pro všechny porty / servery, kromě „hlavního“, by mělo být napsáno:

User Agent: *
zakázat: /

K tomu můžete použít mechanismus SSI, .

Pokud se kódování ve vašem Apache odlišuje názvy „virtuálních“ adresářů, musíte napsat jeden robots.txt, který by měl obsahovat přibližně následující řádky (v závislosti na názvech adresářů):

User Agent: *
Disallow: /dos
Disallow: /mac
Disallow: /koi

Generátor prodeje

Čas na čtení: 18 minut

Materiál Vám zašleme:

Problémy diskutované v materiálu:

Jakou roli hraje soubor robots.txt v indexování stránek
Jak zakázat indexování webu a jeho jednotlivých stránek pomocí robots.txt
Jaké direktivy robots.txt se používají pro nastavení indexování webu
Jaké jsou nejčastější chyby při vytváření souboru robots.txt

Webový zdroj je připraven k použití: je plný vysoce kvalitních jedinečných textů, originálních obrázků, je pohodlné procházet sekcemi a design je příjemný pro oči. Zbývá pouze představit svůj nápad uživatelům internetu. Jako první by se ale s portálem měly seznámit vyhledávače. Proces datování se nazývá indexování a jednu z hlavních rolí v něm hrají roboti s textovými soubory. Aby byla stránka robots.txt úspěšně indexována, musí být splněna řada specifických požadavků.

Web resource engine (CMS) je jedním z faktorů, které významně ovlivňují rychlost indexování vyhledávacími pavouky. Proč je důležité nasměrovat prohledávače pouze na důležité stránky, které by se měly objevit v SERP?

Robot vyhledávače se podívá na omezený počet souborů na konkrétním zdroji a poté přejde na další web. Při absenci specifikovaných omezení může vyhledávací pavouk začít indexováním souborů motoru, jejichž počet se někdy pohybuje v tisících - robot prostě nebude mít čas na hlavní obsah.
Nebo bude indexovat úplně jiné stránky, na kterých plánujete postoupit. Ještě horší je, pokud vyhledávače vidí duplicitu obsahu, který tak nenávidí, když různé odkazy vedou na stejný (nebo téměř totožný) text nebo obrázek.

Proto je nutností zakázat vyhledávačům vidět příliš mnoho. K tomu je určen robots.txt – běžný textový soubor, jehož název je psán malými písmeny bez použití velkých písmen. Vytváří se v libovolném textovém editoru (Notepad++, SciTE, VEdit atd.) a upravuje se zde. Soubor vám umožňuje ovlivnit indexování webu Yandexem a Googlem.

Pro programátora, který ještě nemá dostatečné zkušenosti, je lepší se nejprve seznámit s příklady správného vyplňování souboru. Musíte vybrat webové zdroje, které ho zajímají, a do adresního řádku prohlížeče zadejte site.ru/robots.txt(kde první část před "/" je název portálu).

Je důležité zobrazit pouze stránky běžící na enginu, který vás zajímá, protože složky CMS, které je zakázáno indexovat, jsou v různých systémech správy pojmenovány odlišně. Výchozím bodem se proto stává motor. Pokud váš web používá WordPress, musíte hledat blogy běžící na stejném enginu; pro Joomla! bude mít své ideální roboty atd. Zároveň je vhodné brát jako vzorky soubory z portálů, které přitahují významnou návštěvnost z vyhledávání.

Co je indexování stránek pomocí souboru robots.txt

Vyhledávání indexování- nejdůležitější ukazatel, na kterém do značné míry závisí úspěšnost propagace. Zdá se, že stránka byla vytvořena perfektně: požadavky uživatelů jsou zohledněny, obsah je nahoře, navigace je pohodlná, ale stránka se nemůže spřátelit s vyhledávači. Důvody je třeba hledat v technické stránce, konkrétně v nástrojích, kterými můžete indexování ovlivnit.

Jsou dva – Sitemap.xml a robots.txt. Důležité soubory, které se vzájemně doplňují a zároveň řeší polární problémy. Mapa webu zve pavouky k „Vítejte, prosím indexujte všechny tyto sekce“ tím, že robotům poskytne adresu URL každé stránky, která má být indexována, a čas, kdy byla naposledy aktualizována. Soubor robots.txt na druhé straně slouží jako stopka, která zabraňuje pavoukům prolézat jakoukoli část webu.

Tento soubor a podobně pojmenovaná metaznačka robots, která umožňuje jemnější nastavení, obsahuje jasné pokyny pro prohledávače vyhledávačů, označující zákazy indexování určitých stránek nebo celých sekcí.

Správně nastavené limity nejlépe ovlivní indexaci webu. I když stále existují amatéři, kteří věří, že je možné umožnit botům studovat absolutně všechny soubory. Ale v této situaci počet stránek zapsaných do databáze vyhledávače neznamená vysokou kvalitu indexování. Proč například roboti potřebují administrativní a technické části webu nebo tisknout stránky (jsou pro uživatele pohodlné a vyhledávače jsou prezentovány jako duplicitní obsah)? Existuje spousta stránek a souborů, na kterých roboti tráví čas, vlastně zbytečně.

Když pavouk navštíví váš web, okamžitě vyhledá pro něj určený soubor robots.txt. Poté, co nenalezne dokument nebo jej najde v nesprávné podobě, začne robot jednat nezávisle a indexuje doslova vše v řadě podle algoritmu, který zná pouze on. Nemusí to nutně začínat novým obsahem, na který byste chtěli uživatele upozornit jako první. V lepším případě se indexování jednoduše protáhne, v horším může mít za následek i sankce za duplikáty.

Správný textový soubor robots předejde mnoha problémům.

Existují tři způsoby, jak zabránit indexování sekcí nebo stránek webového zdroje, od bodu až po vysokou úroveň:

Značka noindex a atribut jsou zcela odlišné prvky kódu, které slouží různým účelům, ale jsou stejně cennými pomocníky pro SEO optimalizátory. Otázka jejich zpracování vyhledávači se stala téměř filozofickou, ale faktem zůstává: noindex umožňuje skrýt část textu před roboty (není to v html standardech, ale rozhodně to funguje pro Yandex) a nofollow zakazuje sledovat odkaz a předání jeho váhy (zahrnuto ve standardní klasifikaci, platné pro všechny vyhledávače).
Metaznačka robots na konkrétní stránce ovlivňuje tuto konkrétní stránku. Níže se blíže podíváme na to, jak v něm uvést zákaz indexování a sledování odkazů umístěných v dokumentu. Meta tag je zcela platný, systémy berou v úvahu (nebo se snaží zohledňovat) zadané údaje. Navíc Google, který si vybírá mezi roboty ve formě souboru v kořenovém adresáři webu a metaznačkou stránky, dává přednost těm druhým.
robots.txt – tato metoda je plně platná, podporovaná všemi vyhledávači a dalšími roboty žijícími na webu. Jeho příkazy však nejsou vždy považovány za příkaz k provedení (o neoprávněnosti pro Google bylo řečeno výše). Pravidla indexování uvedená v souboru jsou platná pro web jako celek: jednotlivé stránky, adresáře, sekce.

Na příkladech zvažte zákaz indexování portálu a jeho částí.

Existuje mnoho důvodů, proč zabránit pavoukům v indexování webových stránek. Je stále ve vývoji, je přepracován nebo upgradován, zdroj je experimentální platforma, která není určena uživatelům.

Indexování webu může být blokováno souborem robots.txt pro všechny vyhledávače, pro jednotlivého robota, nebo může být zakázáno všem kromě jednoho.

2. Jak zakázat indexování webu robots.txt na jednotlivých stránkách

Pokud je zdroj malý, pak je nepravděpodobné, že budete muset skrýt stránky (co se má skrývat na webu vizitek) a velké portály obsahující značné množství informací o službách se bez zákazů neobejdou. Je nutné zavřít před roboty:

administrativní panel;
adresáře služeb;
vyhledávání na stránkách;
Osobní oblast;
registrační formuláře;
objednávkové formuláře;
srovnání zboží;
oblíbené;
košík;
captcha;
vyskakovací okna a bannery;
ID relací.

Irelevantní novinky a události, události kalendáře, akce, speciální nabídky – to jsou takzvané odpadkové stránky, které je nejlepší skrýt. Je také lepší zavřít zastaralý obsah na informačních stránkách, abyste předešli negativnímu hodnocení z vyhledávačů. Snažte se, aby aktualizace byly pravidelné – pak nebudete muset hrát na schovávanou s vyhledávači.

Zákaz robotů pro indexování:

V robots.txt můžete zadat úplné nebo selektivní zákazy indexování složek, souborů, skriptů, utm-tagů, což může být příkaz jak pro jednotlivé vyhledávací pavouky, tak pro roboty všech systémů.

Zákaz indexování:

Metaznačka robots slouží jako alternativa ke stejnojmennému textovému souboru. Je zapsán ve zdrojovém kódu webového zdroje (v souboru index.html), umístěný v kontejneru . Je potřeba si ujasnit, kdo nemůže stránky indexovat. Pokud je zákaz všeobecný, roboti; pokud je vstup odepřen pouze jednomu prohledávači, musíte zadat jeho název (Google - Googlebot, "Yandex" - Yandex).

Existují dvě možnosti zápisu meta tagu.

Atribut "obsah" může mít následující hodnoty:

none - zákaz indexování (včetně noindex a nofollow);
noindex - zákaz indexování obsahu;
nofollow - zákaz indexování odkazů;
follow - povolení k indexování odkazů;
index - povolit indexování obsahu;
vše – umožňuje indexování obsahu a odkazů.

Pro různé případy musíte použít kombinace hodnot. Pokud například zakážete indexování obsahu, musíte robotům povolit indexování odkazů: content="noindex, follow".

Uzavřením webu z vyhledávačů prostřednictvím meta tagů nemusí vlastník vytvářet robots.txt v kořenovém adresáři.

Je třeba připomenout, že v otázce indexování hodně záleží na „slušnosti“ pavouka. Pokud je „vzdělaný“, budou relevantní pravidla předepsaná mistrem. Obecně ale platí, že platnost direktiv robots (jak souboru, tak meta tagu) neznamená jejich stoprocentní dodržování. Ani pro vyhledávače není každý zákaz železný a o různých zlodějích obsahu není třeba hovořit. Zpočátku jsou nakonfigurovány tak, aby obcházely všechny zákazy.

Navíc ne všechny prohledávače obsah zajímá. Pro některé jsou důležité pouze odkazy, pro jiné - mikroznačky, jiní kontrolují zrcadlové kopie webů a tak dále. Systémoví pavouci přitom po webu vůbec neprocházejí jako viry, ale na dálku si žádají potřebné stránky. Majitelům zdrojů proto většinou nevytvářejí žádné problémy. Pokud však při návrhu robota došlo k chybám nebo došlo k nějaké externí nestandardní situaci, může crawler výrazně zatížit indexovaný portál.

Použité příkazy:

1. "User-agent:"

Hlavní směrnice pro soubor robots.txt. Používá se pro specifikaci. Zadá se jméno robota, pro který budou následovat další pokyny. Například:

Uživatelský agent: Googlebot- základní směrnice v této podobě znamená, že všechny následující příkazy se týkají pouze indexovacího robota Google;
Uživatelský agent: Yandex- předepsaná oprávnění a zákazy jsou určeny pro robota Yandex.

Záznam User-agent: * znamená odkazování na všechny ostatní vyhledávače (speciální znak „*“ znamená „libovolný text“). Pokud vezmeme v úvahu výše uvedený příklad, pak hvězdička označí všechny vyhledávače kromě "Yandex". Google se totiž zcela obejde bez osobní přitažlivosti a spokojí se s obecným označením „jakýkoli text“.

Nejběžnější příkaz pro zakázání indexování. S odkazem na robota v "User-agent:" programátor uvede, že nedovoluje botovi indexovat část webu nebo celý web (v tomto případě je uvedena cesta z kořene). Hledací pavouk to pochopí rozšířením příkazu. Taky na to přijdeme.

Uživatelský agent: Yandex

Pokud je takový záznam v robots.txt, pak vyhledávací robot Yandex chápe, že nemůže indexovat webový zdroj jako takový: po zakazujícím znaku „/“ nejsou žádná vysvětlení.

Uživatelský agent: Yandex

Disallow: /wp-admin

V tomto příkladu jsou vysvětlení: zákaz indexování se vztahuje pouze na systémovou složku wp-admin(web běží na WordPressu). Robot Yandex vidí příkaz a neindexuje zadanou složku.

Uživatelský agent: Yandex

Disallow: /wp-content/themes

Tato direktiva říká prohledávači, že může indexovat veškerý obsah " wp-obsah", s výjimkou " témata“, což robot udělá.

Uživatelský agent: Yandex

Disallow: /index$

Objevuje se další důležitý symbol „$“, který umožňuje flexibilitu v zákazech. V tomto případě robot chápe, že není povoleno indexovat stránky, jejichž odkazy obsahují posloupnost písmen " index". Samostatný soubor se stejným názvem " index.php» Můžete indexovat a robot tomu jasně rozumí.

Můžete zadat zákaz indexování jednotlivých stránek zdroje, jejichž odkazy obsahují určité znaky. Například:

Uživatelský agent: Yandex

Robot Yandex čte příkaz tímto způsobem: neindexujte všechny stránky s adresami URL obsahujícími „&“ mezi jinými znaky.

Uživatelský agent: Yandex

V tomto případě robot chápe, že stránky nelze indexovat pouze v případě, že jejich adresy končí „&“.

Proč není možné indexovat systémové soubory, archivy, osobní údaje uživatelů, myslíme si, že je jasné - toto není téma k diskuzi. Není absolutně potřeba, aby vyhledávací robot ztrácel čas kontrolou dat, která nikdo nepotřebuje. Ale pokud jde o zákazy indexování stránek, mnoho lidí si klade otázky: jaký je důvod účelnosti zakazujících směrnic? Zkušení vývojáři mohou uvést tucet různých důvodů pro tabuizaci indexování, ale tím hlavním bude potřeba zbavit se duplicitních stránek ve vyhledávání. Pokud nějaké existují, dramaticky to negativně ovlivňuje hodnocení, relevanci a další důležité aspekty. Interní SEO optimalizace je proto nemyslitelná bez robots.txt, ve kterém si s duplicitami poradíte celkem jednoduše: stačí správně použít direktivu „Disallow:“ a speciální znaky.

3. "Povolit:"

Soubor magic robots umožňuje nejen skrýt nepotřebné věci před vyhledávači, ale také otevřít web pro indexování. robots.txt obsahující příkaz " dovolit:“, říká vyhledávačům, které prvky webového zdroje musí být přidány do databáze. Na pomoc přicházejí stejná upřesnění jako v předchozím příkazu, jen nyní rozšiřují rozsah oprávnění pro crawlery.

Vezměme si jeden z příkladů uvedených v předchozím odstavci a uvidíme, jak se situace změní:

Uživatelský agent: Yandex

Povolit: /wp-admin

Pokud "Disallow:" znamenalo zákaz, pak nyní obsah systémové složky wp-admin se legálně stává majetkem společnosti Yandex a může se objevit ve výsledcích vyhledávání.

Ale v praxi se tento příkaz používá jen zřídka. Existuje pro to naprosto logické vysvětlení: nepřítomnost zákazu indikovaného „Disallow:“ umožňuje vyhledávacím pavoukům považovat celý web za povolený pro indexování. K tomu není potřeba zvláštní směrnice. Pokud existují zákazy, roboti standardně indexují i obsah, který pod ně nespadá.

Další dva důležité příkazy pro vyhledávací pavouky. " hostitel:"- cílová směrnice pro domácí vyhledávač. Yandex se tím řídí při určování hlavního zrcadla webového zdroje, jehož adresa (s nebo bez www) se zúčastní vyhledávání.

Zvažte příklad PR-CY.ru:

Uživatelský agent: Yandex

Direktiva se používá k zamezení duplikace obsahu zdroje.

Tým " mapa webu:» pomáhá robotům správně se pohybovat na mapě webu - speciální soubor, který představuje hierarchickou strukturu stránek, typ obsahu, informace o frekvenci aktualizací atd. Soubor slouží jako navigátor pro vyhledávače sitemap.xml(na wordpress engine) sitemap.xml.gz), kam se potřebují dostat co nejrychleji. Pak indexace zrychlí nejen mapu webu, ale i všechny ostatní stránky, které nezpomalí, aby se objevily ve výsledcích vyhledávání.

Hypotetický příklad:

Příkazy, které jsou uvedeny v textovém souboru robotů a jsou přijímány Yandexem:

Směrnice	Co dělá
	Pojmenuje vyhledávacího pavouka, pro kterého jsou napsána pravidla uvedená v souboru.
	Označuje zákaz pro roboty indexovat web, jeho sekce nebo jednotlivé stránky.
	Určuje cestu k souboru Sitemap hostovanému na webovém prostředku.
	Obsahuje následující informace pro vyhledávacího pavouka: Adresa URL stránky obsahuje neindexovatelné parametry (jako jsou značky UTM).
	Uděluje oprávnění k indexování sekcí a stránek webového zdroje.
	Umožňuje odložit skenování. Označuje minimální dobu (v sekundách) pro prohledávač mezi načtením stránky: po zaškrtnutí jedné stránky čeká pavouk zadanou dobu, než požádá o další stránku ze seznamu.

*Požadovaná směrnice.

Nejčastěji jsou požadovány příkazy Disallow, Sitemap a Clean-param. Podívejme se na příklad:

User-agent: * #indikující roboty, kterým jsou určeny následující příkazy.
Disallow: /bin/ # Zabránit indexátorům v procházení odkazů z nákupního košíku.
Disallow: /search/ # zakázat indexování vyhledávacích stránek na webu.
Disallow: /admin/ # zakáže vyhledávání v admin panelu.
Sitemap: http://example.com/sitemap # udává cestu k souboru Sitemap pro prohledávač.
Clean-param: ref /some_dir/get_book.pl

Připomeňme, že výše uvedené interpretace směrnic jsou relevantní pro Yandex - pavouci jiných vyhledávačů mohou číst příkazy jinak.

Teoretický základ je vytvořen - je čas vytvořit ideální (dobře, nebo jemu velmi blízké) roboty s textovým souborem. Pokud web běží na enginu (Joomla!, WordPress atd.), je dodáván s množstvím objektů, bez kterých není běžný provoz možný. Ale v takových souborech není žádná informační složka. Ve většině CMS je úložištěm obsahu databáze, ale roboti se k ní nedostanou. A nadále hledají obsah v souborech motoru. V souladu s tím je čas vyhrazený pro indexování promarněn.

Velmi důležité Usilujte o jedinečný obsah váš webový zdroj , pečlivě sledovat výskyt duplikátů. Ani částečné opakování informačního obsahu webu nemá nejlepší vliv na jeho hodnocení vyhledávači. Pokud lze stejný obsah nalézt na různých adresách URL, považuje se to také za duplicitní.

Dva hlavní vyhledávače, Yandex a Google, nevyhnutelně odhalí duplicitu během procházení a uměle sníží pozici webového zdroje ve výsledcích vyhledávání.

Nezapomeňte na skvělý nástroj, který vám pomůže vypořádat se s duplikací – kanonický meta tag. Tím, že do něj napíšete jinou URL, webmaster tak vyhledávači naznačí preferovanou stránku pro indexování, která bude ta kanonická.

Například stránka se stránkováním https://ktonanovenkogo.ru/page/2 obsahuje metaznačku Canonical směřující na https://ktonanovenkogo.ru , která odstraňuje problémy s duplicitními záhlavími.

Dáme tedy dohromady všechny získané teoretické znalosti a přistoupíme k jejich praktické implementaci do robots.txt pro váš webový zdroj, jehož specifika je třeba vzít v úvahu. Co je potřeba pro tento důležitý soubor:

textový editor (Poznámkový blok nebo jakýkoli jiný) pro psaní a úpravu robotů;
tester, který pomůže najít chyby ve vytvořeném dokumentu a zkontrolovat správnost zákazů indexování (například Yandex.Webmaster);
FTP klient, který zjednodušuje nahrání hotového a ověřeného souboru do kořenového adresáře webového zdroje (pokud web běží na WordPressu, pak se roboti nejčastěji ukládají do systémové složky Public_html).

První věc, kterou prohledávač udělá, je požádat o soubor vytvořený speciálně pro něj a umístěný na adrese URL „/robots.txt“.

Webový zdroj může obsahovat jeden soubor „/robots.txt“. Není třeba jej dávat do vlastních podadresářů, kde pavouci dokument stejně hledat nebudou. Pokud chcete vytvářet roboty v podadresářích, musíte si uvědomit, že je stále musíte shromáždit do jednoho souboru v kořenové složce. Vhodnější je použití metaznačky „Robots“.

V adresách URL se rozlišují velká a malá písmena – pamatujte, že „/robots.txt“ se nepíše velkými písmeny.

Nyní musíte být trpěliví a počkat na vyhledávací pavouky, kteří nejprve prozkoumají váš správně vytvořený, opraví robots.txt a začnou procházet váš webový portál.

Správné nastavení souboru robots.txt pro indexování webů na různých strojích

Pokud máte komerční zdroj, pak by vytvoření souboru robots mělo být svěřeno zkušenému SEO specialistovi. To je zvláště důležité, pokud je projekt složitý. Pro ty, kteří nejsou připraveni přijmout to, co bylo řečeno za axiom, vysvětleme: tento důležitý textový soubor má vážný dopad na indexování zdroje vyhledávači, rychlost zpracování webu roboty závisí na jeho správnosti , a obsah robotů má svá specifika. Vývojář musí vzít v úvahu typ webu (blog, internetový obchod atd.), engine, strukturální vlastnosti a další důležité aspekty, které začínající mistr nemusí být schopen.

Zároveň je potřeba udělat ta nejdůležitější rozhodnutí: co z procházení zavřít, co nechat prohledávače viditelné, aby se stránky objevily ve vyhledávání. S takovým objemem práce se nezkušený SEO jen velmi těžko vyrovná.

User-agent:* # hlavní pravidla pro roboty, kromě „Yandex“ a Google,

Disallow: /cgi-bin # hostitelská složka
zakázat: /? # všechny parametry dotazu na hlavní
Disallow: /wp- # všechny soubory WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # pokud existuje podadresář /wp/, kde je CMS nainstalován (pokud ne, # pravidlo může být odstraněno)
Disallow: *?s= # search
Disallow: *&s= # search
Disallow: /search/ # search
Disallow: /author/ # archivář
Disallow: /users/ # archivátorů
Disallow: */trackback # trackbacky, upozornění v komentářích na otevřený # odkaz na článek
Disallow: */feed # všechny zdroje
Disallow: */rss # rssfeed
Disallow: */embed # všechna vložení
Disallow: */wlwmanifest.xml # soubor xml manifestu Windows Live Writer (lze odstranit, pokud se nepoužívá)
Disallow: /xmlrpc.php # Soubor WordPress API
Disallow: *utm*= # odkazů se značkami utm
Disallow: *openstat= # označené odkazyopenstat
Povolit: */uploads # otevřít složku s nahranými soubory
Sitemap: http://site.ru/sitemap.xml # adresa souboru Sitemap

User-agent: Pravidla pro GoogleBot & # pro Google

Disallow: /cgi-bin

Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /autor/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Povolit: */uploadsAllow: /*/*.js # otevřít skripty js uvnitř /wp- (/*/ - pro prioritu)
Povolit: /*/*.css # otevřít soubory css uvnitř /wp- (/*/ - pro prioritu)
Povolit: /wp-*.png # obrázky v pluginech, složce mezipaměti atd.
Povolit: /wp-*.jpg # obrázky v pluginech, složce mezipaměti atd.
Povolit: /wp-*.jpeg # obrázky v pluginech, složce mezipaměti atd.
Povolit: /wp-*.gif # obrázky v pluginech, složce mezipaměti atd.
Povolit: /wp-admin/admin-ajax.php # používané pluginy k neblokování JS a CSS

User-agent: Pravidla Yandex # pro Yandex

Disallow: /cgi-bin

Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /autor/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Povolit: */uploads
Povolit: /*/*.js
Povolit: /*/*.css
Povolit: /wp-*.png
Povolit: /wp-*.jpg
Povolit: /wp-*.jpeg
Povolit: /wp-*.gif
Povolit: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Yandex doporučuje neuzavírat # z indexování, ale smazat parametry značky, # Google taková pravidla nepodporuje
Clean-Param: openstat # podobný

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /zahrnuje/
Disallow: /installation/
Disallow: /jazyk/
Disallow: /knihovny/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /šablony/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://cesta vašeho souboru Sitemap XML

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/galerie/*objednávka=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*registrovat=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=

Disallow: /*PAGE_NAME=hledat
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: http://cesta vašeho souboru Sitemap XML

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Soubor Sitemap: http://site.ru/sitemap.xml

5. Robots.txt, příklad pro Drupal

User-agent: *
Disallow: /database/
Disallow: /zahrnuje/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profily/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /komentář/odpověď/
Disallow: /kontakt/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *registrace*
Zakázat: *přihlášení*
Disallow: /nejlépe hodnocené-
Disallow: /zprávy/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /doporučení/
Disallow: /agregátor/
Disallow: /files/pin/
Disallow: /vaše-hlasy
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$

Disallow: /*?page=0
Disallow: /*sekce
Disallow: /* objednávka
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*votesupdown
Disallow: /*kalendář
Disallow: /*index.php
Povolit: /*?page=

Sitemap: http://cesta k vašemu souboru Sitemap XML

POZORNOST! Systémy pro správu obsahu stránek jsou neustále aktualizovány, takže se může změnit i soubor robots: další stránky nebo skupiny souborů mohou být uzavřeny, nebo naopak otevřeny pro indexování. Záleží na cílech webového zdroje a aktuálních změnách enginu.

7 běžných chyb při indexování webu pomocí robots.txt

Chyby při vytváření souboru způsobují, že robots.txt nefunguje správně nebo dokonce vedou k nemožnosti fungování souboru.

Jaké chyby jsou možné:

Logické (označená pravidla kolidují). Tento typ chyby můžete identifikovat během testování v Yandex.Webmaster a GoogleRobotsTestingTool.
Syntaktické (směrnice jsou psány s chybami).

Častější než ostatní jsou:

záznam nerozlišuje velká a malá písmena;
používají se velká písmena;
všechna pravidla jsou uvedena na jednom řádku;
pravidla nejsou oddělena prázdným řádkem;
určení prohledávače v direktivě;
každý soubor složky, který je třeba zavřít, je uveden samostatně;
chybí povinná direktiva Disallow.

Zvážit obyčejné chyby, jejich důsledky a hlavně opatření k jejich prevenci na vašem webovém zdroji.

Umístění souboru. Adresa URL souboru by měla mít následující tvar: http://site.ru/robots.txt (místo site.ru je uvedena adresa vašeho webu). Soubor robots.txt je založen výhradně v kořenové složce zdroje – jinak jej vyhledávací pavouci neuvidí. Bez zákazu budou procházet celý web a dokonce i ty soubory a složky, které byste chtěli skrýt před výsledky vyhledávání.
Citlivý na velká písmena.Žádná velká písmena. http://site.ru/Robots.txt je špatně. V tomto případě robot vyhledávače obdrží jako odpověď serveru 404 (chybová stránka) nebo 301 (přesměrování). Procházení bude probíhat bez ohledu na pokyny uvedené v robotech. Pokud je vše provedeno správně, odezva serveru je kód 200, ve kterém bude vlastník zdroje moci ovládat vyhledávací prolézací modul. Jediná správná volba je "robots.txt".
Otevření na stránce prohlížeče. Vyhledávací pavouci budou moci správně číst a používat příkazy souboru robots.txt pouze v případě, že se otevře na stránce prohlížeče. Je důležité věnovat velkou pozornost serverové straně enginu. Někdy je soubor tohoto typu nabízen ke stažení. Poté byste měli nastavit zobrazení – jinak si roboti budou web procházet, jak se jim zlíbí.
Chyby zákazu a povolení."Disallow" - příkaz zakázat skenování webu nebo jeho částí. Musíte například zabránit robotům v indexování stránek s výsledky vyhledávání na webu. V tomto případě by soubor robots.txt měl obsahovat řádek: "Disallow: /search/". Prohledávač chápe, že procházení všech stránek, na kterých dochází k „vyhledávání“, je zakázáno. S úplným zákazem indexování je napsáno Disallow: /. Ale povolovací směrnice "Allow" není v tomto případě nutná. Ačkoli není neobvyklé, že je příkaz napsán takto: „Povolit:“, za předpokladu, že to robot bude vnímat jako povolení indexovat „nic“. Pomocí direktivy "Allow: /" můžete povolit indexování celého webu. Není třeba si plést příkazy. To vede k chybám při procházení pavouky, kteří nakonec přidají stránky, které rozhodně nejsou těmi, které by měly být propagovány.
direktivní shoda. Disallow: a Allow: pro stejnou stránku se nacházejí v robotech, což způsobí, že prohledávače upřednostní direktivu allow. Například zpočátku byl oddíl otevřen pro procházení pavouky. Pak bylo z nějakého důvodu rozhodnuto skrýt jej z indexu. Do souboru robots.txt je přirozeně přidán zákaz, ale webmaster zapomene oprávnění odebrat. Pro vyhledávače není zákaz tak důležitý: raději stránku indexují a obcházejí příkazy, které se navzájem vylučují.
Hostitelská směrnice:. Rozpoznané pouze pavouky Yandex a používané k určení hlavního zrcadla. Užitečný příkaz, ale bohužel se zdá být chybný nebo neznámý všem ostatním vyhledávačům. Při jeho zapojení do vašich robotů je optimální zadat jako User-agent: všichni a robot Yandex, pro kterého můžete příkaz Host osobně zaregistrovat:
Uživatelský agent: Yandex
Hostitel: site.ru

Direktiva předepsaná pro všechny prohledávače bude jimi vnímána jako chybná.
Direktiva Sitemap:. S pomocí mapy webu roboti zjistí, jaké stránky jsou na webovém zdroji. Velmi častou chybou je, že vývojáři nevěnují pozornost umístění souboru sitemap.xml, ačkoli ten určuje seznam adres URL zahrnutých v mapě. Umístěním souboru mimo kořenovou složku samotní vývojáři vystavili web riziku: prohledávače nesprávně určují počet stránek, v důsledku toho nejsou důležité části webového zdroje zahrnuty do výsledků vyhledávání.

Například umístěním souboru Sitemap do adresáře na adrese URL http://primer.ru/catalog/sitemap.xml můžete zahrnout libovolné adresy URL začínající na http://primer.ru/catalog/ ... A adresy URL jako, řekněme, http://primer.ru/images/ ... by neměly být zahrnuty do seznamu.

Shrnout. Pokud chce vlastník webu ovlivnit proces indexování webového zdroje vyhledávacími roboty, je zvláště důležitý soubor robots.txt. Vytvořený dokument je nutné pečlivě zkontrolovat na logické a syntaktické chyby, aby nakonec direktivy fungovaly pro celkový úspěch vašeho webu a zajistily kvalitní a rychlou indexaci.

Jak se vyhnout chybám vytvořením správné struktury robots.txt pro indexování stránek

Struktura robots.txt je jasná a jednoduchá, je docela možné si soubor napsat sami. Jen je potřeba pečlivě sledovat syntaxi, která je pro roboty nesmírně důležitá. Vyhledávací roboti se řídí pokyny dokumentu dobrovolně, ale vyhledávače interpretují syntaxi odlišně.

Seznam následujících povinných pravidel pomůže odstranit nejčastější chyby při vytváření robots.txt. Chcete-li napsat správný dokument, měli byste mít na paměti, že:

každá směrnice začíná nový řádek;
v jednom řádku - ne více než jeden příkaz;
na začátek řádku nelze umístit mezeru;
parametr příkazu musí být na jednom řádku;
direktivní parametry není třeba uvádět;
parametry příkazu nevyžadují středník na konci;
direktiva v robots.txt je uvedena ve formátu: [název_příkazu]:[volitelná mezera][hodnota][volitelná mezera];
za znakem libry jsou v robots.txt povoleny # komentáře;
prázdný řetězec lze interpretovat jako konec příkazu User-agent;
direktiva zákazu s prázdnou hodnotou - "Disallow:" je podobná direktivě "Allow: /", která umožňuje skenování celého webu;
Direktivy "Allow" a "Disallow" nemohou obsahovat více než jeden parametr. Každý nový parametr je zapsán na nový řádek;
v názvu souboru robots.txt jsou použita pouze malá písmena. Robots.txt nebo ROBOTS.TXT - pravopisné chyby;
Standard robots.txt neupravuje rozlišování malých a velkých písmen, ale soubory a složky jsou v této věci často citlivé. Proto, i když je přijatelné používat velká písmena v názvech příkazů a parametrů, je to považováno za špatnou formu. Je lepší se nenechat unést horním písmenem;
když je parametrem příkazu složka, je před názvem vyžadováno lomítko "/", například: Disallow: /category;
pokud soubor robots.txt váží více než 32 KB, vyhledávací roboti jej vnímají jako ekvivalent „Disallow:“ a považují jej za zcela umožňující indexování;
nedostupnost robots.txt (o různé důvody) mohou prohledávače vnímat jako absenci zákazů skenování;
prázdný robots.txt je považován za umožňující indexování webu jako celku;
pokud je uvedeno více příkazů "User-agent" bez prázdného řádku mezi nimi, mohou vyhledávací pavouci považovat první direktivu za jedinou a ignorovat všechny následující direktivy "User-agent";
robots.txt nepovoluje použití jakýchkoli symbolů národních abeced.

Výše uvedená pravidla nejsou relevantní pro všechny vyhledávače, protože interpretují syntaxi souboru robots.txt odlišně. Například "Yandex" vybírá položky podle přítomnosti v řádku "User-agent", takže pro něj nezáleží na přítomnosti prázdného řádku mezi různými direktivami "User-agent".

Obecně platí, že roboti by měli obsahovat jen to, co je skutečně potřeba pro správné indexování. Není třeba se snažit obejmout nezměrnost a vměstnat do dokumentu maximum dat. Nejlepší robots.txt je smysluplný soubor, na počtu řádků nezáleží.

Roboty textových dokumentů je třeba zkontrolovat na správnou strukturu a správnou syntaxi, což pomůže službám prezentovaným na webu. Chcete-li to provést, musíte nahrát soubor robots.txt do kořenové složky vašeho webu, jinak může služba nahlásit, že se jí nepodařilo načíst požadovaný dokument. Před robots.txt se doporučuje ověřit dostupnost na adrese souboru (vaše_stránky.ru/robots.txt).

Největší vyhledávače Yandex a Google nabízejí své služby analýzy webových stránek webmasterům. Jedním z aspektů analytické práce je kontrola robotů:

Soubor můžete zkontrolovat v Yandex.Webmaster na adrese http://webmaster.yandex.ru/robots.xml.
Na Googlu se ověřovací nástroje nacházejí na adrese https://www.google.com/webmasters/tools/siteoverview?hl=cz.

Na internetu je spousta online validátorů robots.txt, můžete si vybrat libovolný.

Pole ( => 24 [~ID] => 24 => 10.10.2019 18:52:28 [~TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IDLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Články od Pavla Bobyleva [~NAME] => Články od Pavla Bobyleva => 11744 [ ~PICTURE] = > 11744 => 13 [~LEFT_MARGIN] => 13 => 14 [~RIGHT_MARGIN] => 14 => 1 [~DEPTH_LEVEL] => 1 => Pavel Bobylev [~DESCRIPTION] => Pavel Bobylev => text [~DESCRIPTION_TYPE ] => text => Články od Pavla Bobyleva Pavel Bobylev [~SEARCHABLE_CONTENT] => Články od Pavla Bobyleva Pavel Bobylev => stati-pavla-bobyleva [~CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~URL_LIST_PAGE] => /blog/index .php?ID=6 => /blog/list.php?SECTION_ID=24 [~URL_SECTION_PAGE_URL] => /b log/list.php?SECTION_ID=24 => blog [~IBLOCK_TYPE_ID] => blog => blog [~IBLOCK_CODE] => blog => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)

Soubor robots.txt je sada direktiv (soubor pravidel pro roboty), pomocí kterých můžete vyhledávacím robotům zabránit nebo povolit indexování určitých sekcí a souborů vašeho webu a také poskytnout další informace. Zpočátku bylo s pomocí robots.txt skutečně možné zakázat pouze indexování sekcí, možnost povolit indexování se objevila později a zavedli ji vedoucí vyhledávání Yandex a Google.

Struktura souboru robots.txt

Nejprve je napsána direktiva User-agent, která ukazuje, na který crawler se instrukce vztahují.

Malý seznam dobře známých a běžně používaných uživatelských agentů:

User-agent:*
Uživatelský agent: Yandex
Uživatelský agent: Googlebot
Uživatelský agent: Bingbot
Uživatelský agent: YandexImages
Uživatelský agent: Mail.RU

Dále jsou specifikovány direktivy Disallow a Allow, které zakazují nebo povolují indexování sekcí, jednotlivých stránek webu nebo souborů, resp. Poté tyto kroky zopakujeme pro dalšího User-agenta. Na konci souboru je uvedena direktiva Sitemap, kde je uvedena adresa vašeho sitemapu.

Napsáním direktiv Disallow a Allow můžete použít speciální znaky * a $. Zde * znamená „libovolný znak“ a $ znamená „konec řádku“. Například Disallow: /admin/*.php znamená, že indexování všech souborů, které jsou ve složce admin a končí .php, je zakázáno, Disallow: /admin$ zakazuje adresu /admin, ale nezakazuje /admin. php nebo / admin/new/ , pokud existuje.

Pokud všichni User-agenti používají stejnou sadu direktiv, není potřeba tyto informace duplikovat pro každou z nich, User-agent: * postačí. V případě, že je potřeba doplnit informace pro některého z user-agentů, měli byste informace duplikovat a přidat nové.

Příklad robots.txt pro WordPress:

*Poznámka pro uživatelského agenta: Yandex

Zkontrolujte soubor robots.txt

Stará verze Search Console

Chcete-li zkontrolovat správnost souboru robots.txt, můžete použít Webmaster od Googlu- musíte přejít do sekce "Skenování" a poté "Zobrazit jako Googlebot" a poté kliknout na tlačítko "Získat a zobrazit". Výsledkem skenování budou dva snímky obrazovky webu, které ukazují, jak web vidí uživatelé a jak jej vidí vyhledávací roboti. A níže uvidíte seznam souborů se zákazem indexování, který brání správnému čtení vašeho webu vyhledávacími roboty (bude muset být povoleno jejich indexování pro robota Google).

Obvykle to mohou být různé soubory stylů (css), JavaScript a také obrázky. Poté, co těmto souborům povolíte indexování, oba snímky obrazovky v aplikaci Webmaster by měly být totožné. Výjimkou jsou soubory, které jsou umístěny vzdáleně, například skript Yandex.Metrica, tlačítka sociální sítě atd. Nebudete moci zakázat / povolit jejich indexování. Další informace o tom, jak vyřešit chybu „Googlebot nemá přístup k souborům CSS a JS na webu“, najdete na našem blogu.

Nová verze Search Console

V nová verze neexistuje žádná samostatná položka nabídky pro kontrolu robots.txt. Nyní stačí do vyhledávacího pole vložit adresu požadované země.

V dalším okně klikněte na „Prozkoumat naskenovanou stránku“.

V okně, které se objeví, můžete vidět zdroje, které jsou z toho či onoho důvodu pro robota Google nedostupné. V tomto konkrétním příkladu nejsou žádné zdroje blokované souborem robots.txt.

Pokud takové zdroje existují, zobrazí se následující zprávy:

Každý web má jedinečný soubor robots.txt, ale některé společné rysy lze uvést následovně:

Zavřete autorizační stránky, registrační stránky z indexování, zapamatujte si své heslo a další technické stránky.
Panel správy zdrojů.
Řazení stránek, stránek typu zobrazování informací na webu.
Pro stránky online nákupního košíku, oblíbené. Další podrobnosti si můžete přečíst v tipech pro internetové obchody o nastavení indexování na blogu Yandex.
Stránka vyhledávání.

Toto je pouze přibližný seznam toho, co lze uzavřít před indexováním z robotů vyhledávačů. V každém případě musíte pochopit individuálně, v některých situacích mohou existovat výjimky z pravidel.

Závěr

Soubor robots.txt je důležitým nástrojem pro regulaci vztahu mezi webem a robotem vyhledávače, je důležité věnovat jeho nastavení čas.

V článku velký počet informace jsou věnovány robotům Yandex a Google, ale to neznamená, že musíte vytvořit soubor pouze pro ně. Existují další roboti – Bing, Mail.ru atd. Soubor robots.txt můžete doplnit pokyny pro ně.

Mnoho moderních cms vytváří soubor robots.txt automaticky a může obsahovat zastaralé direktivy. Proto po přečtení tohoto článku doporučuji zkontrolovat soubor robots.txt na vašem webu a pokud tam jsou, je vhodné je smazat. Pokud nevíte, jak na to, kontaktujte nás

Robots.txt pro wordpress je jedním z hlavních nástrojů pro nastavení indexování. Dříve jsme hovořili o zrychlení a zlepšení procesu indexování článků. Navíc to považovali za problém, jako by vyhledávací robot nic nevěděl a nemohl. A my mu to musíme říct. K tomu jsme použili soubor Sitemap.

Možná stále nevíte, jak vyhledávací robot indexuje vaše stránky? Ve výchozím nastavení je povoleno indexovat vše. Ale neudělá to hned. Robot, který obdržel signál, že je nutné web navštívit, jej zařadí do fronty. Proto k indexování nedochází okamžitě na naši žádost, ale až po nějaké době. Jakmile je řada na vašem webu, tento pavoučí robot je přímo tam. Nejprve hledá soubor robots.txt.

Pokud je robots.txt nalezen, přečte všechny směrnice a na konci uvidí adresu souboru. Poté robot v souladu s mapou webu obchází všechny materiály poskytnuté k indexování. Dělá to v omezeném časovém období. To je důvod, proč, pokud jste vytvořili web s několika tisíci stránkami a zveřejnili jej celý, robot prostě nebude mít čas obejít všechny stránky najednou. A do indexu se dostanou jen ty, které si stihl prohlédnout. A robot chodí po celém webu a tráví na něm svůj čas. A není pravda, že na prvním místě uvidí ve výsledcích vyhledávání přesně ty stránky, na které čekáte.

Pokud robot nenalezne soubor robots.txt, má za to, že vše je povoleno indexovat. A začne se prohrabovat všemi zapadlými uličkami. Po vytvoření kompletní kopie všeho, co mohl najít, opustí váš web až do příště. Jak jste pochopili, po takovém hledání se vše, co je potřeba, a vše, co není potřeba, dostane do indexové báze vyhledávače. Co potřebujete vědět, jsou vaše články, stránky, obrázky, videa atd. Proč nepotřebujete indexovat?

Pro WordPress se to ukazuje jako velmi důležitý problém. Odpověď na ni ovlivňuje jak zrychlení indexace obsahu vašeho webu, tak jeho bezpečnost. Jde o to, že všechno servisní informace není třeba indexovat. A obecně je žádoucí skrýt soubory WordPress před zvědavýma očima. Snížíte tak možnost napadení vašeho webu.

WordPress vytváří spoustu kopií vašich článků s různými adresami URL, ale se stejným obsahem. Vypadá to takto:

//název_webu/název_článku,

//název_webu/název_kategorie/název_článku,

//název_webu/název_nadpisu/název_podnadpisu/název_článku,

//site_name/tag_name/article_name,

//název_webu/datum_vytvoření_archivu/název_článku

Se štítky a archivy v obecné stráži. K kolika tagům je článek připojen, tolik kopií se vytvoří. Při editaci článku bude vytvořeno tolik archivů v různých datech, tolik nových adres s téměř podobným obsahem. A jsou tam i kopie článků s adresami u každého komentáře. Je to prostě hrozné.

Obrovské množství duplikátů vyhledávače vyhodnotí jako špatné stránky. Pokud jsou všechny tyto kopie indexovány a poskytnuty ve vyhledávání, pak se váha hlavního článku rozloží na všechny kopie, což je velmi špatné. A není pravda, že se jako výsledek vyhledávání zobrazí článek s hlavní adresou. Proto je nutné zakázat indexování všech kopií.

WordPress formátuje obrázky jako samostatné články bez textu. V této podobě bez textu a popisu vypadají jako články absolutně nekorektní. Proto musíte přijmout opatření, která zabrání tomu, aby tyto adresy byly indexovány vyhledávači.

Proč by to nemělo být indexováno?

Pět důvodů, proč zakázat indexování!

Úplné indexování zvyšuje zatížení serveru.
Robotovi samotnému to zabere drahocenný čas.
To je možná to nejdůležitější, nesprávné informace mohou být vyhledávači špatně interpretovány. To povede k nesprávnému hodnocení článků a stránek a následně k nesprávným výsledkům ve výsledcích vyhledávání.
Složky se šablonami a pluginy obsahují obrovské množství odkazů na stránky tvůrců a inzerentů. To je velmi špatné pro mladý web, když na váš web zatím neexistují žádné nebo jen velmi málo odkazů zvenčí.
Indexováním všech kopií vašich článků v archivech a komentářích získá vyhledávač špatné mínění o vašem webu. Spousta duplikátů. Mnoho odchozích odkazů Vyhledávač sníží úroveň vašich stránek ve výsledcích vyhledávání až do bodu filtrování. A obrázky, koncipované jako samostatný článek s názvem a bez textu, robota děsí. Pokud je jich hodně, může web pod filtrem Yandex AGS chrastit. Můj web tam byl. Kontrolovány!

Nyní po tom všem, co bylo řečeno, vyvstává rozumná otázka: „Je možné nějak zakázat indexování něčeho, co není nutné?“. Ukazuje se, že můžete. Alespoň ne na objednávku, ale na doporučení. K situaci ne úplného zákazu indexování některých objektů dochází díky souboru sitemap.xml, který je zpracováván po robots.txt. Dopadne to takto: robots.txt zakazuje a sitemap.xml povoluje. A přesto můžeme tento problém vyřešit. Jak to udělat právě teď a zvážit.

Soubor wordpress robots.txt je ve výchozím nastavení dynamický a ve wordpressu ve skutečnosti neexistuje. A generuje se až ve chvíli, kdy si to někdo vyžádá, ať už je to robot nebo jen návštěvník. To znamená, že pokud půjdete na web přes FTP připojení, pak soubor robots.txt pro wordpress v kořenové složce prostě nenajdete. A pokud v prohlížeči zadáte jeho konkrétní adresu http://název_vašeho_stránky/robots.txt, pak se vám jeho obsah zobrazí na obrazovce, jako by soubor existoval. Obsah tohoto vygenerovaného souboru wordpress robots.txt bude:

V pravidlech pro kompilaci souboru robots.txt je standardně povoleno indexovat vše. Direktiva User-agent: * označuje, že všechny následující příkazy platí pro všechny vyhledávací agenty (*). Ale pak není nic omezeno. A jak víte, to nestačí. O složkách a záznamech s omezeným přístupem jsme již diskutovali poměrně hodně.

Abyste mohli provádět změny v souboru robots.txt a ukládat je tam, musíte jej vytvořit ve statické, trvalé podobě.

Jak vytvořit soubor robots.txt pro wordpress

V libovolném textovém editoru (pouze v žádném případě nepoužívejte MS Word a podobně s prvky automatického formátování textu) vytvořte textový soubor s následujícím přibližným obsahem a odešlete jej do kořenové složky vašeho webu. Změny lze provádět podle potřeby.

Stačí vzít v úvahu funkce kompilace souboru:

Na začátku řádků čísel, jako zde v článku, by nemělo být. Čísla jsou zde uvedena pro usnadnění kontroly obsahu souboru. Na konci každého řádku by neměly být žádné další znaky, včetně mezer nebo tabulátorů. Mezi bloky by měl být prázdný řádek bez jakýchkoli znaků, včetně mezer. Jen jeden prostor vám může hodně uškodit – POZOR .

Jak zkontrolovat soubor robots.txt pro wordpress

Následujícím způsobem můžete zkontrolovat, zda v souboru robots.txt nejsou mezery navíc. V textovém editoru vyberte veškerý text stisknutím Ctrl+A. Pokud na konci řádků nejsou žádné mezery a prázdné řádky, všimnete si toho. A pokud je vybraná mezera, musíte odstranit mezery a vše bude v pořádku.

Správné fungování předepsaných pravidel můžete zkontrolovat na následujících odkazech:

Analýza souboru robots.txt Webmaster Yandex
Analýza souboru robots.txt v konzoli Vyhledávání Google .
Služba pro vytvoření souboru robots.txt: http://pr-cy.ru/robots/
Služba pro vytváření a kontrolu robots.txt: https://seolib.ru/tools/generate/robots/
Dokumentace od Yandex .
Dokumentace od google(Angličtina)

Existuje další způsob, jak zkontrolovat soubor robots.txt pro web wordpress, je nahrát jeho obsah webmasterovi Yandex nebo zadat adresu jeho umístění. Pokud se vyskytnou nějaké chyby, budete to okamžitě vědět.

Opravte soubor robots.txt pro wordpress

Nyní se vrhneme přímo na obsah souboru robots.txt pro web wordpress. Jaké směrnice v něm musí být přítomny. Přibližný obsah souboru robots.txt pro wordpress, vzhledem k jeho funkcím, je uveden níže:

User-agent: * Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: */*comments Disallow: * /*kategorie Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /?s= Allow: /wp-admin/admin-ajax.php Allow: /wp-content /uploads/ Allow: /*?replytocom User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: */comments Disallow: */*category Disallow: */*tag Disallow: */trackback Disallow: */*feed Disallow: /*?* Disallow: /*?s= Allow: /wp-admin/admin- ajax.php Allow: /wp-content/uploads/ Allow: /*?replytocom Crawl-delay: 2.0 Host: site.ru Sitemap: http://site.ru/sitemap.xml

Direktivy wordpress robots.txt

Nyní se podíváme blíže:

Nastavení bloku 1 - 16 řádků pro všechny roboty

User-agent: - Toto je povinná direktiva, která definuje vyhledávacího agenta. Hvězdička říká, že směrnice je pro roboty všech vyhledávačů. Pokud je blok určen pro konkrétního robota, musíte zadat jeho název, například Yandex, jako na řádku 18.

Ve výchozím nastavení je pro indexování povoleno vše. To je ekvivalentní direktivě Allow: /.

Proto pro zákaz indexování konkrétních složek nebo souborů se používá speciální direktiva Disallow:.

V našem příkladu s použitím názvů složek a masek názvů souborů je proveden zákaz všech složek služeb WordPress, jako jsou admin, témata, pluginy, komentáře, kategorie, tag... Pokud zadáte direktivu v tomto tvaru Disallow: /, pak bude udělen zákaz indexování celého webu.

Povolit: - jak jsem řekl, směrnice umožňuje indexování složek nebo souborů. Mělo by být použito, pokud jsou hluboko v zakázaných složkách soubory, které je stále třeba indexovat.

V mém příkladu řádek 3 Disallow: /wp-admin - zakazuje indexování složky /wp-admin a řádek 14 Allow: /wp-admin/admin-ajax.php - umožňuje indexování souboru /admin-ajax.php umístěný v zakázané složce indexování /wp-admin/.

17 - Prázdný řádek (stačí stisknout tlačítko Enter bez mezer)

Blok nastavení 18 - 33 speciálně pro agenta Yandex (User-agent: Yandex). Jak jste si všimli, tento blok zcela opakuje všechny příkazy předchozího bloku. A vyvstává otázka: "Co je to sakra za průšvih?". Takže to vše je provedeno jen kvůli několika směrnicím, které budeme dále zvažovat.

34 - Crawl-delay - Volitelná direktiva pouze pro Yandex. Používá se, když je server silně zatížen a nemá čas zpracovávat požadavky robota. Umožňuje nastavit vyhledávacímu robotu minimální prodlevu (v sekundách a desetinách sekundy) mezi koncem načítání jedné stránky a začátkem načítání další. Maximální povolená hodnota je 2,0 sekundy. Přidává se přímo za direktivy Disallow a Allow.

35 - Prázdný řetězec

36 - Host: site.ru - název domény vašeho webu (povinná směrnice pro blok Yandex). Pokud naše stránky používají protokol HTTPS, musí být adresa uvedena celá, jak je uvedeno níže:

Host: https://site.ru

37 - Musí být přítomen prázdný řetězec (stačí stisknout tlačítko Enter bez mezer).

38 - Sitemap: http://site.ru/sitemap.xml - adresa umístění souboru (souborů) sitemap.xml (direktiva MANDATORY), umístěná na konci souboru za prázdným řádkem a platí pro všechny bloky.

Masky pro direktivy souboru robots.txt pro wordpress

Nyní trochu, jak vytvořit masky:

Disallow: /wp-register.php - Zakáže indexování souboru wp-register.php umístěného v kořenové složce.
Disallow: /wp-admin – zakáže indexování obsahu složky wp-admin umístěné v kořenové složce.
Disallow: /trackback - zakáže indexování oznámení.
Disallow: /wp-content/plugins – zakáže indexování obsahu složky pluginů umístěné v podsložce (složka druhé úrovně) wp-content.
Disallow: /feed - zakáže indexování zdroje, tj. zavře zdroj RSS webu.
* - znamená libovolnou posloupnost znaků, proto může nahradit jak jeden znak, tak část názvu nebo celý název souboru nebo složky. Absence konkrétního jména na konci se rovná zápisu *.
Disallow: */*komentáře - zakáže indexování obsahu složek a souborů, v jejichž jménu jsou komentáře a které se nacházejí v libovolných složkách. V tomto případě zabrání indexování komentářů.
Disallow: *?s= - zakáže indexování vyhledávacích stránek

Výše uvedené řádky lze použít jako pracovní soubor robots.txt pro wordpress. Pouze do 36, 38 řádků musíte zadat adresu svého webu a POVINNĚ ODSTRANIT čísla řádků. A získáte funkční soubor robots.txt pro wordpress , přizpůsobený jakémukoli vyhledávači.

Jedinou funkcí je, že velikost pracovního souboru robots.txt pro web wordpress by neměla přesáhnout 32 kB místa na disku.

Pokud vás Yandex absolutně nezajímá, pak nebudete vůbec potřebovat řádky 18-35. To je asi vše. Doufám, že článek byl užitečný. Pokud máte nějaké dotazy napište do komentářů.