Buďte dobrý k slušným robotom

Digichef

Nebýva zvykom aby mohol PPC špecialista v agentúre ovplyvniť dopadové stránky svojho klienta. Nie každý ale trpí týmto problémom a mnohokrát keď váš klient vie, že úpravy sú pre jeho dobro, môžete dosiahnuť svoje. Dnes sa dozviete niečo o súbore robots.txt a prečo by ste mu mali venovať pozornosť ak máme možnosť pracovať priamo s dopadovými stránkami reklamy v AdWords.

O akých robotoch to hovorím?

Viete, ako sa vaše údaje o vašich stránkach dostanú do indexu Googlu? Dostane ich tam Googlebot, čo je v praxi počítačový program, ktorý systematicky prechádza internetom a zaznamenáva všetko na čo narazí. Slovo „všetko“ je ale v tomto prípade zavádzajúce. Keď totiž akýkoľvek takýto takzvaný „web crawler“ (v preklade snáď „webový lozič“) príde na vašu stránku z akéhokoľvek dôvodu, prvé miesto, kam sa pozrie, je spomínaný robots.txt v koreňovom adresári vášho webu.

Pomocou robots.txt sme schopný zabrániť robotom prístup do častí našich stránok, čo môže byť praktické pre zakázanie indexovania rôznych skriptov, typov súborov a neverejných častí stránky, ktoré nechcete aby sa zobrazovali vo výsledkoch vyhľadávania. Môžete robota nasmerovať k XML sitemape, o nej si ale možno povieme v inom článku.

Robots.txt je známy aj ako Protokol pre zakázanie prístupu robotom (Robots exclusion standard). Samotný súbor je obyčajný textový, v ASCII kódovaní. Treba pripomenúť, že robots.txt funguje skôr ako doporučenie než pravidlo, nie každý robot musí byť nastavený, aby ho bral do úvahy. Roboty Googlu sú ale slušne vychované a budeme sa venovať práve im.

Prečo im venovať pozornosť?

V našej brandži, teda reklame v AdWords, sa bežne stretávame s dvoma robotmi. Prvým je spomínaný Googlebot, ktorý prechádza stránku po stránke aby mohla byť zaradená do indexu Googlu. Druhým je “AdsBot-Google”. Keď vložíte do účtu reklamy s v účte novými dopadovými stránkami, prejde dopadové stránky vašich reklám aby určil ich skóre kvality a v pravidelných intervaloch sa vracia. Čo presne hodnotí nám Google úplne povedať nechce, súčasťou hodnotenia ale určite je doba načítania stránky, výskyty kľúčových slov na stránke ale aj kam smerujú odkazy z danej stránky.

Čo ale ak sme si pripravili pre reklamu samostatné dopadové stránky, odlišné od stránok, popisujúcich propagovaný produkt či službu v bežnej hierarchii webu? Pre jedného robota budú perfektne relevantné k reklame, druhý ale nebude chápať, prečo opisujeme na webe to isté viackrát na rôznych stránkach a zníži naše hodnotenie. Preto tieto stránky pre daného robota zablokujeme.

Alebo za nami môže prísť klient a pýtať sa, prečo sa nejaká časť jeho stránky nezobrazuje ani na dvaciatej strane vyhľadávania Googlu, keď je predsa relevantná. Pritom sa možno nachádza v zložke, do ktorej roboti nemajú prístup. Keď správca PPC kampane vie niečo o technickom pozadí stránky, určite bude vedieť klientovi lepšie poradiť ako v opačnom prípade.

Google má samostatného robota pre vyhodnocovanie kvality mobilných dopadových stránok, nakoľko tieto majú iné faktory, určujúce ich kvality. Ak chcete mať istotu, že tento robot uvidí len mobilné stránky, nastavte robots.txt aby mal AdsBot-Google-Mobile prístup len k mobilným verziám a normálny AdsBot zas len k desktopovým verziám.

Rozdiel v prístupe týchto robotov je, že AdsBoti ignorujú zákazy, dané obecne všetkým robotom. To je z dôvodu, aby stránka, ktorá zakázala prístup všetkým robotom, netrpela zníženou kvalitou kvôli tomu, že AdsBot nebol schopný určiť kvalitu. Keď platíte za zvýšenie premávky na stránku, logicky by ste nemali blokovať jeden z nástrojov, ktorý vám k tomu napomáha. Ak chcete teda AdsBotovi zakázať prístup do časti webu, musíte danú výluku definovať špecificky preňho. Ako?

Úpravy v robots.txt

Keď chceme robotovi zakázať prístup do zložky, musíme najskôr definovať akému robotovi pomocou hodnoty „User-agent:“ a následne špecifikovať, kam nesmie a to pomocou „Disallow:“. Ak by sme teda chceli zablokovať všetkých slušne vychovaných robotov (teda okrem AdsBota kvôli spomenutým dôvodom) z celého webu okrem jednej zložky, vyzeral by robots.txt takto:

User-agent: *
Disallow: /
Allow: /indexuj-toto

Hviezdička značí „všetko“, lomítko zas koreňový adresár. Pokiaľ chcete blokovať celý web len pre špecifických robotov, vypíšete ich, oddelených čiarkou, za User-agent. Zablokovať či udeliť prístup môžete aj k viacerím prvkom, v tom prípade budete mať riadok Disallow či Allow viackrát.

Dajte si ale pozor na následovný scenár. Zabránime Googlebotovi prístup do jediného adresára. Všetkým robotom zabránime prístup do iného adresára. Googlebot do tohto druhého adresára prístup mať bude, nakoľko sme určili pravidlá špecificky preňho a v nich mu tento prístup zakázaný nebol.

Existujú aj ďalšie možnosti, ktoré nemusí rešpektovať každý robot, napríklad príkazom sitemap dáte robotovi najavo, kde má hľadať mapu stránky v XML. Najužitočnejšia z tejto kategórie mi príde možnosť porovnania reťazca na základe istých pravidiel (také zjednodušené regulérne výrazy). Napríklad ak chceme AdsBotovi zabrániť indexovanie JavaScriptových súborov, použijeme:

User-agent: AdsBot-Google
Disallow: /*.js$

Znak doláru je ukončovacím znakom, robot vďaka nemu vie, že tu končí reťazec, ku ktorému sa Disallow vzťahuje.

Osveta o základoch?

Verím, že teraz vidíte trochu hlbšie do fungovania webových stránok a spôsobu ich indexovania. Možnosti som samozrejme neopísal všetky, to ale ani nebolo zámerom. Verím, že každý kto sa venuje online reklame by mal rozumieť aspoň základným stavebným kameňom webov, s ktorými pracuje. Roboti navštevujú weby pravidelne a často. Teraz už viete ovplyvniť, ako sa budú správať.

  • Celkový průměr hodnocení: 2.33 z 5
  • 2.33
  • 2.33
  • 2.33
  • 2.33
  • 2.33

16. srpna 2011

K článku již nelze přidávat další komentáře.

  1. Martin | 16. srpna 2011

    možno ešte lepšou alternatívou (aj keď beriem, že skôr pre webmasterov než PPC-čkárov) je použitie CANONICAL tagu

  2. Michal Chamilla | 16. srpna 2011

    Súhlasím, je ale menšia pravdepodobnosť, že PPCčkar bude môcť ovplyvniť bežné stránky webu. Na vloženie pár riadkov do robots.txt presvedčíte klienta skôr. :)

    Taktiež tak trochu rátam s tým, že na stránky určené výhradne ako dopadové pre reklamu nebudú smerovať spätné odkazy, takže problém ich trieštenia pri použití robots.txt by nastať nemal.