A Google megint csiszolt egy picit a de facto szabvánnyá lett Robots Exclusion Protocol-on (REP). Gondolom ezt senkinek nem kell bemutatni, a használata világos, gyakorlatilag ennek a segítségével “kommunikálunk” a crawlerekkel, hogy mit nem szeretnénk ha indexelnének, stb.

A robotokat elsőként a robots.txt-ben adott utasításokat nézik meg - ha van ilyen -, de egy adott oldalból is kérhetjük őket HTML META direktívák segítségével. Itt egy elég szép leírást találunk a fent említettek használatáról:

Inside Google Sitemaps: Using a robots.txt file

Az eddigieken felül használható újdonságok:

UNAVAILABLE_AFTER Meta Tag - Gyakorlatileg megmondjuk a crawler-nak, hogy az adott oldal “mikor jár le”. Ezután a nap után, az oldal nem lesz megtalálható a SERP-ben. Ha tehát azt szeretném, hogy a seonyár2008 oldalam 2008. július 1 után ne tűnjön fel többet, akkor ezt írom az oldalamba:

<META NAME="GOOGLEBOT" CONTENT="unavailable_after: 01-Jul-2008 12:01:00 EST">

NOIMAGEINDEX Meta Tag - Az adott oldal képeit nem fogja mutatni a találati listában. Ha tehát ezt beszúrom a seonyár2008 blogom főoldalára, akkor onnan egy kép sem kerül a találati listákba. Képkeresésnél sem:

<meta name="robots" content="noimageindex">

NOTRANSLATE Meta Tag - Ha azt szeretnénk, hogy a Google Fordító ne fordítsa le a weboldalunkat.

<meta name="google" value="notranslate">

Forrás:Improving on Robots Exclusion Protocol