Robotter
Robots.txt
Her finder du en forklaring af hvordan man bruger robots.txt, til at styre hvordan søgemaskiner skal indeksere din hjemmeside. Husk at robots.txt ikke er en fast standard, og at den ikke er nogen sikkerhed. De fleste søgemaskiner understøtter robots.txt, men det er helt op til søgemaskinen hvad den gør.
Robots.txt skal ligge i roden af dit webhotel, f.eks. www.dit-domaene.dk/robots.txt og skal skrives med små tegn. Nedenstående eksempel beder robotten om følgende:
- Alle typer robotter tillades (User-agent: *)
- Ikke at indeksere folderen /beta-kode
- Ikke at indeksere filen /folder/kode-der-crasher.asp
- Ikke at indeksere nogen foldere der starter med /inc
User-agent: * Disallow: /beta-kode/ # Folder og filer i folder Disallow: /folder/kode-der-crasher.asp # Kun fil Disallow: /inc # Foldere og filer i roden der starter med inc
Her følger et eksempel hvor robotten WebCrawler gerne må indeksere alt, men alle andre robotter bliver bedt om ikke at indeksere noget.
# Stop alle agenter User-agent: * Disallow: / # Undtagen webcrawler, den må alt User-agent: WebCrawler Disallow:
Nogle bruger også ordet Allow, men dette er ikke en del af den originale standard og man kan derfor ikke regne med at Allow virker.
| Link | Beskrivelse |
|---|---|
| Robots.txt standarden | Robots.txt hjemmesiden, se en forklaring og et indeks over aktive robotter. |
| Syntax checker | En side der kan checke din robots.txt fil for at sikre at den ikke indeholder fejl. |
Meta tags
Man kan også bruge meta tags på specifikke sider for at styre robotten. Følgende tag gør at robotten ikke indekserer siden:
<meta name="robots" content="noindex">
Disse tags gør at robotten bliver bedt om at indeksere siden og reindeksere den om 2 uger.
<meta name="robots" content="all"> <meta name="revisit-after" content="15 days">
NOODP
Normalt vil en søgemaskine hente title
og description
fra
Open Directory, hvis du gerne vil have at søgemaskinen
henter informationen fra sidens tags, kan du bruge:
<!-- Alle robotter --> <meta name="ROBOTS" content="NOODP"> <!-- Kun for MSN --> <meta name="msnbot" content="NOODP"> <!-- Kun for Google --> <meta name="googlebot" content="NOODP">
Diverse
Diverse tags:
<!-- Bed søgemaskiner om ikke at vise et "Cached" link for siden --> <meta name="ROBOTS" content="NOARCHIVE"> <!-- Bed søgemaskiner om ikke at følge/indeksere link fra siden --> <meta name="ROBOTS" content="NOFOLLOW"> <!-- Bed søgemaskiner om hverken at indeksere siden eller følge link fra siden, via kombination af flere tags --> <meta name="ROBOTS" content="NOINDEX, NOFOLLOW"> <!-- Bed søgemaskiner om ikke at vise små stykker tekst fra siden --> <meta name="ROBOTS" content="NOSNIPPET">
