Avatar billede apo Praktikant
20. august 2006 - 12:59 Der er 6 kommentarer og
1 løsning

Robots.txt og /disallow

Hej :o)

Jeg er blevet godt og grundigt i tvivl om hvordan man i robots.txt angiver at bot'erne skal tilgå nogle filer og mapper i en bestemt rodmappe men ignorere andre.

Følgende fil skal indekseres:

  /Information/

Følgende filer skal ikke indekseres:

  /Information/Betingelser/
  /Information/Politik/

Default-filerne i mapperne hedder 'Default.asp'

Hvordan angiver jeg det?

Jeg har kigget på www.robotstxt.org men er ikke blevet klogere...
Avatar billede groenaert Novice
20. august 2006 - 13:03 #1
Måske dette kan hjælpe: http://www.html.dk/artikler/00003/

Groenaert.
Avatar billede apo Praktikant
20. august 2006 - 13:09 #2
Jeg tør virkelig ikke stole på en artikel fra HTML.dk - Især kke når det drejer sig om søgemaskineoptimering :o)

Samtidig vil jeg gerne have et udsagn der er 'up to date' i stedet for HTML.dks som er: "Sidst opdateret 26. oktober 2000"
Avatar billede madx Nybegynder
20. august 2006 - 13:35 #3
Skal alt crawles, så ser den sådan ud

User-agent: *
Disallow:

Skal alt crawles, men med undtagelser, ser den sådan ud
User-agent: *
Disallow: /Information/Betingelser/
Disallow: /Information/Politik/
Avatar billede apo Praktikant
20. august 2006 - 13:40 #4
madx > Vil index-filen i mappen /Information/ så ikke blive 'disallowed'?

Det er kun index-filen, jeg ønsker tilladt. De resterende undermapper og filer i /Information/ skal være 'disallowed'.
Avatar billede apo Praktikant
20. august 2006 - 13:43 #5
Skrevet på en anden måde:

Følgende fil skal indekseres:

  /Information/Default.asp

Følgende filer skal ikke indekseres:

  /Information/Betingelser/Default.asp
  /Information/Politik/Default.asp

Så er det måske bedre forklaret :o)
Avatar billede apo Praktikant
20. august 2006 - 22:48 #6
madx > Kan du svare på mit spørgsmål (20/08-2006 13:40:45)?
Avatar billede apo Praktikant
20. august 2006 - 23:30 #7
Jeg forstod åbenbart ikke denne korrekt da jeg læste den første gang:

"To exclude all files except one

This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:

User-agent: *
Disallow: /~joe/docs/"

http://www.robotstxt.org/wc/exclusion-admin.html

Ovenstående gør at alle filer i /docs/ ikke indekseres men evt. filer i /~joe/, som ligger over mappen /docs/ men under /~joe/ _bliver_ indekseret.

madx > Du fik ikke svaret helt tydeligt på mit spørgsmål, så jeg kan ikke give points for det da jeg selv fandt svaret. Men tak for forsøget :o)

Jeg lukker her.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester



IT-JOB

Danske Commodities A/S

Procurement manager

Cognizant Technology Solutions Denmark ApS

Service Line Specialist - ServiceNow (Thirdera)

Netcompany A/S

IT Consultant

Udviklings- og Forenklingsstyrelsen

UI-designer med flair for apps