Avatar billede eric-pedersen Nybegynder
08. maj 2008 - 18:59 Der er 2 kommentarer

Max størrelse på robot.txt

Kæresten og jeg har lavet en større investering og købt et nyt domæne inkl. kode.

Sitet er desværre kodet på en måde så når man går fra underside til underside vokser url'en. Når google eller andre søgemaskiner kommer forbi, vil de finde 10.000 sider (eller rettere uendeligt mange) med det samme indhold.

For at illustrere hvad jeg mener (uden at skulle smide en reference herinde) er her et eksempel: Hvis man går ind på netspil.dk som fungerer på samme måde, og derefter klikker nederst på underside 2 ---> vælger side 1 igen ---> og derefter side 2 igen.
Så har man en url der hedder: netspil.dk/index.php?&offset=8&offset=0&offset=8
Men da man første gang gik ind på side 2 hed url'en
netspil.dk/index.php?&offset=8
Så søgemaskinerne vil på hver underside de besøger finde nye links til sider den allerede har besøgt.


Jeg sidder så og er igang med at lave en robot.txt for at forhindre dette, men for dælen der er mange linier (Har fundet en måde til at generere det, så det er ikke det som er problemet)
Ligesom på netspil, så har vi også flere kategorier med flere undersider, så selvom vi nøjes med at "disallow" i 2 niveauer (2 x &offset=x) som f.eks. /index.php?&offset=8&offset=0
Så har vil robot.txt få omkring 2000 linier med disallow

Er der nogen der ved hvor stor robot.txt må være, eller har forslag til hvordan man ellers kommer udenom at google indekserer for mange sider.

Jeg ved godt at man kan vælge "allow" på de sider som de skal finde, men der skal tit oprettes nye sider, og så ville det være noget møg hvis man lige kommer til at glemme enkelte sider.
Men modsat, så ved (eller tror) jeg også at det er den eneste mulighed hvis den ikke må være ret stor.
Avatar billede madx Nybegynder
08. maj 2008 - 19:21 #1
pyyyyh, det lyder ikke godt... jeg ville ikke forlade mig på en robots.txt her - uanset hvor stor dem må være, hvad jeg iøvrigt ikke har noget nærmere kendskab til

Har prøvet noget tilsvarende, valgte at kode det sådan at der var 1 side til 1 url. Det hjalp.
Avatar billede erikjacobsen Ekspert
08. maj 2008 - 23:02 #2
Er det ikke nemmere at få rettet fejlen i koden. Programmøren havde vist fået for mange røde sodavand den dag.

Jeg havde selv en "uendelig" kalender på en webside, for mange år siden. Man kunne bladre frem og tilbage til vilkårligt årstal og måned. Og ja, i loggen kunne man se søgemaskiner febrilsk lede efter data i år 2117 (eller hvad det var). Eller også var det 1864. Det ved søgemaskiner i dag, og de gør vist det, at de begrænser antallet af sider fra et site som udgangspunkt, og kigger lidt efter ens indhold.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester