Max størrelse på robot.txt
Kæresten og jeg har lavet en større investering og købt et nyt domæne inkl. kode.Sitet er desværre kodet på en måde så når man går fra underside til underside vokser url'en. Når google eller andre søgemaskiner kommer forbi, vil de finde 10.000 sider (eller rettere uendeligt mange) med det samme indhold.
For at illustrere hvad jeg mener (uden at skulle smide en reference herinde) er her et eksempel: Hvis man går ind på netspil.dk som fungerer på samme måde, og derefter klikker nederst på underside 2 ---> vælger side 1 igen ---> og derefter side 2 igen.
Så har man en url der hedder: netspil.dk/index.php?&offset=8&offset=0&offset=8
Men da man første gang gik ind på side 2 hed url'en
netspil.dk/index.php?&offset=8
Så søgemaskinerne vil på hver underside de besøger finde nye links til sider den allerede har besøgt.
Jeg sidder så og er igang med at lave en robot.txt for at forhindre dette, men for dælen der er mange linier (Har fundet en måde til at generere det, så det er ikke det som er problemet)
Ligesom på netspil, så har vi også flere kategorier med flere undersider, så selvom vi nøjes med at "disallow" i 2 niveauer (2 x &offset=x) som f.eks. /index.php?&offset=8&offset=0
Så har vil robot.txt få omkring 2000 linier med disallow
Er der nogen der ved hvor stor robot.txt må være, eller har forslag til hvordan man ellers kommer udenom at google indekserer for mange sider.
Jeg ved godt at man kan vælge "allow" på de sider som de skal finde, men der skal tit oprettes nye sider, og så ville det være noget møg hvis man lige kommer til at glemme enkelte sider.
Men modsat, så ved (eller tror) jeg også at det er den eneste mulighed hvis den ikke må være ret stor.