Fange bestemte a href'er i html dokument
Hejsa folkens.Jeg sidder lidt og roder med noget crawler værk og jeg har formodentlig bare stirret mig blind på det, men jeg ka nganske enkelt ikke finde en lækker måde at gøre følgende på via regex. Det skal lige siges at jeg bruger det i en windows .net applikation men det burde være perl based regexp så vidt jeg ved.
Jeg har en input streng der indeholder et HTML dokument der er crawlet fra en url.
Jeg ønsker at løbe dette dokument igennem og finde alle de links der eksistere til andre sider inden for det samme site.
Dvs det skal være links af følgende former:
<a href="/mitdir/minfil.minextension"....
<a href="mitdir/minfil.minextension"...
<a href=http://www.mitdomæne/mitdir/minfil.minextension"
Derudover vil det være at foretrække at kunne definere gyldige fil extensions således at den ikke tager .css med f.eks (hvis der er defineret et externt stylesheet), men kun links der reelt vil føre videre til en side der vil give html tilbage.
Jeg har rodet med nogle forsøg men de er alle klodsede, lange og kan kun opfylde en del af ønskerne.
Er der nogle af jer der skulle have ideer til en løsning eller måske ligefrem er stødt på problemet før og kan give mig en komplet løsning, så vil det hjælpe mig gevaldigt! :)
De bedste hilsner
Oscar Eg Gensmann