Jeg mangler dog, hvis indholdets "a href" kun indeholder undersider (eksempel "/index.php" og ikke "domæne.dk/index.php"). Kan man på nogen måde få flettet ind, at den ligeledes finder det der står i href samtidigt alle andre domæner, som evt. blot står skrevet i sidens tekst-indhold?
Din preg_match_all du har der, vil finde alle "fulde" url'er på siden.
Dem smider du ind i et array eller lign.
Herefter laver du en preg_match_all der finder alle href="...." og så må du "smage" på om der er tale om fuld url eller ej. Starter den ikke med http / ftp eller lign, så kan du smide den "url" du crawler ind og herefter smide den "fulde-url" ind i dit array fra før.
Så kan du lave en unique på det array og du har alle urls.
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.