Hvordan finder man danske telefonnumre i en websides HTML tekst
Hej, jeg skal udvikle et program der skal udtrække danske telefonnumre, fra et HTML dokument. Til det formål vil jeg bruge en regex og scanne html-siden igennem.
Jeg har foreløbigt lavet en regex der hedder:
((\(?\+45\)?)?)(\s?\d{2}\s?\d{2}\s?\d{2}\s?\d{2})
Den første del af regex'et skulle virke hvis der står +45 foran telefonnummeret. Desuden er der optional mellemrum mellem hvert to talpar.
Den virker desværre kun på ganske få websider. De fleste steder jeg prøver, får jeg en masse tal som ikke er telefonnumre: Fra comon.dk's hjemmeside fx 11800986.
Er der nogen som kan gennemskue hvad der er galt i mit regex?
Det er jo svært helt at undgå, da 8-cifrede tal jo kan være hvad som helst, men du kunne jo starte med at filtrere det fra der IKKE kan være gyldige telefonnumre - dem der starter med 0 eller 1:
Husk dog lige på at der også er nogle der skriver dem som 87 654 321, og det fanger den jo heller ikke.
Det var måske også en god ide at lægge noget lookahead/lookbehind ind så du ikke fanger noget der er en del af en attribut i et tag, men det er ikke noget jeg lige kan lave i hovedet, og jeg har ikke den software jeg normalt bruger til at lave regexes tilgængelig lige nu.
Hej roenvig, hvad mener du med word-booundary. Hvad er det \b? gør. Jeg er lidt ny i regex verdenen.
Pidgeot, det var smart at filtere 1 og 2 fra. Det havde jeg ikke tænkt på. Lookahead og lookbehind, der er jeg igen stået lidt af. Kan du give et eksempel når du har din software tilgængelig? Tak.
Hej pidgeot, nu er der bare det problem at html sider ofte ikke er statiske, dvs der optræder ikke altid et > og et <. Hos De Gule Sider bliver resultatet af en søgning fx:
-- der skulle stå 6, fordi der var 2 tegn foran ( \d og [2-9] !-)
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.