Parsing af bestemte dele af en HTML-side.
Hej med jer.Jeg er påbegyndt at lære om Perl og hvorledes man parser dele af en HTML-fil. Specifikt omhandler det én af mine gamle sider (http://home.tiscali.dk/taiwan/myworld.html), hvor jeg ønsker at smide linksene (<a href="www.link.com">), samt den associerende tekst (.com">associerende tekst</a>) ind i to felter i en database, ergo skal de øvrige HTML-tags fjernes.
Jeg har fundet ud af at forbinde til MySQL med Perl, og eksperimenteret lidt med HTML::Parser, men er stadig i tvivl om hvordan man griber situationen an.
Jeg har bemærket at en så simpel kode som nedenstående returnerer dele af HTML-tags og den associerende tekst.
sub text {
my ($self, $text) = @_;
print "$text\n";
}
Det samme vil nedenstående kode gøre. Derfor undrer jeg mig over, hvordan man får fat på <a href="">, når ingen af de to returnerer den del af HTML-koden.
sub start {
my ($self, $start) = @_;
print "$start\n";
}
Desuden har jeg i et online-eksempel set at start kan modtage en hel del parametre:
my ($self, $tag, $attr, $attrseq, $origtext) = @_;
Er det via $tag som man kan bruge til at finde 'a href'? Eller sagt på en anden måde: Hvordan skal Perl-scriptet være opbygget for at jeg kan opnå mit mål?