HTML-parser søges
Jeg er ved at lave en web cravler, dvs. et program der "kravler" rundt på web og finder web-sider og gemmer sidernes meta-information til senere opslag. Jeg laver det for sjov, men måske kan jeg senere "berige" mine studerende med denne opgave.Jeg savner en HTML-parser, dvs. en klasse / metode, der kan parse HTML-kode og finde referencer til andre sider <a href="...">.
Jeg har kigget på javax.swing.text.html.parser http://java.sun.com/products/jdk/1.2/docs/api/javax/swing/text/html/parser/package-summary.html men dokumentationen er meget sparsom, og jeg har ikke fundet nogen eksempler på anvendelse.
Kan I henvise til bedre dokumentation eller eksempler på parsing af HTML-filer.
- Anders