Udtræk af data fra html til xml
Jeg har omkring 220000 html documenter , der indeholder informationer om brugere fra et website. Jeg ønkser at organisere informationerne i en xml fil.html filerne er på omkring 1000 linjer.
De er formateret således at der vil stå
<td>Datatype</td> // f.eks bruger oprettet dato.
efterfulgt af
<td>Data</td>
disse data er naturligvis omgivet af en masse andre html blocke (dog ikke på samme linje).
der er ialt 14 stykker data af denne type der skal trækkes ud.
Eftersom det er noget der kun skal gøres en gang, er jeg ligeglad med om løsningen er i form af et commercielt program, eller en kildekode der kan køres i compiler.