Avatar billede Buckie Nybegynder
19. maj 2009 - 15:05 Der er 1 kommentar

Udtræk af data fra html til xml

Jeg har omkring 220000 html documenter , der indeholder informationer om brugere fra et website. Jeg ønkser at organisere informationerne i en xml fil.

html filerne er på omkring 1000 linjer.

De er formateret således at der vil stå

<td>Datatype</td> // f.eks bruger oprettet dato.
efterfulgt af
<td>Data</td>

disse data er naturligvis omgivet af en masse andre html blocke (dog ikke på samme linje).

der er ialt 14 stykker data af denne type der skal trækkes ud.
Eftersom det er noget der kun skal gøres en gang, er jeg ligeglad med om løsningen er i form af et commercielt program, eller en kildekode der kan køres i compiler.
Avatar billede kdasummer Nybegynder
06. juli 2009 - 09:54 #1
Hvis du er villig til at bruge python har jeg skrevet noget der rekursivt går igennem en mappe og henter visse dele i html-dokumenter. du kan sende mig en kopi af en af de filer du vil hive data ud fra, så kan jeg få det tilpasset, medmindre du selv kan python, så kan jeg bare skrive kildekoden her?

min mail er jan (på) xmoo (punktum) dk
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester



IT-JOB

Udviklings- og Forenklingsstyrelsen

ITSM-koordinator

AURA A/S

Data Engineer

Unik System Design A/S

Head of Internal IT