Avatar billede chrishunter Nybegynder
07. juni 2007 - 09:35 Der er 6 kommentarer og
1 løsning

læse en tabel på en Internetside

Jeg har brug for med jævne mellemrum at læse en bestemt side på Internet og så finde cellerne i den table, den indeholder.
Noget i de enkelte celler skal så gemmes i en MySQL database. Og jeg forestiller mig at implementere det i C++

Så jeg har brug for at vide
- hvordan jeg i C++ læser en specifik side på Internet
- hvordan jeg nemt finder specifikke tags og deres indhold
- eller endnu bedre, hvordan jeg finder indholdet af de enkelte celler

Er der nogen, der kan fortælle, hvordan jeg skal gøre dette, eller henvise til et sted, hvor koden allerede er lavet?


Venlig hilsen

Christian
Avatar billede tokelil Nybegynder
07. juni 2007 - 11:05 #1
1) For at læse en side, så skal du lave et alm. GET HTTP request til internet adressen. Det kræver selvfølgelig at du opretter Sockets mv. du kan connecte fra eller at du bruger et bibliotek som libCURL. (http://curl.haxx.se/libcurl/) libCURL er rimeligt nemt at gå til.

Hvordan du nemmest parser indholdet af siden, afhænger meget af hvad det er for en side du vil parse og hvor meget du ved om indholdet på den efter min mening.
Hvis du f.eks. er sikker på at siden ikke indeholder andet end det data du skal bruge, så ville jeg nok bare parse top-down. (Så den først finder <table>, derefter <tr>, og så <td>data</td>)
Avatar billede chrishunter Nybegynder
07. juni 2007 - 11:36 #2
Tak for linket til libCurl, som vel meget er det, jeg skal bruge.

Vedr. det med at lave en parser, så har du ret, og jeg kunne implementere det på den måde. Men jeg kan ikke forestille mig, at der ikke er andre, der har lavet noget tilsvarende tidligere. Der må være parserer derude.
Så hvis der er, så lad mig det vide.
Avatar billede tokelil Nybegynder
07. juni 2007 - 11:54 #3
Du har sikkert ret i der er nogen der har lavet en html parser. Har du søgt på codeguru osv. efter det? Evt. Sourceforge.net for open source projekter?
Avatar billede neoman Novice
07. juni 2007 - 11:58 #4
Googl "Screen scraping"
Avatar billede neoman Novice
07. juni 2007 - 12:00 #5
Avatar billede arne_v Ekspert
07. juni 2007 - 15:12 #6
Maaske kunne regex bruges til at henet ud med.
Avatar billede chrishunter Nybegynder
27. april 2008 - 13:53 #7
Emnet afsluttes ...
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester