Avatar billede andreasepg Nybegynder
22. februar 2011 - 15:13 Der er 1 løsning

pdftohtml arabiske tegn

Hej,

Der er følgende installeret på den Ubuntu server jeg kører på: http://linux.die.net/man/1/pdftohtml
Jeg bruger det til at konvetere PDF filer til XML som jeg derefter kan parse.

Programmet bliver kaldt igennem PHP:
exec("/usr/bin/pdftohtml 2>&1 -xml <some-path>");

Mit problem opstår når jeg vil konvetere en PDF fil med arabiske bogstaver, de bliver simpelthen bare ignoreret - og jeg får et tomt XML feed. (Tal og latinske bogstaver bliver korrekt oversat).

Jeg prøver at parse følgende PDF:
http://www.dmi.gov.ae/press/uploads%5C2011%5CMar%5Cdocs%5CLarge_260.pdf
Avatar billede andreasepg Nybegynder
11. april 2011 - 11:38 #1
lukker.
ingen løsning
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester