Avatar billede vitaminen Nybegynder
21. november 2006 - 17:47 Der er 3 kommentarer

Hent tekst fra pdf fil

Hej eksperten brugere

Er det muligt, at hente al tekst ud fra en pdf og gemme som fx. .txt? Altså tekst som du manuelt kan markere i Adobe Acrobat Reader og så copy/paste. Det er altså ikke tekst, der er del af et billede, jeg er interesseret i.

Jeg kan java og php, så håber det kan lade sig gøre i en af disse sprog? :)

Hvis det er muligt, i så fald hvordan?

På forhånd tak
Rune
Avatar billede davidfossil Nybegynder
21. november 2006 - 20:00 #1
iText er et ret fornuft Java API til at læse/skrive PDF:
http://www.lowagie.com/iText/
Avatar billede davidfossil Nybegynder
21. november 2006 - 20:04 #2
Du skal dog være opmærksom på at PDF-formatet er et format til publicering af færdige dokumenter, og det kan derfor være meget svært at trække noget ud af en PDF-fil som ligner den oprindelige tekst.

Endvidere bør jeg nok tilføje til min første kommentar, at jeg kun selv har brugt iText til at skrive/tilføje til PDF og således ikke er klar over om den har de nødvendige metoder til at extracte tekst overhovedet.
Avatar billede vitaminen Nybegynder
21. november 2006 - 22:53 #3
Fandt løsningen på: http://dk2.php.net/pdf

lidt nede under kommentarer.

Ellers tak :)
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester