Avatar billede carsten1973 Nybegynder
20. maj 2012 - 09:54 Der er 6 kommentarer

Problemer med at indlæse de rette beløb fra faktura

Jeg arbejder lige nu på et program (php), som skal trække konti, beløb, ordrenummer mm. ud af en scannet faktura (pdf fil). Jeg har afprøvet forskellig software som "convert doc", "simple pdf to text","A pdf text extractor" mm. Jeg har ikke haft problemer med at trække tekst ud og efterfølgende finde ordrenummer, konti , leverandør mm og udskrive disse tile en excelfil. Kæden hopper af, når jeg skal finde de beløb, som skal trækkes fra den pågældende konto, da jeg har fundet ud af, at teksten i de scannede filer bliver læst på forskellige måder (vandret, lodret eller hulter til bulter. Pråblemet er uddybet i vedhæftede fil.

INformationerne kan ikke bare hentes fra en database, da pdf filerne kommer fra en leverandør. Det meste virker bortset fra at få de passende beløb ud fra den pågældende konto og uden en løsning på dette vil mit projekt ikke kunne sættes i drift.

Jeg ser frem til at høre fra nogen, som har stået med et lignende problem.
Avatar billede Wally1973 Praktikant
20. maj 2012 - 10:04 #1
Dit problem er formentligt dit output.
Prøv om du kan få din converter til at opfatte dit input som ren tekst uden formatering, hvilket måske kan sættes med parametre.

Typisk vil man dog kontakte leverandøren og høre om det ikke er muligt at få fakturaen i et andet format.
De fleste regnskabssystemer har mulighed for at udlæse i andre formater og typisk også i formater der er specielt velegnet til EDI.
Avatar billede carsten1973 Nybegynder
20. maj 2012 - 10:04 #2
Her er linket til filen, som uddyber mit problem
http://bodhgaya73.dk/fakturaeksempel.pdf
Avatar billede Wally1973 Praktikant
20. maj 2012 - 10:20 #3
Ups, der skulle have stået input i første linje også. :)
Du skal undgå al formateringsbehandling i din converter og så selv efterbehandle udtrækket i dine egen kode.
Avatar billede carsten1973 Nybegynder
20. maj 2012 - 15:02 #4
jeg behandler det allerede i egen kode, men problemer er, at tallene ikke bliver læst ind i en logisk rækkefølge, hvilket gør det meget svært at finde de passende beløb til de rigtige konti. NOgle steder kommer rabatten efter "subtotal" og andre steder før "subtotal".
Det nemmeste vil være noget der læser kolonnerne lodret for så har beløbene i højre kolonne samme rækkefølge som kontiene i venstre kolonne.
Avatar billede Wally1973 Praktikant
20. maj 2012 - 15:07 #5
Det er netop det der går galt.
Din converter prøver at gætte formateringen og det fejler.
Den skal læse det hele som ren tekst og så må du med hjælp af arrays og andet finde de rette værdier.
Avatar billede carsten1973 Nybegynder
23. maj 2012 - 10:36 #6
Jeg kommer videre nu i og med, at jeg har fundet noget som omdanner pdf filerne til txtfiler, hvor positionen på ordene er angivet. Mit problem er nu, at når jeg uploader txtfilen til serveren, kan jeg se nogle mærkelige tegn, når jeg åbner filen (ligner kinesiske tegn).
Men jeg kan fint trække teksten ud og vise den i browseren. Her får jeg nøjagtigt den samme tekst, i tekst filen inden jeg uploader den. Probelmet opstår, når jeg skal trække værdier ud vha php.Her kan jeg pludselig kun finde eneklte bogstaver. DVs jeg kan f.eks godt finde strpos på S, men ikke på Sol. Det virker som, at der er usynlige bogstaver mellem hvert bogstav, som kun php koden kan se.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester